Böser Crawler: Yasni

Yasni ist eine Personensuchmaschine. Sie versucht zu einer Person alle im Netz verfügbaren Daten zu aggregieren, und das nicht nur aus dem einfachen Web, nein, auch aus öffentlichen Datenbanken und Social Whatever Seiten (Facebook, Google+, etc). Ich hab's gerne mal benutzt um zu gucken wie mein Internetprofil aussieht. 

Jetzt ist deren Crawler auf meiner Homepage aufgeschlagen. Erkennbar nur durch den Reverse-DNS-Eintrag *.yasni.de. Den Crawler selber tarnen die wohl lieber als einfachen Browser ""Mozilla/5.0 (X11; Linux i686; rv:6.0) Gecko/20100101 Firefox/6.0". Eine Wartezeit zwischen den Aufrufen ist nicht zu erkennen, der Crawler macht auch gerne parallele Anfragen. Oh, und einen Treffer auf die robots.txt konnte ich nicht finden, also wird er sie wohl auch ganz ignorieren ;) 

Anfragen kamen von: 

  • abcd-ovh4.yasni.de 94.23.225.68
  • abcd-ovh3.yasni.de 176.31.246.150
  • abcd-ovh1.yasni.de 176.31.244.198

Yasni an sich ist ja ganz okay, aber der Crawler ist pfui.. darum geblockt!

 

netEstate Bots

Momentan spiel ich ein bisschen mit mod_security für Apache rum. Nix wildes, man könnte alles auch mit Apache Bordmitteln machen. Ziel ist es meine Statistiken wieder sauber zu kriegen die derzeit vor allem von Bots verhunzt werden. Da ist wirklich eine menge Schrott dabei. 

Drei Bots sind mir besonders aufgefallen:

  • netEstate FOAF crawler
  • netEstate NE Crawler
  • netEstate RSS crawler

Weniger durch ihr Verhalten sondern eher eher weil sich im Netz nicht sonderlich viel dazu findet. Am ehesten landet man man auf der Homepage von der Firma dahinter (netestate.de), die Selbstdarstellung lautet "netEstate ist seit 1997 erfolgreich als online-Agentur und Systemhaus tätig." Hm, ich hab erfolgreich 15 Jahre lang nichts von denen gehört. Was mich ein bisschen stutzig macht ist das sonst keinder was zu den Crawlern schreibt. Entweder sind die so neu oder werden aus anderen Gründen totgeschwiegen. 

Ich hab die jetzt mal auf meinen mir unterstellten Servern geblockt. Warum? Der Einsatzzweck der Crawler und der gesammelten Daten hört sich für mich nicht an als wenn als Webseitenbetreiber so erfasst werden möchte. 

Da wäre der Impressumscrawler:

Der Impressums-Crawler von netEstate ist in der Lage, die Impressumsseite einer Website zu finden und daraus Adressen, Kontaktdaten und Firmennamen aus Deutschland, Österreich und der Schweiz zu extrahieren. Er kann als Webservice oder per Batch-Verarbeitung genutzt werden und eignet sich besonders als Werkzeug zur Adressprüfung.

Aha, wer kann da Adressen prüfen? Der Seitenbetreiber selber? Die Konkurrenz und dann gegebenfalls abmahnen und irgendwelche Firmen die entweder dann die Firma vollspammen oder ihre eigenen Datenbanken verifiieren wollen? Oder zum Aufspüren von Nebentätigkeiten? Also mir fällt nix ein warum man da auftauchen wollen möchte. 

Der Imagecrawler:

Der Image-Crawler von netEstate versucht dasjenige Bild auf einer einzelnen Seite (URL) zu finden, welches den Inhalt der Seite am besten repräsentiert.

 

Ich empfehle für meine Seite ein Arsch mit Ohren.. dürfte wohl am besten passen. Ups, dafür muss ich den ja auf meine Homepage hochladen. Wie sinnvoll sowas ist und ob's der erzeugte Traffic wert ist, das darf jeder für sich selber entscheiden. Oh, oder dient so eine Imagedatenbank vielleicht noch anderen Zwecken (Urheberrechtsüberrprüfungen?), denkbar wär's.

Der Suchmaschinen-Crawler (sengine.info)

Unsere Website search engine durchsucht die Metadaten von mehr als 78 Mio Websites. Sie können Listen von dabei entdeckten Domains bei uns erwerben: Domain-Datenbank.

Hm, was könnte man mit einer Liste aller Domains anfangen? Domains grabben? Irgendwelche Statistiken drüber fahren? Ehrlich gesagt. Keine Ahnung. Blocken hilft hier aber nicht, die Domain-Datenbank wird über Links und DNS gefüttert.  Die Suchmaschine selber hmm ist nicht sehr hilfreich. Mein ultimativer Suchmaschinentest "Was findet man unter dem Suchbegriff PuTTY" zeigt wie unbrauchbar die Suchmaschine ist. Na gut, steckt vielleicht in den Kinderschuhen, warten wir mal eine Generation. 

 

Sorry, mein Traffic ist mir der Schrott nicht wert -> Block

 

 

 

 

blockquote

AMD: Der beschissenste Treiber II

Ich könnte gerade wieder ausrasten. Ich hab mir für meinen Linux PC eine AMD Radeon 5450 gekauft. Die schwächste Radeon überhaupt, aber dafür ist sie passiv gekühlt. Ich wollte mal fühlen wie warm sie denn wird und hab mir ernsthaft die Finger verbrannt. Klar, der Wärmesensor sagt ja auch 72°C. Laut diversen Benchmark-Seiten ist das die Temperatur unter Volllast. Und warum läuft die Karte die ganze Zeit unter Volllast? Weil der Open-Source Radeon Treiber lieber nicht mit den Stromsparmodi rumspielt und lieber auf Volllast läuft. Oh, laut Phoronix kann man per Einstellung dem Treiber erlauben Stromsparmodi zu benutzen, aber:

This option also only works in single-display configurations.

Tja, der Treiber kann das mehr schlecht als recht und ab dem zweiten angeschlossenen Monitor kann er es überhaupt nicht mehr.. Toll. Also mit Linux schont man die Umwelt bestimmt nichtt ;) 
Also wollte ich mal den wieder den proprietären Treiber von AMD ausprobieren, das lief beim letzten Mal ja nicht ganz so gut.  Okay, erstmal schlug die Treiberinstallation "fehl". Naja, nciht wirklich, den Treiber hat Ubuntu mit seinem Tool für propietäre Treiber installiert, aber trotzdem einen Fehler gemeldet. Blöd, dass das berühmt-berüchtigte AMD Control Center nicht läuft. Es läuft schon, aber passiert nix. Wenn man es mal im Terminal startet, dann sieht man auch warum, es beendet sich mti einem "Speicherzugriffsfehler" aka Segmentation Fault aka Segfault. Echt geil. Wenn man mal ein strace macht, dann hilft einem das auch nicht weiter. Er checkt zuletzt die /etc/passwd und stirbt dann einfach. Ok, gegoogelt und das Ergebnis kann einem echt die Tränen in die Augen treiben. Die ältesten Meldungen sind von 2007 und nein, es wurde nie behoben und nein, es gibt keine einfache oder zumindest allgemeingültige Lösung aber zig Ansätze die dem einen oder anderen mal geholfen haben. Ja. das ist doch Qualitätssoftware. Und möchte man 2012 noch eine xorg.conf von Hand schreiben? Ich glaube nicht. 
Möchte man Linux/Unix überhaupt auf dem Desktop haben? Mittlerweile tendiere ich echt zu nein. Vielleicht wenn man zu Treiber/Hardware-Minimalismus neigt und man mit einem VGA-VESA-Framebuffer für X11 zufrieden ist, dann vielleicht ja. Ansonsten Windows bitte. Vielleicht sollte sich Microsoft einen neuen Slogan zulegen "It works!".
Oh, und es ist ncihts AMD-spezifisches. Mein Dienst-Notebook hat eine nVidia-Grafikkarte und Linux war vorinstalliert und es ist dort keinesfalls besser, nur habe ich auf der Arbeit nciht die Zeit mich hier auszukotzen. 

Schrott des Monats: Aten IP8000 Remote Management

Mittwoch Abend ist die OCZ Vertex 2 SSD in meinem Server ausgefallen. Leider hatte ich erst Freitag Abend wieder Zugriff auf die Kiste, so das 2 Tage keine Kommunikation mit mir möglich war (Jabber, E-Mail, Web) und mir auch ein ganze Menge anderer Dienste (Terminkalender, Source Code Repositories, Musik, diverse Dateien) fehlten. Tja, passiert. Da hatte ich die Idee mir eine Remote Management Console zuzulegen um die Kiste remote warten zu können. Auswahl gibt es da nicht viel. Am vielversprechensten sah noch die "ATEN IP8000 Remote Management PCI Card" aus, die ein Webinterface mit Remote Console und die Möglichkeit remote Medien einzubinden bietet. Momentan bin ich beruflich ein bisschen von den IBM IMM Interfaces verwöhnt :) 

Ich habe die Karte seit zwei Tagen im Einsatz und ich mag sie jetzt schon nicht mehr.

  • Die letzten Updates für Karte und Clients gab es 2009.
  • Die Web-Remoteconsole wird automatisch beendet wenn man das Webinterface weiter nutzt, beispielsweise um einen Reset auszulösen.
  • Remote ein Medium einbinden funktioniert nur mit dem zu installierenden Windows-Client, nicht mit dem Webinterface.
  • Selbst das funktioniert nicht zuverlässig, es kommt immer zu Lesefehler, das Verifizieren oder Laden eines Live Images braucht man gar nicht erst zu versuchen.
  • Das Webinterface lauscht standardmässig auf https(=:443), alles andere braucht weitere Ports, beispielsweise die Remote Console standardmässig 9000 -> nicht Firewall-optimiert.
  • Im Windows-Client funktioniert der Knopf "Admin-Utility" nicht, sondern bringt die Fehlermeldung "Configuration Data format is not correct"
  • Das Remote Console Fenster wird üblicherweise zu klein gewählt, man kriegt immer Scrollleisten und muss erstmal das Fenster groß ziehen. 
  • Die ALT-Taste wird aus irgendwelchen Gründen auf F12 gemappt, womit F12 erst funktioniert, wenn man das Mapping ändert.

Alles in allem ein Fehlkauf für 180 Euro.

Einerseits sehe ich ein, das man so eine kleine Stand-Alone Karte nicht mit den integrierten IMMs der IBM Server vergleichen kann, aber andererseits sage ich mir auch, das wenn eine Firma sowas als ein spezielles Produkt anbietet, dann sollte es auch überzeugend sein. 

Hardware/Treiber/Linux Weh-Wehchen

Letztes Wochenende ist mal wieder eine Hitachi Platte verreckt. Genau ein Jahr alt. Okay, es war keine für RAID-betrieb ausgelegte Platte, aber sie starb nicht im Dauerbetrieb, sondern wie die meisten Platten beim Neustart. Gute Gelegenheit Kochplatte durch eine kühle Western Digital zu ersetzen. 

Nächster Punkt, Western Digital.. Nicht meine bevorzugte Marke, aber Samsung hat ja mit den Festplatten aufgehört. Platte an PCIe SATA Controller angeschlossen und nur Fehler im Kernel Log gehabtls. Platte dann an den Mainboard-SATA-Controller angeschlossen, keine Probleme. Das Problem hatte ich mit den anderen zwei Western Digital Platten auch schon gehabt, deswegen laufen die am onboard-Controller. Das Problem scheint der Marvell 88SX7042 Chipsatz auf der Digitus Karte zu sein. Die Hitachis und Samsungs laufen ohne Probleme mit den gleichen Kabel daran.Laut Google macht der Chip allgemein Probleme. Interessanterweise werkelt auf den Western Digital Platten auch ein Marvell Chip

In meinem Rechner in meiner Zweitwohnung nutze ich ein Asus All-In-One Mainboard. Angenehmerweise war mal kein Crapware Netzwerkchip von RealTek verbaut, sondern einer von Atheros. Seit Mitte Dezember verliert der dauernd die Verbindung. ethtool sagt zwar Verbindung würde stehen, LEDs zeigen auch Verbindung an, aber es kommt nichts mehr durch. Der Router ist ok, das Kabel auch, die Karte wird auch noch von Linux gefunden. Scheint was mit einem zwischenzeitlich in Linux standardmässig aktivierten PCIe(?) Powermanagement zu sein. Hab da nicht groß rumprobiert, sondern einfach eine gute Intel Pro 1000T reingesteckt. (Links trage ich nach)

maXXim: Sie hatten die Wahl

So, ich muss mich jetzt mal über maXXim auskotzen. maXXim ist ein Prepaid-Handyprovider der 8ct/min bzw 8ct/SMS nimmt und das im D1 Netz. Bin da seit 2-3Jahren und eigentlich recht glücklich. Seit einem halben Jahr nerven die mit SMS und Mails das ich den günstigen 8ct Tarif wechseln sollte und in den ersten Monaten noch 30% sparen würde. Hm, ich bin doch im 8ct Tarif, warum soll ich dann wechseln? Oh geil... 30% Rabatt abgreifen ah.. nee, zufaul, lohnt sich bei meinen 5€/Monat doch nicht. Naja.. die Penetranz war schon nervig. Irgendwann hab ich dann mal nachgeguckt und des Pudels Kern gefunden, maXXim funkte zu dem Zeitpunkt neben D1 auch im O2 Netz und wenn ich mich nicht irre auch im D2 Netz. O2 ist um einiges billiger als Telekom, so ist es kein Wunder, dass maXXim die Kunden im eigenen Interesse dorthin schieben wollte, denn natürlich war der O2 Tarif gemeint, wo man hinwechseln sollte. Übrigens musste man sich durchs kleingedruckte wühlen um das herauszufinden.  Irgendwann gab es dann auch einen Werbeanruf, aber halt kein Bedarf, danke. 

Vor einiger Zeit bekam dann Drillisch, die Mutterfirma von Simply, die wiederum die Mutterfirma von maXXim ist, Probleme mit der Telekom. Ich vermute mal, dass das Firmenkontrukt so aufgebaut ist, immerhin sind die gleichen Hansel Chefs aller drei Firmen (Impressum Drillisch, Impressum Simply, Impressum maXXim). Das Generve ging weiter und heute kam dann die lang erwartete (und gefürchtete) Konsequenz der Telekom-Affäre, nämlich neue AGB. Ich kopier mal schamlos die wichtigsten Passagen.

Ziffer II. 1 AGB

Alt:

Die Leistungen des Diensteanbieters sind räumlich auf den Empfangs- und Sendebereich des von Telekom Deutschland GmbH betriebenen Mobilfunknetzes beschränkt. 

Neu

[...]

Die Auswahl des Netzinfrastrukturlieferanten einschließlich eines Wechsels des Lieferanten während der Vertragslaufzeit, liegt im Ermessen des Diensteanbieters; der Kunde hat insbesondere keinen Anspruch auf Nutzung eines bestimmten Mobilfunknetzes. [...]

Ja, maXXim nimmt sich jetzt das recht heraus einen Kunden nach eigenem Belieben jederzeit in ein anderes Netz zu verschieben, ganz wie es ihnen gefällt. Probleme hat dann der Kunde, wenn er in einem grottigen Netz landet, das vielleicht bei ihm überhaupt keine Abdeckung hat oder der gesamte Bekanntenkreis auf einmal in meinem ganz anderen Netz ist und einer oder beide ganz schlechteren Konditionen telefonieren muss. 

In einem weiteren Paragrafen in dem sich maXXim das Recht einräumte einen Vertag auf einen dritten zu übertragen (das Recht hätte man als Kunde gerne mal) ist auch ein bisschen erweitert worden und zwar auf folgende Firmen: 

  • Drillisch AG;
  • Drillisch Telecom GmbH;
  • MS Mobile Services GmbH;
  • SIMply Communications GmbH;
  • MSP Holding GmbH;
  • b2c.de GmbH, Boschetsrieder Strasse 67-69, 81379 München;
  • 1&1 Telecom GmbH, Elgendorfer Str. 57, 56410 Montabaur;
  • mobilcom-debitel GmbH, Hollerstraße 126, 24782 Büdelsdorf;
  • Telekom Deutschland GmbH, Landgrabenweg 151, 53227 Bonn;
  • Vodafone D2 GmbH, Am Seestern 1, 40547 Düsseldorf;
  • E-Plus Service GmbH & Co. KG, Edison-Allee 1,14473 Potsdam;
  • Telefónica Germany GmbH & Co. OHG, Georg-Brauchle-Ring 23-25, 80992 München.

Joa.. das bedeutet, das wenn maXXim irgendwann mal keinen Bock mehr auf einen hat, weil man beispielsweise zu wenig Umsatz bringt, dann wird man einfach zu einer anderen Firma abgeschoben. Oder noch weiter gedacht, wenn eine dieser Firmen genug Provision für den Kundenstamm zahlt, dann kann maXXim wohlportioniert die interessantestn Kunden bündelweise weiterverkaufen. Den Vertrag dürfen sie ja laut AGB übertragen. Und bei den Prämien die in der Branche gezahlt werden, werden wohl gerade schon nette Kundenpakete geschnürrt. 

In der Mail ist aber auch ein netter Link, auf den man nur klicken muss um den neuen AGB zu widersprechen, direkt mit Formtext als Mail. Super bequem, hab ich direkt gemacht. Aber jetzt bin ich mal auf die Reaktion gespannt. Ich rechne mit einer Kündigung in nächster Zeit, dann muss ich mir den nächsten Provider suchen, gibt ja genug. Und mir ist das D1-Netz wichtiger als meine Bequemlichkeit, abschieben lasse ich mich nicht. 

 

Oh, und die Mail hatte noch den Slogan von maXXim als Überschrift: "Sie haben die Wahl". Naja, passender wäre "Sie hatten die Wahl, jetzt haben wir sie!".

Endstation Packstation

In der hiesigen Packstation wartet ein wirklich wichtiges Paket auf mich. Leider wollte das Lesegerät meine Karte nicht mehr lesen. Hab gerade mit der Hotline telefoniert und noch während des Gesprächs kam per E-Mail eine Bestätigung das eine neue Karte unterwegs sei. Das ist fix. Und am Montag würde ein Techniker sich die das Lesegerät mal vornehmen. 

Aber an Paket komme ich trotzdem nicht so schnell ran. Ab Montag bin ich wieder auswärts unterwegs. Und es gibt keinen Prozess bei DHL sich das Paket woander hinschicken zu lassen. Weder an eine Alternativadresse noch an die hiesige Filiale. Das darf nur DHL entscheiden wann sie meinen mal wieder ein Paket an die Filiale um zu leiten. Es gibt also nur zwei Möglichkeiten ein einmal eingeliefertes Paket aus der Packstation raus zu bekommen: Abholen mit funktionierender Karte oder warten bis die Lagerfrist abläuft und das Paket zurückgeht... 

Thunderbird auf Xubuntu 11.10 öffnet Links immer in Firefox

Bei mir haben sich immer alle Links die ich in Thunderbird auf Xubuntu 11.10 angeklickt habe immer in Firefox geöffnet und nicht in Opera, obwohl Opera wirklich an allen mir bekannten Stellen eingetragen. Und es gibt verdammt viele Stellen wo in Linux irgendwo ein bestimmter Browser als Vorgabe eingestellt werden kann. In Thunderbird kann man nix einstellen. Angeblich regelt ein Eintrag in der user.js das Verhalten. Ok, gibt es nicht. Die Links in /etc/alternatives zeigten auch alle auf Opera. Alle Vorschläge (es waren einige!) aus einem Forum haben auch nicht geholfen. Bin dann über gnome-open gestolpert. Leider stand in der man page nicht wie der den zuständigen Browser festlegt, also einfach mal strace auf gnome-open angesetzt und /usr/share/applications/defaults.list gefunden. Dort überall firefox.desktop durch opera.desktop ersetzt und jetzt ist Opera wirklich der Standardbrowser. Auch für Thunderbird. Vermutlich gibt's für Gnome ein GUI-Tool um das einzustellen. Aber das ist natürlich nicht im Xfce-Menü verlinkt oder vielleicht auch gar nicht installiert... 

Mehr Leistung = Mehr Verbrauch

Ich hab gerade endlich mal mein Strommessgerät (diese kleinen Consumerdinger) an den PC angeschlossen um zu gucken, wieviel Saft mein neuer PC zieht. Und naja, es ist wohl kein Wunder, dass mir immer so warm ist. 

Mein System besteht aus 

  • Amazon Superflower 450 Watt Netzteil
  • Asrock 970 Extreme 4 Mainboard
  • AMD Phenom II X4 840 3,2GHz TDP 95 Watt
  • 4x 4GB DDR3 RAM
  • Radeon 6950 5% übertaktet vom Hersteller. Stromverbrauch angeblich >200 Watt
  • 1 SSD
  • 1 HDD
  • Xonar DX
  • Intel Gigabit NIC
  • 25cm Gehäuse Lüfter, Arctic Cooling whatever CPU-Lüfter.

Ich hatte mir schon Sorgen gemacht, dass das Netzteil zu klein sein könnte, aber jetzt nach dem Messen ist es ausreichend. Trotzdem sind die Werte etwas schockierend:

Zustand Verbrauch
Idle einige Zeit nach Booten in Windows 7, CPU Takt 800MHz 130 Watt
Minimale Last, CPU 3200Mhz 155 Watt
CPU+Grafik unter Last (3DMark 11, Battlefield Bad Company 2) <280 Watt

Die ersten beiden Werte sind recht konstant, der letzte schwankt grob gesagt dauernd zwischen 200 und 270 Watt. Immerhin ist das Netzteil ausreichend. Mit dem Spitzenwert kann ich leben, aber die die beiden anderen sind mir zu hoch.

130 Watt als "Grundlast" ist eindeutig zuviel, da da ja noch die Peripherie einschliesslich Monitore dazu kommt. Die 155 Watt sind mir zuviel, weil die CPU bei jeder Kleinigkeit den Multiplikator hochsetzt, also recht häufig auf Maximalleistung ist. Da werde ich mich noch mal dran setzen müssen. Was mir fehlt ist ein Tool wie Linux' powertop, wobei ich zweifle dass es bei einem Desktopsystem sinnvolle Werte liefern kann, weil dauernd irgendwo Aktivität ist um dem Benutzer ein "responsive" System zu bieten. 

Viel wird man da wohl nicht rausholen können. Oh, und laut ist die Kiste, lauter als die alte. Der alte PC brauchte auch "nur" 85 Watt im Leerlauf.

Eclipse, PDT und XDebug

Wenn man PDT mit Xdebug einsetzen möchte, beispielsweise für die CLI-Entwicklung, dann sollte man nicht vergessen display_errors in der php.ini auf On zu setzen. Die php.ini, die mit dem PHP-Windows-Installer ausgeliefert wird, setzt diese Variable nämlich standardmässig auf Off. Hat mich gerade eine gute Stunde gebraucht um rauszufinden warum das Skript beim kleinsten Fehler sang- und klanglos abschmiert.

Seiten