Komplett genervt von Google


Aus Langeweile habe ich heute mir erneut den Spaß gegönnt, wahllos in meinem Blog einen älteren Artikel anzuklicken, dort einen Halbsatz in die Zwischenablage zu kopieren und das ganze bei Google einzutippen. Was passiert dann? Im Grunde simuliert man so, wie der Ablauf ist, wenn jemand unbedingt mein Weblog lesen will und er ganz speziell nach einer Wortfolge sucht. Leider zeigt Google keine Treffer an, mein Blog ist also noch gar nicht im Index enthalten. Im Grunde ist soetwas in den gängigen SEO Ratgebern gar nicht vorgesehen weil es dort ja immer darum geht den Pagerank zu erhöhen, also dafür zu sorgen, dass das eigene Blog nicht auf Platz 100000 angezeigt wird, sondern weiter oben. Nur, in meinem Fall ist der blog noch gar nicht in der Liste drin, insofern bringt es nichts über den Pagerank zu diskutieren.

Jetzt kann man natürlich fragen, ob mich google vielleicht nicht mag. Also der Meinung ist, dass der Content nicht gut genug ist. Nur das Problem ist, dass das nicht der eigentliche Grund ist. Meiner altes Blog wo exakt der selbe Content drin war, lässt sich über Google wunderbar finden, obwohl das Blog gar nicht mehr online ist. Und einige Artikel werden gefunden, andere hingegen nicht. Mein Eindruck ist eher, dass Google schlichtweg keine Ahnung hat, wie man eine Suchmaschine aufbaut. Das da also zwar irgendwo ein Index existiert dieser aber veraltet, ungenau und unvollständig ist. Bisher hat das noch niemand bemerkt, weil alle denken dass Google das beste ist. Richtig ist, dass man mit Google relativ gute Treffer erhält. Wer nach einem bestimmten Thema sucht und die Stichworte vorgibt erhält meist das gewünschte Ergebnis. Wenn man jedoch schlichtweg eine Volltextsuche benötigt, also eine simple Funktion wo man den Textstring vorgibt und Google soll dann sagen, auf welchen Webseiten der String enthalten ist, dann sieht es bei Google sehr schlecht aus.

Ich vermute, dass es eine Mischung ist aus zu leistungsschwacher Hardware, falscher Konfiguration, übermäßige Bürokratie und schlichtweg schlecht entwickelte Robot-Crawlern die dazu führt, dass Google keinen Plan hat wie das Internet aktuell aussieht. Meine Vermutung geht in die Richtung, dass mein Blog vermutlich in 2 Jahren gut und vollständig indiziert ist. Weil erst dann die vielen Links, Likes oder was auch immer ausgewertet und verarbeitet wurden. Anders formuliert, wer eine neue Webseite aufsetzt, dort Content hineingibt und dann auf Traffic hofft dürfte enttäuscht werden.

Komischerweise funktioniert die Google Volltextsuche bei den großen Webseiten perfekt. Wer einen Textstring sucht den er aus Wikipedia rauskopiert hat oder bei heise.de (und selbst wenn es nur irgendein unwichtiger Kommentar links unten ist) dann findet Google die Seite auf Anhieb. Ich vermute mal, dass Google handgepflegete URL Listen vorhält wo die Suchmaschine die volle Leistung bringt und das das übrige Internet hingegen nicht oder nur verzögert erfasst wird.

Was Google benötigt ist eine Modernisierung, also bessere Hardware, modernere Software, mehr Bandbreite und vor allem weniger Bürokratie. Wer mal etwas näher recherchiert wird erstaunt feststellen, dass Google immernoch mit mechanischen Festplatten arbeitet. Aus Kostengründen sind auch ältere Platten darunter mit weniger als 320 Gigabyte. Ist es womöglich so, dass Google das Internet nicht im Griff hat? Insider sagen, dass es in den Google Datacentern aussieht wie in einem Computermuseum, wo altersschwache Hardware vor sich hinrostet und wo man es schon vor langer Zeit aufgegeben hat, mithalten zu wollen mit dem technologischen Fortschritt. Vielleicht hat das etwas mit der räumlichen Nähe zum Computerhistory Museum zu tun, was ebenfalls im Silicon Valley liegt. Die Gefahr besteht, dass sich Google die dort ausgestellte Computertechnik zum Vorbild nimmt und annimmt, dass man eine Suchmaschine auch mit IBM Mainframes aus den 1970’er betreiben könne.

Google behauptet von sich eine Volltext-Suchmaschine zu sein. In Wahrheit ist es jedoch nur ein automatisierter Index. Technisch gesehen ist Google gar nicht in der Lage das Internet in eine Datenbank zu speichern und darauf Suchanfragen auszuführen. Sie haben dazu weder die Server-Kapazität noch die nötigen Scripte.

In den bibliometrischen Studien wird dieser Versagen mit dem Allzweck-Begriff DeepWeb umschrieben. Nur, ein WordPress Blog wie dieses hier gehört wohl kaum zum DeepWeb, es ist weder hinter einer Paywall verborgen, noch gibt es dahintergeschaltete Datenbanken wo man sich erst anmelden muss. Im Gegenteil, wenn ich die WordPress-Hilfe richtig verstehen, sendet WordPress bei jedem neu erstellten Posting automatisch eine Nachricht an Google. Das Problem ist ein anderes: wollte Google tatsächlich das sichtbare Internet indizieren würden sie dafür mehr Server benötigen, die haben sie jedoch nicht. Also indiziert Google die Alexa Top1000 Webseiten und der Rest wird dann irgendwann später berücksichtigt. Aus Sicht der Google Suchmaschine ist jede Webseite die nicht in den Top1000 ist automatisch DeepWeb was bedeutet, dass es nicht mit Google im Volltext durchsuchbar ist.

ANDERE WEBSEITEN
Jetzt kann man natürlich zurecht fragen, warum ausgerechnet mein Weblog Trollheaven so wichtig sein soll, dass Google hier einen Robot vorbeschicken muss. Aber das Problem betrifft andere Webseiten genauso. Nehmen wir uns dochmal eine zufälliges PDF Dokument von Academia.edu was auf English erstellt wurde und kopieren daraus einen Halbsatz heraus. Wenn Google wirklich eine leistungsfähige Volltextsuchmaschine wäre, müsste nach Eingabe des Strings ins Suchformular die URL gefunden werden. Leider passiert das nicht, es wird angezeigt „Keine Ergebnisse“. Anders gesagt, die Seite wurde nicht indiziert und das sogar bei einem wissenschaftlichen Paper auf einer größeren Webseite.

Natürlich kann man auch hier wieder fragen: wiso muss ein wissenschaftliches Paper, was auf English ist und sich mit Robotern beschäftigt im Google als Volltext durchsuchbar sein. Ist das wirklich relevant, weisen genug Backlinks darauf, und überhaupt ist darin etwas neues enthalten? Nur, eigentlich war Google als Volltextsuchmaschine gestartet; wollte also das WWW durchsuchbar machen. Und die Idee, die Einträge nach Relevanz zu sortieren kam erst später hinzu. Wo bitte ist die versprochene Volltextsuche?

Umso merkwürdiger das Wehklagen von Leuten die unterstellen, dass Google eine übermächtige Suchmaschine wäre die uns alle zu gläsernen Bürgern macht. Google schafft es nichtmal das Surface Web zu indizieren. Davon, durch irgendwelche Paywalls hindurch auch die geheimen Dokumente zu scannen noch gar nicht geredet.

Advertisements

Ein Gedanke zu “Komplett genervt von Google

  1. würde mich nicht wundern wenn Google „The Next Big Thing“ am entwickeln wäre…
    Gedankensteuerte Textsuche
    oder irgend eine schräge Idee aus der Porno-Industrie um noch mehr noch besser noch userfreundlicher irgendswas suchen und verkaufen zukönnen….
    Also wenn betimmte Dinge von Globalplayern nicht (mehr) gepflegt werden weil
    die Usergruppe keine Stimme bei Google haben und sehen nicht das Globalplayer keine Wohltäter sind,es nicht schick aussieht und Geld kostet…

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s