Bug: Indizierung durch Google geht nicht

Eine Faustregel besagt dass neue Webseiten mit einer Verzögerung von 2 Tagen bis 4 Wochen in den Google Index aufgenommen werden. Solange dauert es, bis der Googlebot die Webseite scannt und in die Datenbank überträgt. Das klingt erstmal gut, nur leider stimmt diese Geschichte nicht. Ich habe mal die Probe aufs Exampel gemacht und aus meinem eigenen Weblog einen kompletten Satz herauskopiert und danach gesucht. Ergebnis: 0 Treffer, Google konnte den Volltext nicht finden. Und der Satz stammte aus einem Posting was ich im Juni 2016 geschrieben habe (also vor 6 Monaten). Wenn ich hingegen gezielt nach Stichwörtern gesucht habe, wurde manchmal mein Blog angezeigt und sogar auf Platz 1. Das ist ja logisch, weil ich genau wusste wonach ich gesucht habe.

Es bleibt jedoch die Frage wieso ein vollständiger Satz von Google nicht gefunden wird. Mit einem Pagerank hat das nicht viel zu tun, weil der Satz aus einem meiner Blogposts weltweit einmalig ist, er ist ähnlich wie eine ID, das heißt, es gibt keine andere Webseite wo exakt diese Wortreihenfolge verwendet wird. Wenn also das Blog im Google Index wäre, dann müsste es auch angezeigt werden. Die Hintergründe sind dazu unklar. Das Problem kann man verkürzt wie folgt beschreiben: Auch nach 6 Monaten wird mein Blog nicht in den Index aufgenommen und kann nicht über eine Volltext Recherche gefunden werden.

Natürlich wird mein Google bei Google gespeichert sein, weil wie gesagt, manchmal erhält man ein Ergebnis. Aber offenbar funktioniert der Algorithmus anders als man gemeinhin annimmt. Das heißt, die Vorstellung dass es einen Googlebot gibt, der neue Webseiten scannt ist vermutlich eine Lüge.

Eine Theorie dazu habe ich auch schon. Und zwar lautet diese dass private Blog überhaupt nicht von Google indiziert werden, sondern ausschließlich große bekannte Webseiten. Ein Beispiel: wenn man einen Satz aus dem Blog netzpolitik.org herauskopiert der vor 2 Monaten dort geschrieben stand und diesen schön in Anführungszeichen in die Google Suchmaske eingibt wird wie zu erwarten war, die Seite gefunden. Man sieht dann exakt den Link. Auch hier ist dieser Satz weltweit einmalig. Das geht auch bei Blogposts die erst vor 2 Stunden geschrieben wurden. Das heißt, netzpolitik.org ist vollständig im Googleindex enthalten und kann auch darüber gefunden werden. Offenbar gibt es eine Priorisierung, wonach große Webseiten im Volltext indiziert werden, und kleinere private Blogs überhaupt nicht indiziert werden.

Wohlgemerkt, es geht hier nicht um die Frage wie gut oder schlecht eine Webseite bewertet wird. Das wird bekanntlich durch die Zahl der Links bestimmt und auf mein Blog zeigen wenig bis gar keine Links. Infolge dessen wird die Seite immer sehr weit unten in der Trefferliste erscheinen, und damit bin ich auch einverstanden. Sondern die Frage ist, ob die Seite rein technisch überhaupt im Index ist, also ob man sie mit einer „Exact match“ Anfrage findet.

SUCHEN IM VOLLTEXT
Machen wir noch ein weiteres Experiment. Auf der Webseite heise.de gibt es ein schönes Archiv. Aus dem Jahr 2004 wählen wir uns wahllos einen Artikel aus scrollen dort zur Mitte des Texte und kopieren folgenden Satz in die Zwischenablage:

„Eigentlich galt die Kondensation von Fermi-Teilchen als ein Widerspruch in sich,“

Und jetzt geben wir diesen Satz in die Google Suchmaske ein. Lässt man die Anführungszeichen weg gibt es sehr viele Treffer, der heise Artikel erscheint auf Platz 1 der Rangliste. Setzt man die Anführungszeichen gibt es nur noch 3 Treffer, wieder ist der Heise Artikel auf Platz 1, und die beiden anderen Seiten zitieren den Artikel wörtlich. Soweit ist das genau das Verhalten was man von einer Suchmaschine erwartet. Im Grunde wurde damit bewiesen, dass der Heise Artikel im Suchindex von Google enthalten ist und er auf Nachfrage gefunden wird.

EXPERIMENTE MIT DEM GOOGLE SUCHINDEX
Machen wir zu der Frage, ob und wie Webseiten indiziert werden noch weitere Experimente. Zunächst einmal mit Hilfe eines Satzes, den ich auf netzpolitik.org in den Kommentaren gepostet habe. Und voila, Google findet den Satz auf Anhieb und zeigt den richtigen Link. Jetzt nehme ich irgendein Blog aus dem WWW was erkennbar wenig bis gar keine Aufrufe hatte und kopiere dort einen Satz heraus. Und Error: Google findet das Blog nicht. Er werden null Treffer angezeigt. Das Blog wurde also noch gar nicht indiziert. Was sagt uns das? Es besagt zunächst einmal, dass Google nichts gegen mich persönlich hat weil es die Dinge die ich woanders poste brav indiziert. Sondern Google weigert sich mein Blog und andere Blogs die wenig Traffic generieren in den Suchindex aufzunehmen.

Aber warum ist das so? Ich habe keine Ahnung. Es widerspricht der üblichen Annahme, dass es einerseits einen googlebot gibt der rein technisch eine Seite speichert und zweitens dann einen Pagerank Algorithmus der ausgibt wieweit oben die Seite angezeigt wird.

SITE PARAMETER
Machen wir noch weitere Experimente mit dem Google Suchindex. Aus einem älteren Artikel der in meinem Blog erschienen ist stammt folgender Satz:

"Die Möglichkeit von Leben auf anderen Planeten wird häufig mit zwei naturwissenschaftlichen Theorien erklärt"

Gibt man diesen bei Google ein, wird kein Treffer angezeigt. Wenn man hingegen noch einen Parameter hinzufügt:

"Die Möglichkeit von Leben auf anderen Planeten wird häufig mit zwei naturwissenschaftlichen Theorien erklärt" site:trollheaven.wordpress.com

Dann wird das Blog angezeigt. Aber auch nicht richtig, weil die Treffermenge immernoch 0 ist, aber darunter steht dann dass es Treffer ohne Anführungszeichen gab, so dass offenbar mein Blog doch da irgendwie gespeichert wurde.

ZUSAMMENFASSUNG
Die bisher gewonnenen Erkenntnisse machen nur Sinn wenn man folgende Funktionsweise der Google Suchmaschine annimmt. Wenn man ins Internet etwas postet wird das unmittelbar vom Googlebot erfasst und auf die Server von Google kopiert. Welche Treffermange dann jedoch über das Suchfenster angezeigt wird, hängt von der Priorität ab die Google einer Webseite einräumt. Sucht man nach Textstrings auf den großen Portalen werden diese sofort angezeigt. Sucht man nach Textstrings auf kleinen Blogs und gibt den Site:parameter als Zusatz an, so werden sie zumindest mit etwas Glück angezeigt, lässt man den Site-Parameter weg wird überhaupt kein Treffer angezeigt.

Oberhalb von dieser Exact-Match-Suche wird dann ein pagerank Algorithmus genutzt, der bestimmt an welcher Position die Webseite gerankt wird.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s