Google hat Platzprobleme auf den Servern

Laut http://live-counter.com/wie-gross-ist-das-internet/ bestand das Internet im Jahr 2012 aus 2,8 Zetabyte. Laut http://www.pc-magazin.de/ratgeber/google-erstaunliche-fakten-819002-8983.html hat Google im Jahr 2010 nur eine Speichermenge von 100 Millionen Gigabyte vorgehalten.

Zunächst die Frage: sind diese Zahlen realistisch? Vermutlich ja, in den 2,8 Zetabyte ist nur das sichtbare Internet enthalten, nicht jedoch das DeepWeb wo also in Firmenintranet und hinter Paywalls weitere Informationen abgelegt sind. Auch die Speicherschätzung von Google ist plausibel. Man nimmt an, dass Google rund 1 Mio Server besitzt, wenn jeder eine 100 GB Festplatte hat, kommt man auf die oben genannte Größe.

Setzen wir beides ins Verhältnis:
– 2,8 Zetabyte = 2,8*10^12 Gigabyte.
– 100 Mio Gigabyte = 100 * 10^6 Gigabyte

Das heißt, Google ist in der Lage 0,0036% des sichtbaren Internets auf seinen Servern zu speichern. Kann also das vollmundige Versprechen einer Volltextsuchmaschine nicht im Ansatz erfüllen. Kein Wunder, dass mein eigenes Blog und das von vielen anderen bis heute nicht über Google durchsuchbar ist. Google Serverpark ist bis zur Oberkante gefüllt und passt dort kein einziges Byte mehr hinein. Google ist so hoffnungslos überlastet mit der Aufgabe das WWW zu indizieren, dass man schon vor langer Zeit aufgegeben hat, soetwas wie ein Gatekeeper sein zu wollen.

Advertisements

Google hat Schuld am niedrigen Traffic

Mit Hinblick auf die extrem niedrigen Abrufzahlen in diesem Blog ist die naheliegenste Erklärung dass es an mangelnder Qualität liegt. Das also das Problem beim Blogautor zu suchen ist. Wenn man das ausschließen kann ist die nächst mögliche Erklärung, dass man zuwenig in anderen Blogs kommentiert. Und wenn man selber nichts kommentiert wird auch niemand zurückommentieren. Aber was wäre, wenn das beides nicht die tatsächliche Erklärung ist? Ich habe mal den Versuch gemacht, eine beliebige längere Textstelle aus diesem Blog zu suchen. Ergebnis: Google kennt das Blog noch gar nicht gar. Das heißt, selbst wenn jemand es gezielt suchen würde, und exakt den Textstring eingibt, der nur auf meinem Blog ist sonst aber nirgendwo wird er das Blog nicht über Google finden. Woran das liegt ist unklar, links auf die URL hierher sind alle gesetzt und in den WordPress Settings steht explizit drin „Robots are welcome“. Wie mir scheint liegt der Grund für den niedrigen Traffic ausschließlich bei Google. Es geht hier nicht nur um die Pagerank Frage, sondern es geht darum, ob Google überhaupt den Volltext gecrawelt hat.

Zu dieser Frage findet sich in den gängigen SEO Ratgebern nichts. Meist steht dort drin, dass man die URL an Google submitten soll. Dort aber heißt es dann, dass es trotzdem keine Garantie gibt dass sie auch gecrawelt wird. Offenbar gibt es also niemanden der die Verantwortung trägt wann und ob eine Webseite überhaupt im Index erscheint. Das ist schon sehr merkwürdig.

Vermutlich wird das ganze nicht nur meine eigenes Blog betreffen, ich habe mir mal den Spaß gemacht aus anderen WordPress-Blogs ebenfalls zur Probe mal einen kurzen signifikanten Halbsatz herauszukopieren um darüber dann das Blog gezielt über Google zu finden. Ergebnis: keine Treffer. Auch andere Blogs speichert Google nicht im Volltext. Die Erklärung dafür ist simpel: Die Jungs haben es einfach nicht drauf. Um auch kleinere Blogs im Volltext zu crawlen muss man schon etwas mehr Ahnung haben. Von Google kommt zwar viel Marketing-Kauderwelsch doch liefern können sie nicht.

Vielleicht sollte mal jemand Google erklären wie das genau funktioniert mit dem Aufsetzen eines Servers, mit dem Konfigurieren des Hadoop Clusters und mit dem Programmieren von Robots …

Ironischerweise ist mein altes Blog, was schon seit 6 Monaten stillgelegt ist noch immer im Google Index enthalten. Und wenn man danach sucht erscheint es sogar immer ganz oben. Bei Google ist doch nicht etwa ein Computervirus eingedrungen, der dort Schabernack treibt?

Aufnahme in den Google Index nur auf Anfrage

Vor einiger Zeit hatte ich darauf hingewiesen, dass mein Weblog noch nicht im Google Index enthalten ist. Zum Beweis habe ich dazu probeweise einen Halbsatz aus einem älteren Blogbeitrag kopiert, diesen in Anführungszeichen gesetzt und das bei Google als Suchanfrage eingegeben. Es wurde jedoch kein Treffer zurückgegeben, das heißt, wenn jemand explizit mein Blog finden wollte, wäre es selbst dann ihm nicht gelungen.

Inzwischen habe ich die URL manuell zu google übermittelt (submit URL) und siehe da, plötzlich wird der Halbsatz gefunden. Ich kann jetzt aus einem beliebigen Post einen Textstring bei Google eingeben und erhalte dann mein Blog angezeigt als den einzigsten Treffer. Zugegeben, damit ist zwar noch nicht für Traffic gesorgt weil es nachwie vor den Pagerank gibt, aber zumindest ist so sichergestellt, dass mein Blog zumindest an der allerletzten Position erscheint was schomal besser ist, als überhaupt nicht im Index aufzutauchen. Danke Google.

Weniger auf Zack ist die Suchmachine Bing. Auch dort habe ich manuell meine URL übermittelt, nur wenn ich dort einen Halbsatz als Textstring eingebe wird mein Blog nicht gefunden. Rein technisch gesehen müsste es dort ebenfalls als einziger Treffer angezeigt werden, aber nichts da.

Der Witz ist, dass laut der Statistik des Blogs der Crawler gar nicht vorbeigeschaut hat. Es war also nicht so, dass nach dem URL Submit der Traffic einmalig hochging und ein Bot alle Seiten eingelesen hat, sondern laut Traffic kam nie ein Google Robot vorbei. Vielmehr scheint der URL Submit bewirkt zu haben, dass die ohnehin vorhandenen Daten aus der Google Datenbank freigeschaltet wurden, so dass auch der Normaluser nach Eingabe des Textstrings das Blog angezeigt bekommt. Vermutlich hat Google zwei Datenbanken und bekommt es nicht hin, diese anständig zu synchronisieren. Es gibt dafür in Linux den Befehl „sync“ mit dem man unterschiedliche Datenbestände zusammenführen kann, aber das nur als kleiner Tipp für die Google Mitarbeiter die vermutlich immernoch noch mit mechanischen Schreibmaschinen und dreifach Formularen arbeiten.

Desweiteren ist es nach wie vor so, dass keineswegs alle meine Blogartikel über Google angezeigt werden, sondern in einigen Fällen kann ich immernoch einen Textstring eingeben und bekomme keine Resultate zurück obwohl der Textstring 1:1 aus meinem Blog rauskopiert ist. Womöglich muss man nochmal den Submit URL Button drücken oder vielleicht gibt es irgendwo noch einen zweiten Button? Was aber ebenfalls darauf hindeutet, dass Google keinen Plan hat.

Ehrlich gesagt sehe ich nicht ein, wiso ich mich als Blogger mit diesem SEO Kram herumärgern soll. Normalerweise ist das eine Sache zwischen dem Anbieter WordPress, der Werbeindustrie die fleißig Banner einblendet und Google der mit dem Aussphähen von Kundendaten Geld verdient. Wenn ich jetzt noch a) dafür sorgen muss überhaupt gecrawlt zu werden und b) vielleicht auch noch Google sagen soll, wie es den Pagerank für meine Seite berechnet, dann kann ich gleich meine eigene Suchmaschine gründen. Also eigentlich ist die Sache sehr simpel. Mein Blog hier ist das beste Blog in der Welt und muss auf Platz 1 geranked werden, wenn jemand nach Robotik in der Sprache Deutsch sucht. Ich weiß dass, weil ich mir manuell die deutsche Blogosphäre angeschaut habe, und es nirgendwo ein besseres Blog gibt. Wenn man jedoch den Begriff „Robotik“ bei Google eingibt, werden nur Larifari Webseiten angezeigt, die nichts substanzielles zur Thematik beitragen. Zum Beispiel eine Webseite der Uni Rostock die aus einem dünen Textabschnitt besteht wo eine Lehrveranstaltung geannnt wird, die man besuchen soll. Irgendwelche Volltexte oder gar die Lehrveranstaltung als Video gibt es dort nicht. Der Nutzwert für einen potenziellen Leser ist gleich Null. Was macht also so eine Webseite auf Platz 4 der Trefferliste?

Noch halbwegs einverstanden bin ich hingegen mit der Platzierung von hnf.de Dabei handelt es sich um ein Technikmuseum was auch einen Blog besitzt. Es gibt dort relativ viele Informationen und die Bilder sind auch von guter Qualität. Sowas ist nützlich. Jetzt wäre es natürlich spannend zu erfahren, an welcher Position mein eigener Blog angezeigt wird, leider geht das aus der Treffermenge nicht hervor. Und manuell durch die Liste zu klicken ist nicht so mein Ding. Es gibt aber auch Lichtblicke: wenn man als Suchwort eingibt „Robotik Künstliche Intelligenz“ und den Zeitraum festlegt auf „letzter Monat“ wird mein Blog in der Treffermenge erwähnt. Zwar nicht auf Platz 1 aber immerhin vor Webseiten wo man in Abofallen hineingezwängt wird.

Machen wir einen weiteren Test. Nach meiner Recherche ist Trollheaven das einzige deutsche Blog, wo beschrieben ist was DARRT „Diverse Action Rapidly-exploring Random Tree“ ist. Gibt man jetzt als informationshungriger Nutzer „DARRT“ bei Google an, wird jedoch das Blog nicht erwähnt. Stattdessen wird ein nichtssagender Wiki-Artikel angezeigt (darrt ist eine flektierte Form von darren) sowie ein Shop wo man Darrt-Pfeile kaufen kann. Anders gesagt, Google ist so ahnungslos was Wissenschaft der Gegenwart betrifft, dass es noch nichtmal erkannt hat, dass es hier um ein Robotik-Thema geht wozu es Unmengen an Fachliteratur gibt. Wenn Google nicht mein Blog sondern eines von diesen Papern angezeigt hätte, ok damit muss ich dann leben, so ist das eben wenn man Konkurrenz hat, aber Google ist per se noch gar nicht in der Lage die Suchanfrage zu verstehen, geschweige denn eine Lösung anzubieten. Wenn man auf die Sprache English wechselt wird zumindest weiter unten angezeigt, was in die richtige Richtung geht. So findet sich die DARRT Library aus ROS, und mit etwas Verspätung auch ein wissenschaftliches Paper. Aber dazwischen auch jede Menge Seiten, die überhaupt nichts mit DARRT zu tun haben.

Wenn man etwas näher recherchiert wird deutlich, warum mein DARRT Artikel nicht angezeigt wird. Dazu kopiere ich erneut einen Halbsatz als String in die Google Suchmaske um zu prüfen ob Google das Posting überhaupt schon indiziert hat. Ach schade, es wird nichts angezeigt. Wäre ja auch ein Wunder, wenn eine Webseite die ordnungsgemäß bei WordPress veröffentlicht wurde, und wovon die URL an Google übermittelt wurde, dann auch tatsächlich im Index auftaucht :-( Anders gesagt, dieser Artikel ist wohl einer derjenigen die trotz „Submit URL“ bis heute nicht als Volltext über google gefunden werden. Vermutlich müsste ich jetzt manuell erneut diese eine URL zu Google submitten, dann noch 2 Formulare ausfüllen und so weiter und so weiter. Kurz gesagt, ich glaube Google muss noch sehr viel Lernen in Sachen „Suchen im Internet“.

Bug: Indizierung durch Google geht nicht

Eine Faustregel besagt dass neue Webseiten mit einer Verzögerung von 2 Tagen bis 4 Wochen in den Google Index aufgenommen werden. Solange dauert es, bis der Googlebot die Webseite scannt und in die Datenbank überträgt. Das klingt erstmal gut, nur leider stimmt diese Geschichte nicht. Ich habe mal die Probe aufs Exampel gemacht und aus meinem eigenen Weblog einen kompletten Satz herauskopiert und danach gesucht. Ergebnis: 0 Treffer, Google konnte den Volltext nicht finden. Und der Satz stammte aus einem Posting was ich im Juni 2016 geschrieben habe (also vor 6 Monaten). Wenn ich hingegen gezielt nach Stichwörtern gesucht habe, wurde manchmal mein Blog angezeigt und sogar auf Platz 1. Das ist ja logisch, weil ich genau wusste wonach ich gesucht habe.

Es bleibt jedoch die Frage wieso ein vollständiger Satz von Google nicht gefunden wird. Mit einem Pagerank hat das nicht viel zu tun, weil der Satz aus einem meiner Blogposts weltweit einmalig ist, er ist ähnlich wie eine ID, das heißt, es gibt keine andere Webseite wo exakt diese Wortreihenfolge verwendet wird. Wenn also das Blog im Google Index wäre, dann müsste es auch angezeigt werden. Die Hintergründe sind dazu unklar. Das Problem kann man verkürzt wie folgt beschreiben: Auch nach 6 Monaten wird mein Blog nicht in den Index aufgenommen und kann nicht über eine Volltext Recherche gefunden werden.

Natürlich wird mein Google bei Google gespeichert sein, weil wie gesagt, manchmal erhält man ein Ergebnis. Aber offenbar funktioniert der Algorithmus anders als man gemeinhin annimmt. Das heißt, die Vorstellung dass es einen Googlebot gibt, der neue Webseiten scannt ist vermutlich eine Lüge.

Eine Theorie dazu habe ich auch schon. Und zwar lautet diese dass private Blog überhaupt nicht von Google indiziert werden, sondern ausschließlich große bekannte Webseiten. Ein Beispiel: wenn man einen Satz aus dem Blog netzpolitik.org herauskopiert der vor 2 Monaten dort geschrieben stand und diesen schön in Anführungszeichen in die Google Suchmaske eingibt wird wie zu erwarten war, die Seite gefunden. Man sieht dann exakt den Link. Auch hier ist dieser Satz weltweit einmalig. Das geht auch bei Blogposts die erst vor 2 Stunden geschrieben wurden. Das heißt, netzpolitik.org ist vollständig im Googleindex enthalten und kann auch darüber gefunden werden. Offenbar gibt es eine Priorisierung, wonach große Webseiten im Volltext indiziert werden, und kleinere private Blogs überhaupt nicht indiziert werden.

Wohlgemerkt, es geht hier nicht um die Frage wie gut oder schlecht eine Webseite bewertet wird. Das wird bekanntlich durch die Zahl der Links bestimmt und auf mein Blog zeigen wenig bis gar keine Links. Infolge dessen wird die Seite immer sehr weit unten in der Trefferliste erscheinen, und damit bin ich auch einverstanden. Sondern die Frage ist, ob die Seite rein technisch überhaupt im Index ist, also ob man sie mit einer „Exact match“ Anfrage findet.

SUCHEN IM VOLLTEXT
Machen wir noch ein weiteres Experiment. Auf der Webseite heise.de gibt es ein schönes Archiv. Aus dem Jahr 2004 wählen wir uns wahllos einen Artikel aus scrollen dort zur Mitte des Texte und kopieren folgenden Satz in die Zwischenablage:

„Eigentlich galt die Kondensation von Fermi-Teilchen als ein Widerspruch in sich,“

Und jetzt geben wir diesen Satz in die Google Suchmaske ein. Lässt man die Anführungszeichen weg gibt es sehr viele Treffer, der heise Artikel erscheint auf Platz 1 der Rangliste. Setzt man die Anführungszeichen gibt es nur noch 3 Treffer, wieder ist der Heise Artikel auf Platz 1, und die beiden anderen Seiten zitieren den Artikel wörtlich. Soweit ist das genau das Verhalten was man von einer Suchmaschine erwartet. Im Grunde wurde damit bewiesen, dass der Heise Artikel im Suchindex von Google enthalten ist und er auf Nachfrage gefunden wird.

EXPERIMENTE MIT DEM GOOGLE SUCHINDEX
Machen wir zu der Frage, ob und wie Webseiten indiziert werden noch weitere Experimente. Zunächst einmal mit Hilfe eines Satzes, den ich auf netzpolitik.org in den Kommentaren gepostet habe. Und voila, Google findet den Satz auf Anhieb und zeigt den richtigen Link. Jetzt nehme ich irgendein Blog aus dem WWW was erkennbar wenig bis gar keine Aufrufe hatte und kopiere dort einen Satz heraus. Und Error: Google findet das Blog nicht. Er werden null Treffer angezeigt. Das Blog wurde also noch gar nicht indiziert. Was sagt uns das? Es besagt zunächst einmal, dass Google nichts gegen mich persönlich hat weil es die Dinge die ich woanders poste brav indiziert. Sondern Google weigert sich mein Blog und andere Blogs die wenig Traffic generieren in den Suchindex aufzunehmen.

Aber warum ist das so? Ich habe keine Ahnung. Es widerspricht der üblichen Annahme, dass es einerseits einen googlebot gibt der rein technisch eine Seite speichert und zweitens dann einen Pagerank Algorithmus der ausgibt wieweit oben die Seite angezeigt wird.

SITE PARAMETER
Machen wir noch weitere Experimente mit dem Google Suchindex. Aus einem älteren Artikel der in meinem Blog erschienen ist stammt folgender Satz:

"Die Möglichkeit von Leben auf anderen Planeten wird häufig mit zwei naturwissenschaftlichen Theorien erklärt"

Gibt man diesen bei Google ein, wird kein Treffer angezeigt. Wenn man hingegen noch einen Parameter hinzufügt:

"Die Möglichkeit von Leben auf anderen Planeten wird häufig mit zwei naturwissenschaftlichen Theorien erklärt" site:trollheaven.wordpress.com

Dann wird das Blog angezeigt. Aber auch nicht richtig, weil die Treffermenge immernoch 0 ist, aber darunter steht dann dass es Treffer ohne Anführungszeichen gab, so dass offenbar mein Blog doch da irgendwie gespeichert wurde.

ZUSAMMENFASSUNG
Die bisher gewonnenen Erkenntnisse machen nur Sinn wenn man folgende Funktionsweise der Google Suchmaschine annimmt. Wenn man ins Internet etwas postet wird das unmittelbar vom Googlebot erfasst und auf die Server von Google kopiert. Welche Treffermange dann jedoch über das Suchfenster angezeigt wird, hängt von der Priorität ab die Google einer Webseite einräumt. Sucht man nach Textstrings auf den großen Portalen werden diese sofort angezeigt. Sucht man nach Textstrings auf kleinen Blogs und gibt den Site:parameter als Zusatz an, so werden sie zumindest mit etwas Glück angezeigt, lässt man den Site-Parameter weg wird überhaupt kein Treffer angezeigt.

Oberhalb von dieser Exact-Match-Suche wird dann ein pagerank Algorithmus genutzt, der bestimmt an welcher Position die Webseite gerankt wird.

Der Share Button

share

Beim genaueren Analysieren der Statistik zu diesem Blog ist mir eine Anzeige aufgefallen, die normalerweise nur versteckt oder gar nicht sichtbar ist. Die Zahl der Likes zu einem Artikel. Wenn man die Artikelübersicht aufruft, hat jeder einzelne Artikel einen Counter, man kann aber nicht nach der Zahl der Likes die Artikel aufsteigend sortieren. Es gibt noch eine weitere Maßzahl die etwas versteckt angezeigt wird: die Zahl der Shares. Aber was hat es damit auf sich? In einem Video wurde das Konzept erläutert, das ganze scheint wohl eine Sache zu sein, die überwiegend bei Facebook und Twitter verbreitet ist und geht so:

Jemand mit einem Facebook Account findet eine Webseite die er nützlich findet. Er klickt dann entweder auf der Webseite auf den Share Button oder kopiert alternativ die URL in seinen Account und klickt dort auf Share. Damit wird in dem Online-Account eine Lesezeichen generiert und gleichzeitig wird dieses Lesezeichen dann auch noch zu seinen Freunden gepusht. Daher der Begriff sharen. Es handelt sich also eine Art von cloud-Lesezeichenverwaltung die vergleichbar ist mit Bibsonomy.

Wird dadurch ein Mehrwert generiert? Wohl kaum, weil die Information ja nur aus einem Link besteht, es ist vielmehr eine Form des abgeschwächten Follow-Buttons. Der übliche Ablauf dürfte ungefähr so sein: jemand findet eine Webseite, bookmarked sie über den Share-Button, und wenn derjenige öfter das Gefühl hat, etwas liken zu müssen, entschließt er sich irgendwann auf den Follow Button zu drücken um gleich das komplette Weblog zu liken. So ist wohl die ursprüngliche Idee des ganzen. Ich selber kenne das Konzept nur theoretisch. In der obigen Abbildung kann man jedenfalls sehen, dass aktuell 4 Artikel auf diese Weise geshared wurden.

Warum ist das aus SEO Sicht wichtig? Generell kann man sagen, dass sobald jemand einen Link zu einen Blogeintrag postet, dadurch nicht der nur Traffic hochgeht sondern Google diese Eintrag auch noch mit einem höheren Pagerank versieht. Dabei ist es egal, ob der Link erzeugt wird, weil jemand den Artikel toll oder schlecht findet. Und das Sharen bzw. Liken von Postings ist die Vorstufe zum Posten eines Links. Leider kann man im Einzelfall nicht ermitteln wer auf welche Knöpfe drückt. Unter dem Artikel wird zwar angezeigt, wer einen Artikel liked, aber man kann nicht sehen wer auf Share gedrückt hat. So dass man die Sache nicht rückverfolgen kann. Natürlich wird es irgendwo eine Statistik geben, die wird aber in WordPress nicht angezeigt, vermutlich kennt sie nur Google.

Traffic Optimierung ist messbar

traffic

Zuerst dachte ich, dass alles was zum Thema im Internet über SEO geschrieben steht, Unfug ist und selbst eine Form von Spam ist. So dass sich seriöse Blogs dadurch auszeichnen, dass dort eben kein SEO betrieben wird. Dennoch stand ich dem ganzen aufgeschlossen gegenüber und habe es einmal mit dem Tipp versucht, auf themenverwandten Blogs etwas zu kommentieren. Und was soll ich sagen, herausgekommen ist dabei die obige Grafik. Der Anstieg des Traffic verlief zeitgleich mit dem versenden von Kommentaren, so dass es unzweifelhaft einen kausalen Zusammenahg gibt.

Aber auch aus wissenschaftlicher Sicht scheint an SEO Wohl mehr dran zu sein, als man allgemein annimmmt. Wer bei Google Scholar beispielsweise nach Papern über „pagerank“ sucht, wird feststellen, dass nicht nur halbseidene Blogs sich damit beschäftigen sondern auch seriöse Forschung existiert, bei der die Verlinkung von Webseiten, das Erzeugen von Traffic und das Filtern von Informationen diskutiert wird.

Nun kann man natürlich kritisch fragen: so what? Allerdings ist aus Erfahrung bekannt, dass ein Anstieg des Traffics automatisch auch zu mehr Kommentaren im eigenen Blog führt. Eine ungefähr Hochrechnung besagt, dass alle 400 Klicks auf die eigene Homepage ein Kommentar hinterlassen wird. Insofern ist jetzt die Wahrhscheinlichkeit höher, dass bald wieder jemand einen Kommentar hier schreibt. Nochmals vielen Dank an die User die es bereits getan haben.

Kommentar-Warteschlangen sind schlecht

Ich habe jetzt in mehrere Blogs etwas kommentiert und stelle fest, dass da vielfach eine Kommnentar-Warteschlange davorsteht. Diese wird nicht bearbeitet und es ist zu befürchten, dass die Freischaltung niemals erfolgt. Die grundsätzliche Idee, dass man Kommentare erst in eine Warteschlange stellt wo sie dann kontrolliert freigeschalten werden ist falsch. Das nervt die Benutzer und führt dazu, dass gar nichts kommentiert wird. Ob das eine Eigenschaft ist die bei deutschen Blogs anzutreffen ist oder ein internationales Phänomen ist unklar. Ich werde als nächtes mal einige US-Blogs checken, ob es da auch so lustige Queues gibt.

Fakt ist, dass der Standard im Internet (mit Standard ist gemeint, Stackoverflow, Usenet, große Blogs, Foren) ohne Warteschlange arbeitet und die Admins stattdessen im Nachinein Postings wieder löschen.