Monitoring the tag “artificial intelligence” on Stackoverflow

The good news is, that Stackoverflow makes its simple to follow a certain topic. The AI topic has it’s own tag and the search engine can give back the latest postings: https://stackoverflow.com/questions/tagged/artificial-intelligence So nice so good. The problem is that the AI topic is special inside Stackoverflow, it seems that nobody is really interested in it. The users are asking only a few questions, and the admins are putting question very fast “on hold”. Let us monitoring the questions of the last week a bit in detail. Today is February 11, 2018:

The average number of postings per day is around 4. No that is not a joke. The stackoverflow website with around 10 million visits per day is not very often used for discussion problems in AI. Today we have for example 3 questions: two about Tensorflow and one about a cost-function in machine learning. The first of the Tensorflow questions was put on hold by the admin, because the user wrotes only 3 sentences in which he announced, that he wants to train a neural network. Which may be legitimate but the stackoverflow community needs a bit more information.

If we are scrolling through the other day, we say that every day around 3-5 questions are asked. The equal pattern is, that very often the question gets downvoted. Sometimes the question gets a -1, but sometimes a -3 and even a -7. In general it seems, that the AI topic is not very welcome at Stackoverflow. Either the users are downvoting the questions, or the admin put the post on hold for “further investigation” which is equal that the question will not get any further attention.

I do not see any kind of wrong behavior by the users or the admins. It seems to be a general pheromone, that AI related problems are not welcome in the programming community. Here https://stackoverflow.com/questions/48683891/how-to-improve-tensorflow-model-accuracy I found a typical example. The question starts with a short posting of a user. He is not motivated to write a longer text, or to explain in detail what he wants to do. Perhaps he knows, that asking a question about AI is in general a wrong behavior. And he is right, his question is not welcome. The Stackoverflow users are downvoted the post with -8. As a consequence, the SO admin sees the downgrade, looks at the question and reinforce his community with setting the hole question “on hold”. From a content level, the OP wants to know something about tensorflow and recognizing images.

I want to give some further bad examples of the last month:

– Tensorflow classify anything -> -1 downvote
– check heuristics compatibility -> -3 downvote
– Tensorflow accuracy -> -8 + “put on hold”
– Training ANN -> -1 + “put on hold”
– discover frequent text -> -4 downvote
– Situation Calculus -> -3 + “put on hold”
– Amazon AI -> -4 + “put on hold”

The list goes on with that pattern. It is every day the same game. Around 3-5 questions are posted, most of them get downvotes, sometimes the admin comes with further “on hold” flags and the users are frustrated. Over the complete lifespan from the beginning of stackoverflow, not more than 4611 questions are posted about “Artificial Intelligence”. It seems, that the topic is the most hated and most downvoted topic ever. The funny thing is, that SO in general is a very good programming forum. For example the tag c# has over 1M questions, #PHP too, and the subject “Android” was discussed in the same scope. So what is wrong with AI? I have absolutely no idea, but it seems, that programmers are not very familiar with the topic. At first they are asking beginner question, and then they are downvoting the stupid questions asked by others, or simply they are ignoring them.

The pattern for reproducing this behavior is simple. Somebody must ask a normal AI -related question. Perhaps 2 paragraphs with a slightly interesting topic and it is very likely the question gets at least a -2 downvote and perhaps even an “on hold” flag from the admin.

Answers

Not only questions about AI seems complicated, but the answers are missing also in quality. Let us scroll through the questions of the last month and check for the number of answers:

Question 1: 0 answers
Question 2: 0 answers
Question 3-6: 0 answers
Question 7: 2 answers
Question 8-11: 0 answers

The normal pattern is, that 3 question get 0 answers, than a question get an answer, and so forth. So in general 75% of the question get no answer. The good news at stackoverflow is, that they have an elaborated search-feature which gives detailed statistics about the number of answered questions:

– All questions with tag [artificial-intelligence]: 4611
– Questions with tag [artificial-intelligence] and at least 1 answer: 3,972
– Questions with tag [artificial-intelligence] and 0 answer: 639

So the answer probability is with 86% higher, than expected. But it seems that it takes more time than normal, until a question gets answered.

Advertisements

Increasing visibility without social networks

In the language of Online-Marketing a high-visibility is everything. The idea is to get as much attention as possible. And the experts are right, because it is rational to increase the impact of content. If it is possible to get an audience of 100 people, it is better in the numbers than only 2. Most social media fanatics are convinced, that social networks are the only way of increasing the visibility. That is only true for mainstream products, for example a newspaper which provides information about celebrities. Other “special interest” content is surprisingly not suited for social networks. Instead it is better so search for special communities which give a much higher attention.

I want to give two example. Suppose we have written an encyclopaedic article about a robotics problem. If we are converting this article into the PDF Format and posting it to Facebook it won’t work. According to the numbers, Facebook has 2 billion users worldwide, but the guess is, that this pdf paper will read by none of them. The better place for posting such content is Wikipedia itself. They have experts which reads through the article and decide if it’s good or not. The interesting thing is, that according to the number the Wikipedia audience is much smaller. Only 15k Wikipedia authors are active over a month, and from them only 20 will read through the article. But at the end, it makes more sense, to post the article there than anywhere else.

The second example could be a small question about a robotics subject. There are two options. The first one is to post the question into a Google Plus group. My guess is, that Google Plus has around 400M active users, but this special topic will get not answer. It is the same problem like in Facebook. Technical it is possible that the post is read by millions of people, but the content is wrong. On google Plus other content works better, it must be suited for the mass.

So where is the right place for posting a robotics question? A dedicated robotics Online-forum. Such forum have much lower traffic, but they are ranked very good by Google, because many people are interested in the information.

What can we learn from both examples? Not every piece of content gains a high attention in the social networks. It is possible to get high traffic on Facebook, but only if the content fits into the social network. For special topics from science or programming background that is not the case. Even Google Plus is the wrong place for such content. Instead, such content should be posted to online-forums and Wikipedia-like websites. The number of users and also the daily traffic is much lower, but the advantage is, that the people there are interested in the content. On the other hand, not every type of content is well suited for Wikipedia. For example, if a newspaper has a story about a celebrity it is bad idea, to modify the Wikipedia page in the hope, that the audience will like this. Instead, a Facebook page is the better place for doing so.

But we can learn another lesson from the example. Marketing experts are not false in every case. Because, the above cited examples were described with a marketing perspective. Because, the content-producer is interested in finding the best audience for a given content. And deciding against Facebook but for Wikipedia is a marketing-related decision.

How can we describe this phenomena more abstract? I think it is important to separate between the content and it’s distribution. The content is the encyclopaedic article. But the article itself is useless, what he needs is the right audience. And maximizing the impact on the audience has to do with social-media-marketing.

Why is the world ignoring AI?

The first impression about Robotics and Artificial Intelligence is, that both topics are core of the internet and are welcome everywhere. But in reality, it is easier to sell shoes as getting traffic on robotics website. No, i do not want promote my own blog. I’m fair enough to understand, that other people have better content. But let us take a look at the best online-forum for robotics. According my investigation it is https://ai.stackexchange.com/ And yes, we can debate if the website is really cool, or which website is better. So perhaps I’m wrong and in reality there is a better website out there. Suppose, that the above cited URL is really the best site. What does it means? According to Archive.org the website reached in July 2017 a daily trafficcount of around 300 visits per day. To number today are better, but with 750 visits per day not really high. In contrast, an ordinary weblog driven by a single person has around 50 visits per day in traffic, without any SEO technique.

And the AI.stackexchange is not a small unknown domain, they have the huge stackoverflow network behind them with enormous audience. But it seems, that the website has a massive trafficproblem. So what is wrong with the world? I don’t know. But it seems, that it is not possible to get traffic for certain topics, for example Artificial Intelligence. It seems, that from a marketing perspective and by the audience too, such topics are not attractive.

I would understand this, if the above cited forum is full of advertisement, has bad content or other problems. But nothing of them is the case. Instead, the website is a well moderated forum, has high-quality content on university level and is very user friendly. But it seems this is the problem. The website is to good, the people don’t understand the sense, they are watching different websites like Facebook, which have bad content, lots of ads, but looks more familiar to them.

Like I mentioned above, we can debate about the question, if another website is better. For example, i found another website which has also AI as a topic, http://www.ai-forum.org/ But my prediction is, that this website will have the same problems. Very good content, no ads, and low traffic. It seems, that the topic AI is the problem. It is not possible to sell it to a broad audience. The people are in fear of it, they ignore it, and they are not interested in reading or posting anything.

Usually, the number of 750 visits per day can be called a joke. Because, an online-forum has in most cases much more traffic. An online-forum is per definition a high traffic website, which is populated by hundreds of users. If we are looking on AI.stackexchange nobody is posting there. In the last 2 days, only 4 new postings were created.

The phenomena is not completely new. If we are increasing the content quality further up to Google Scholar and the documents there, we see, that the traffic can be much lower. A well written paper from a worldwide known professor reaches in most cases not more than 50 visits over the livespan of 10 years. That means, apart from the professor itself and 2 of his students nobody is interested in the content. It seems, that onlnie-marketing works for every subject, but not for high-quality content. And again, in the case of an academic paper we can debate about a certain paper, the question is not, how to promote a certain paper, the question is more, why all papers generate low traffic.

Even marketing experts do not understand the subject in detail. They are only familiar in selling normal products like cars, houses and clothes but not products which have to do with knowledge. From an abstract point of view, a robotic forum in which the users are discussion about ways to automate the industry is more valuable, than any motorcar in the world. But it seems, that this is not widely known. Instead car companies are working with huge budgets for ads while academic papers or robotics discussion groups are ignored.

Relative attention

The work hypothesis is, that every subject has a maximum in daily traffic. For example, all website about cars have cumulative around 1 million visits per day. And all website about robotics only 10k per day. What online-marketing can do is only get more from relative attention, and this is missing by another website from the same subject.

Traffic erhöhen auf Academia.edu

Unter dem Stichwort “Academic Search Engine optimization” (ASEO) versteht man die gezielte Trafficerhöhung im Umfeld von wissenschaftlichen Publikationen. Die Details dazu sind relativ gut erforscht und sollen kurz erläutert werden. Zunächst einmal hängt Traffic nicht von dem Portal ab sondern von dem Thema womit sich ein Paper beschäftigt. Themen die hohen Traffic erzeugen sind Essen&Trinken, Mode und Kinofilme. Themen die niedrigen Traffic erzeugen sind wissenschaftliche Themen wie Methematik und Informatik. Das ist nicht nur bei Academia.edu so sondern im bekannten Wikipedia kann man das ebenfalls ablesen. Dort wird zu jedem Artikel auch die Anzahl der Seitenabrufe angezeigt und hier sind die Unterschiede eindeutig themenspezifisch.

Werden wir etwas konkreter und schauen uns Beispiele bei Academia.edu an, wo jemand ganz bewusst ein Thema ausgewählt hat was hohen Traffic erzeugt. Auf http://ubi.academia.edu/MadalenaPereira hat ein User einen Text gepostet “FASHION MARKETING & THEORY: Chapter 5: FACTORS THAT INFLUENCE THE CLOTHES’ BUYING DECISION” der sich inhaltlich genau mit einem Thema beschäftigt was hochgradig User anzieht. Und voila, der Trafficcounter steht bei diesem einen Paper bereits bei 108360. Hier http://istitutomarangoni.academia.edu/PriscilaWiegandt ist noch eine weitere Modebloggering, welche die Plattform für sich entdeckt hat. Das Paper “Back to the Origins – An analysis on the relaunching and rebranding of Kenzo” hat stolze 2816 Hits erzeugt und zählt zu den Top5% von Academia.edu. Das Thema Food bringt nicht ganz so hohe Werte ist aber in absoluten Zahlen immernoch beachtlich. Hier http://www.academia.edu/4468846/Diet_and_Vegetation_at_Ancient_Carthage._The_Archaeobotanical_Evidence ist ein Paper was sich mit Abnehmen im antiken Karthago beschäftigt und stolze 797 Hits erzeugt hat.

Nur um mal einen Vergleich zu bemühen. Normale wissenschaftliche Thema aus dem Bereich theoretische Informatik erzeugen Traffic in der Größenordnung von exakt 0 Abrufen über einen Zeitraum von 2 Jahren. Das heißt, ein Wissenchaftler lädt einen Text hoch und überhaupt niemand schaut sich das dann an. Wenn ein wissenschaftliches Paper eine Abrufzahl von 10 erreicht, gilt es bereits als extrem erfolgreich.

Google hat Platzprobleme auf den Servern

Laut http://live-counter.com/wie-gross-ist-das-internet/ bestand das Internet im Jahr 2012 aus 2,8 Zetabyte. Laut http://www.pc-magazin.de/ratgeber/google-erstaunliche-fakten-819002-8983.html hat Google im Jahr 2010 nur eine Speichermenge von 100 Millionen Gigabyte vorgehalten.

Zunächst die Frage: sind diese Zahlen realistisch? Vermutlich ja, in den 2,8 Zetabyte ist nur das sichtbare Internet enthalten, nicht jedoch das DeepWeb wo also in Firmenintranet und hinter Paywalls weitere Informationen abgelegt sind. Auch die Speicherschätzung von Google ist plausibel. Man nimmt an, dass Google rund 1 Mio Server besitzt, wenn jeder eine 100 GB Festplatte hat, kommt man auf die oben genannte Größe.

Setzen wir beides ins Verhältnis:
– 2,8 Zetabyte = 2,8*10^12 Gigabyte.
– 100 Mio Gigabyte = 100 * 10^6 Gigabyte

Das heißt, Google ist in der Lage 0,0036% des sichtbaren Internets auf seinen Servern zu speichern. Kann also das vollmundige Versprechen einer Volltextsuchmaschine nicht im Ansatz erfüllen. Kein Wunder, dass mein eigenes Blog und das von vielen anderen bis heute nicht über Google durchsuchbar ist. Google Serverpark ist bis zur Oberkante gefüllt und passt dort kein einziges Byte mehr hinein. Google ist so hoffnungslos überlastet mit der Aufgabe das WWW zu indizieren, dass man schon vor langer Zeit aufgegeben hat, soetwas wie ein Gatekeeper sein zu wollen.

Google hat Schuld am niedrigen Traffic

Mit Hinblick auf die extrem niedrigen Abrufzahlen in diesem Blog ist die naheliegenste Erklärung dass es an mangelnder Qualität liegt. Das also das Problem beim Blogautor zu suchen ist. Wenn man das ausschließen kann ist die nächst mögliche Erklärung, dass man zuwenig in anderen Blogs kommentiert. Und wenn man selber nichts kommentiert wird auch niemand zurückommentieren. Aber was wäre, wenn das beides nicht die tatsächliche Erklärung ist? Ich habe mal den Versuch gemacht, eine beliebige längere Textstelle aus diesem Blog zu suchen. Ergebnis: Google kennt das Blog noch gar nicht gar. Das heißt, selbst wenn jemand es gezielt suchen würde, und exakt den Textstring eingibt, der nur auf meinem Blog ist sonst aber nirgendwo wird er das Blog nicht über Google finden. Woran das liegt ist unklar, links auf die URL hierher sind alle gesetzt und in den WordPress Settings steht explizit drin “Robots are welcome”. Wie mir scheint liegt der Grund für den niedrigen Traffic ausschließlich bei Google. Es geht hier nicht nur um die Pagerank Frage, sondern es geht darum, ob Google überhaupt den Volltext gecrawelt hat.

Zu dieser Frage findet sich in den gängigen SEO Ratgebern nichts. Meist steht dort drin, dass man die URL an Google submitten soll. Dort aber heißt es dann, dass es trotzdem keine Garantie gibt dass sie auch gecrawelt wird. Offenbar gibt es also niemanden der die Verantwortung trägt wann und ob eine Webseite überhaupt im Index erscheint. Das ist schon sehr merkwürdig.

Vermutlich wird das ganze nicht nur meine eigenes Blog betreffen, ich habe mir mal den Spaß gemacht aus anderen WordPress-Blogs ebenfalls zur Probe mal einen kurzen signifikanten Halbsatz herauszukopieren um darüber dann das Blog gezielt über Google zu finden. Ergebnis: keine Treffer. Auch andere Blogs speichert Google nicht im Volltext. Die Erklärung dafür ist simpel: Die Jungs haben es einfach nicht drauf. Um auch kleinere Blogs im Volltext zu crawlen muss man schon etwas mehr Ahnung haben. Von Google kommt zwar viel Marketing-Kauderwelsch doch liefern können sie nicht.

Vielleicht sollte mal jemand Google erklären wie das genau funktioniert mit dem Aufsetzen eines Servers, mit dem Konfigurieren des Hadoop Clusters und mit dem Programmieren von Robots …

Ironischerweise ist mein altes Blog, was schon seit 6 Monaten stillgelegt ist noch immer im Google Index enthalten. Und wenn man danach sucht erscheint es sogar immer ganz oben. Bei Google ist doch nicht etwa ein Computervirus eingedrungen, der dort Schabernack treibt?

Aufnahme in den Google Index nur auf Anfrage

Vor einiger Zeit hatte ich darauf hingewiesen, dass mein Weblog noch nicht im Google Index enthalten ist. Zum Beweis habe ich dazu probeweise einen Halbsatz aus einem älteren Blogbeitrag kopiert, diesen in Anführungszeichen gesetzt und das bei Google als Suchanfrage eingegeben. Es wurde jedoch kein Treffer zurückgegeben, das heißt, wenn jemand explizit mein Blog finden wollte, wäre es selbst dann ihm nicht gelungen.

Inzwischen habe ich die URL manuell zu google übermittelt (submit URL) und siehe da, plötzlich wird der Halbsatz gefunden. Ich kann jetzt aus einem beliebigen Post einen Textstring bei Google eingeben und erhalte dann mein Blog angezeigt als den einzigsten Treffer. Zugegeben, damit ist zwar noch nicht für Traffic gesorgt weil es nachwie vor den Pagerank gibt, aber zumindest ist so sichergestellt, dass mein Blog zumindest an der allerletzten Position erscheint was schomal besser ist, als überhaupt nicht im Index aufzutauchen. Danke Google.

Weniger auf Zack ist die Suchmachine Bing. Auch dort habe ich manuell meine URL übermittelt, nur wenn ich dort einen Halbsatz als Textstring eingebe wird mein Blog nicht gefunden. Rein technisch gesehen müsste es dort ebenfalls als einziger Treffer angezeigt werden, aber nichts da.

Der Witz ist, dass laut der Statistik des Blogs der Crawler gar nicht vorbeigeschaut hat. Es war also nicht so, dass nach dem URL Submit der Traffic einmalig hochging und ein Bot alle Seiten eingelesen hat, sondern laut Traffic kam nie ein Google Robot vorbei. Vielmehr scheint der URL Submit bewirkt zu haben, dass die ohnehin vorhandenen Daten aus der Google Datenbank freigeschaltet wurden, so dass auch der Normaluser nach Eingabe des Textstrings das Blog angezeigt bekommt. Vermutlich hat Google zwei Datenbanken und bekommt es nicht hin, diese anständig zu synchronisieren. Es gibt dafür in Linux den Befehl “sync” mit dem man unterschiedliche Datenbestände zusammenführen kann, aber das nur als kleiner Tipp für die Google Mitarbeiter die vermutlich immernoch noch mit mechanischen Schreibmaschinen und dreifach Formularen arbeiten.

Desweiteren ist es nach wie vor so, dass keineswegs alle meine Blogartikel über Google angezeigt werden, sondern in einigen Fällen kann ich immernoch einen Textstring eingeben und bekomme keine Resultate zurück obwohl der Textstring 1:1 aus meinem Blog rauskopiert ist. Womöglich muss man nochmal den Submit URL Button drücken oder vielleicht gibt es irgendwo noch einen zweiten Button? Was aber ebenfalls darauf hindeutet, dass Google keinen Plan hat.

Ehrlich gesagt sehe ich nicht ein, wiso ich mich als Blogger mit diesem SEO Kram herumärgern soll. Normalerweise ist das eine Sache zwischen dem Anbieter WordPress, der Werbeindustrie die fleißig Banner einblendet und Google der mit dem Aussphähen von Kundendaten Geld verdient. Wenn ich jetzt noch a) dafür sorgen muss überhaupt gecrawlt zu werden und b) vielleicht auch noch Google sagen soll, wie es den Pagerank für meine Seite berechnet, dann kann ich gleich meine eigene Suchmaschine gründen. Also eigentlich ist die Sache sehr simpel. Mein Blog hier ist das beste Blog in der Welt und muss auf Platz 1 geranked werden, wenn jemand nach Robotik in der Sprache Deutsch sucht. Ich weiß dass, weil ich mir manuell die deutsche Blogosphäre angeschaut habe, und es nirgendwo ein besseres Blog gibt. Wenn man jedoch den Begriff “Robotik” bei Google eingibt, werden nur Larifari Webseiten angezeigt, die nichts substanzielles zur Thematik beitragen. Zum Beispiel eine Webseite der Uni Rostock die aus einem dünen Textabschnitt besteht wo eine Lehrveranstaltung geannnt wird, die man besuchen soll. Irgendwelche Volltexte oder gar die Lehrveranstaltung als Video gibt es dort nicht. Der Nutzwert für einen potenziellen Leser ist gleich Null. Was macht also so eine Webseite auf Platz 4 der Trefferliste?

Noch halbwegs einverstanden bin ich hingegen mit der Platzierung von hnf.de Dabei handelt es sich um ein Technikmuseum was auch einen Blog besitzt. Es gibt dort relativ viele Informationen und die Bilder sind auch von guter Qualität. Sowas ist nützlich. Jetzt wäre es natürlich spannend zu erfahren, an welcher Position mein eigener Blog angezeigt wird, leider geht das aus der Treffermenge nicht hervor. Und manuell durch die Liste zu klicken ist nicht so mein Ding. Es gibt aber auch Lichtblicke: wenn man als Suchwort eingibt “Robotik Künstliche Intelligenz” und den Zeitraum festlegt auf “letzter Monat” wird mein Blog in der Treffermenge erwähnt. Zwar nicht auf Platz 1 aber immerhin vor Webseiten wo man in Abofallen hineingezwängt wird.

Machen wir einen weiteren Test. Nach meiner Recherche ist Trollheaven das einzige deutsche Blog, wo beschrieben ist was DARRT “Diverse Action Rapidly-exploring Random Tree” ist. Gibt man jetzt als informationshungriger Nutzer “DARRT” bei Google an, wird jedoch das Blog nicht erwähnt. Stattdessen wird ein nichtssagender Wiki-Artikel angezeigt (darrt ist eine flektierte Form von darren) sowie ein Shop wo man Darrt-Pfeile kaufen kann. Anders gesagt, Google ist so ahnungslos was Wissenschaft der Gegenwart betrifft, dass es noch nichtmal erkannt hat, dass es hier um ein Robotik-Thema geht wozu es Unmengen an Fachliteratur gibt. Wenn Google nicht mein Blog sondern eines von diesen Papern angezeigt hätte, ok damit muss ich dann leben, so ist das eben wenn man Konkurrenz hat, aber Google ist per se noch gar nicht in der Lage die Suchanfrage zu verstehen, geschweige denn eine Lösung anzubieten. Wenn man auf die Sprache English wechselt wird zumindest weiter unten angezeigt, was in die richtige Richtung geht. So findet sich die DARRT Library aus ROS, und mit etwas Verspätung auch ein wissenschaftliches Paper. Aber dazwischen auch jede Menge Seiten, die überhaupt nichts mit DARRT zu tun haben.

Wenn man etwas näher recherchiert wird deutlich, warum mein DARRT Artikel nicht angezeigt wird. Dazu kopiere ich erneut einen Halbsatz als String in die Google Suchmaske um zu prüfen ob Google das Posting überhaupt schon indiziert hat. Ach schade, es wird nichts angezeigt. Wäre ja auch ein Wunder, wenn eine Webseite die ordnungsgemäß bei WordPress veröffentlicht wurde, und wovon die URL an Google übermittelt wurde, dann auch tatsächlich im Index auftaucht :-( Anders gesagt, dieser Artikel ist wohl einer derjenigen die trotz “Submit URL” bis heute nicht als Volltext über google gefunden werden. Vermutlich müsste ich jetzt manuell erneut diese eine URL zu Google submitten, dann noch 2 Formulare ausfüllen und so weiter und so weiter. Kurz gesagt, ich glaube Google muss noch sehr viel Lernen in Sachen “Suchen im Internet”.