Create a Wikipedia article from scratch

The first step in creating a Wikipedia article is to search for information already there. The topic, I have chosen is “Learning from demonstration”, and former Wikipedia authors have uploaded some content to the subject. With the internal searchbox, the websites are identified and read carefully, because we do not want post the same information twice.

After reading the given information it is obvious that the existing article fits at best to the “Learning from demonstration” topic. It is focused not on program synthesis, but on robot-control and mentioned vocabulary like “inverse reinforcement learning” which is the term used in the literature too. Adding the new information to our notes makes sense:

A view on the pageview statistics shows, that the number of daily visits is very small (35 visits per day). Such a niche topic is a good starting point for the first edit in Wikipedia, because the chance for conflicts is small. That means, it is likely that the Wikipedia admin let us playing around with the text, because this article is not under fire.

The next question is, how to bring our own content into the article? Deleting all the existing information and write our own text from scratch is not a good idea, because previous authors have the article perhaps on their watchlist and will protest if we are doing so. What is always possible is to add new information in a soft-mode, that means we are creating a new section with the markdown syntax “# section” and write down our needs.

Before writing our text, some literature may be helpful. The existing references in the Wikipedia article are not enough, so we must add some new papers. In the best case, we have already a literature list in the bibtex-format, which we found useful. Here is the list:

In theory, the above cited literature must be formatted in a special way to match with the Wikipedia-syntax. In reality, this is one of the minor problems. It is explained somewhere in the help section, how a literature template is used right. So I can leave out this step and focus more on a content level. We have the above cited 5 sources, which are useful for describing the topic. Reading again the papers is useful and helps us, to make some notes about it, which we can later extend to a text for Wikipedia.

After reading the 5 papers again, we find that two of them a similar and one is boring. The list can be reduced to only 3 papers which are good, and our readers have less information overload. A second advantage of reading the information again, is that it is very clear what “Learning from demonstration” means, and we can write down a prototype text. But where to start, how to lowering the entry barrier? The best advice is to imagine that not Wikipedia is the target but we want to write a comment! for a Youtube! video. Everybody knows, that comments there are not very serious and it is more important that they are colloquial. That is exact the writing style a good academic paper should have.

Writing a first draft version was surprisingly easy. Because it is formulated as prose and not as a scientific paper. Making a complex academic article from it, is only a formal question. This is realized by adding references to external literature. That is the main difference between prose and science. From the text itself, there is no difference. According to the filesize, the short text in the screenshot is around 2400 bytes long, which is compared to the average edit in Wikipedia very long. Most edits there are not longer than 500 characters.

Until now, it is unclear if many small edits or one big edit is the better choice for interacting with the encyclopedia. But one advice is very clear, that making an edit to fast is wrong. Our above prototype text is not ready for uploading to the internet. It has some spelling mistakes, the cited literature is in the wrong format and some aspects are missing. In theory it is possible to upload even draft-content and edit it on-the-fly. But testing out the tolerance of the wikipedia admin is not the best idea. Instead the novice text-creater should do writing a nearly perfect text on his local harddrive and upload only the final version. So we must postpone the interaction with Wikipedia a bit, and improve first our text.

The good news is, that the article is not very often changing. The last edit was 3 weeks ago, and last year a period of 6 month was there, in which no edit took place. So it makes no matter, if we are uploading our text today, or in one week. Wikipedia can wait.

The next step is to reformat our prototype text into the wikisyntax. This has to be done with the text itself, which can be enhanced with so called Wiki-links for referencing to articles already there and with a citation template for making the reference list right. The result can be controlled in the Wikipedia sandbox.

Even our text is short, the formatting is surprisingly complex. Until all the keywords are referenced and a new created table is in place it takes some time. A nice sideeffect of the formatting is, that our prose text which was originally targeted to a youtube audience looks now more professional. It consists of the same words, but this time they have literature references and clickable links.

After doing some improvements in the literature list the version in the sandbox looks like in the following screenshot.

The article itself is ready. Until now, only the sandbox was aware of it. Now it is time to getting the real Wikipedia informed. That means, we are copy & paste the 4kb sourcefile into the article which is already there and wait, what will happen. The opponent known as “Wikipedia admin collective” has many options. He can delete our text in total, he can delete minor parts of it, or he can accept the text, that means it will happen nothing. It is hard to guess, what the Wikipedia admin will do. In my opinion, the admin will perhaps edit the English language a bit, because I’m a native speaker and it is very likely that some grammar mistakes are there. But it is also possible, that Wikipedia thinks, that my text is not scientific, and that the referenced literature makes no sense.

That is exactly the feeling which I’m calling in the beginning “fear”. That means, the author of new uploaded content doesn’t know, what the opposite will do. He has to loose a lot. On the other hand, it is payback time, and the text will go online under any conditions. Do not playing the game, is not an option!

After saving the changes in the real Wikipedia, the Revision history is updated and our edit is placed on top.

If we are trying to identify the edit in the global list of Recent changes, we will notice that our edit is only one of many hundreds. The updates are coming very fast and we must scroll a bit to find our posting.


Whats the difference in English Wikipedia?


Writing an article into the german Wikipedia is easy. The author must create a scientific looking text which cites lots of external literature, format the text with the wikisyntax and uploads it to Wikipedia. In most cases, the Wikipedia admins will like the new information and request for deletion are seldom. But, adapting this best practice method to the English wikipedia seems a bit complicated. From a formal point of view, Wikipedia is only yet another website, but if we are looking at a certain topic which we want to edit for example “episodic memory” which needs additional information, we will see in the traffic counter that the page generates 400 visits per day. That is lot more than the German Wikipedia. 400 visits per day means, that if the author uploads his text to that place, also his text will get read by thousands of people. And that is a problem.

Sure, I know what a scientific looking text is, and how to cite external literature is easy. But it makes a difference, to upload a paper to where the total count of reads will not be greater than 10, and posting a paragraph to Wikipedia, in which nearly the whole world is reading the information. From the goal of vandalising WIkipedia heavy and early it makes sense, the problem is, that the internal structure there is not very friendly to spamming, so that if the text is passing the quality control it will be read really by the world.

I wouldn’t call the feeling direct anxiety, but a healthy form of respect against the potential medium. Perhaps, i should for the beginning search for an article which is not so frequently read, in the hope that spelling mistakes and content-based inaccuracy will not result into an edit-war?

Deleting early and too much

That potential authors of wikipedia are nervous is normal, because they foresee what will happen with their text. The change of +1000 will be read carefully by an admin, and deleted because it makes no additional value to the encyclopaedia. As a result, the author will ask himself, if the invested time was waste and if he is competent enough for writing scientific content at all. Not uploading a text to Wikipedia is the right decision for any scientists who has to loose something. On the other hand, there are strong reason for doing exactly this. The main reason for investing time, even if the content will be deleted, is the value Wikipedia delivers today. That means, the individual reader profits from it, and it is time to pay back.

Wikipedia vs. academic publishing

A comparison between the Wikipedia project and the scientific community is not an easy task. But it is possible. The similarity is that both are driven by surprisingly little amount of people. A study in PLOS One has observed the details how many scientific authors are really publishing a paper. The most important insight is, that only 150608 scientist have published at least one paper a year. As active authors with at least 3 papers per year can be counted only 40k scientists worldwide.

Perhaps the study is not very exact, the tables and figures are a little confusing, and the study researched a very long time period. But is seems to be comprehensible that the number of active science-authors is smaller than 100k worldwide. In comparison, the Wikipedia english version, has nearly 20k active volunteers. And the trend is constant, also in future and also under openscience condition, the number of active researchers who are publishing something will not change significantly.

The interesting fact is, that the 100k active worldwide scientific authors are 100% not independent who are writing at home an amateur science article, but they are well funded persons who are working for big universities. Instead of describing the facts neutral, the myth of citizen science and academic social networks is spread out. And some advanced openaccess advocates claims, that something has to change. That can be seen as a joke, nothing has to change in the academic publishing system. It works perfectly and it is absolutely right, that Nature rejects 90% of all incoming manuscripts.

Open Science

The mistake which are done by Wikipedia and Academic social networks is to ask what should be made different to improve the situation and to motivate young people for engagement. The consequence are projects, which have in mind to increase the number of authors, to lower the barrier to publish something, to improve the visibility of written papers. Instead of follow a goal, the first step would be to analyse the current situation neutral. The question is not who should future of science look like and who we can destroy Elsevier, the more useful question would be, where is the science community today? Is the system broken or not?

My impression is, that the amount of active wikipedia authors and the number of active academic authors are some kind of nature-law which is constant and not changeable by a marketing campaign. Instead of bringing science forward it is time to say that science works. The workflow of paper based high-funded journals is the right one. The quality control is necessary and there is no need for improvements. The supervisor of Ijad Madisch who said “Drop this Firlefanz!” out of his head was right. He understood the publishing system better and ResearchGate will never be a success.

Autorenschwund bei Wikipedia Dass die Anzahl der Wikipedianer mit mehr als 5 Edits im Monat gesunken ist auf aktuell 4618 ist kein Problem. Laut der Tabelle lag der Höchststand bei 8700 und das sind eben normale Schwankungen. Auch im Linux Kernel arbeiten relativ wenig Leute mit. Laut der letzten Hochrechnung sind rund um Linux Torvalds nicht mehr als 3000 Developer damit beschäftigt neue Treiber einzupflegen. Und Linux gedeiht prächtig. Die Maßzahl für den Erfolg von Wikipedia ist die Anzahl der roten Links. Wenn Wikipedia nicht mehr nachkommt, die Rotlinks in lesbare Artikel umzuwandeln wäre es schlimm. Aber das ist nicht der Fall. Nur relativ selten gibt es unerschlossenes Gebiete. Zumindest in den Geisteswissenschaften. Im Bereich der Wirtschaft und Informatik sieht es nicht ganz so gut aus. Dort herscht in der Tat akuter Autorenmangel. Soweit ich weiß besteht das komplette Informatik-Portal in der deutschen Wikipedia aktuell nur aus 10 Leuten, da wäre ein wenig Nachwuchs sicherlich nicht verkehrt.

Ich glaube aber nicht, dass man irgendwas tun kann um diesen Nachwuchs zu generieren. Weil Wikipedia laut Defintion auf freiwilliger MItarbeit basiert und wer keine Lust hat, einen Artikel zu schreiben der hat eben keine Lust. Überhaupt glaube ich, dass der Flaschenhals weniger Wikipedia als solches ist, sondern dass man die Sphäre der akademischen Veröffentlichungen in seiner Gesamtheit betrachten muss. Der Engpass liegt eher im Bereich OpenAccess. Also dort, wo wissenschaftliche Forschung betrieben wird die auf Google Scholar publiziert wird. Mehr als diese Sphäre abzubilden kann Wikipedia nicht leisten. In der Hilfe ist das Prinzip ziemlich gut klargestellt worden: Wikipedia zitiert wissenschaftliche Quellen. Und wo diese nicht existieren kann man auch keine Artikel schreiben. Würde man mehr Quellen online haben, könnte auch das darauf aufbauende Lexikon umfangreicher sein und das heißt, man würde auch mehr Wikipedianer benötigen die die Texte verfassen.

Agressivität in der Wikipedia steigt an

Wer mit Wikipedia bisher keine nähere Bekanntschaft gemacht hat oder davon ausging, dass es dort eine “healthy community” gibt, die sich unterstützt wird entsetzt feststellen, dass innerhalb des Lexikons ein sehr rauer Umgangston herscht. Live miterleben kann man diesen auf der Vandalismus-Meldungsseite Aber sind das womöglich nur die Schattenseiten und nicht repräsentativ? Eher im Gegenteil, so aggressiv wie auf der Vandalismusseite geht auch in anderen Bereichen zu, daher stellt sich die Frage: wie halten das die Admins aus, sich jeden Tag dieser Aggressivität zu stellen bzw. selbst welche auszuüben? Blättern man ein wenig durch die Vandalismus-Seiten durch, so stellt man fest, dass anders als zunächst gedacht offenbar die Admins sogar ausgesprochen gerne sich mit derlei Dingen beschäftigen. Es gibt sogar eine Unterseite namens “Trollübersicht” wo langjährige Zerstörer der Wikipedia ausführlicher vorgestellt werden, teilweise mit psychographischen Profilen. Anders formuliert, dafür dass die Vandalismusseite angeblich die Schattenseiten des Lexikons repräsentieren geht es dort erstaunlich munter und lustig zu. Ich glaube, das hat etwas damit zu tun, dass die Rollen klar verteilt sind. Das heißt, alle Beteiligten wissen um die Spielregeln und haben das ganze zu einem Wettbewerb erweitert. Das betrifft die Trolle auf der einen Seite, die natürlich wissen, dass sie Unsinn in die Wikipedia hineinschreiben und damit offizielle oder inoffizielle Guidelines verletzen. Sie machen es, weil es unglaublich gut tut, gegen die weltweit angesehende Wikipedia mal so richtig zu stänkern. Und auf der anderen Seite gibt es die Wikipedia-Admins, die natürlich ebenso wissen, dass sie unter Feuer stehen, aber eine breite Palette an Erfahrung und Tools an der Hand haben, um 6 Stunden sperren, oder 24 Stunden sperren zu verteilen und die es ebenfalls als Genugtuung empfinden mal so richtig schön vom Leder zu ziehen. Kurz gesagt, das haben sich zwei Seiten gesucht und gefunden, die zueinander passen. Das ganze funktioniert wie ein Katz-und-Maus spiel was schon seit ewigkeiten existiert, und bis in alle Ewigkeit die Beteiligten fasziniert.

Die Textbeiträge auf der VAndlismusseite folgen einem sehr eigenen Diskursstil, ja fast wie bei einem Gedicht ist dort zu lesen:
– Kleiner Timmy on Trolltour
– für 6 Stunden gesperrt, Begründung war: Unsinnige Bearbeitungen
– Editwaer mit mehreren Beteiligten
– keine Besserung erkennbar

Sozial entlastend wirkt auch, dass ein Diskurs zwischen beiden Seiten nicht erwünscht ist und auch komplett unwahrschenlich erscheint. Man hat ein wenig den Eindruck, als ob da sich zwei Seiten im Schützengraben gegenübersitzen, und das einzige was ausgiebig tun ist Dauerfeuer zu geben. Das ganze ist nicht etwa ein Ziel, sondern es ist die Beobachtung. Egal ob man die Vandalismusseite an Heiligabend, an einem Montag oder in 3 Jahren nochmal aufruft, es ist immer dasselbe Bild. Die einzige erkennbare Währung in diesem Spiel sind Lulz, also die Schadenfreude es der Gegenseite mal wieder so richtig besorgt zu haben. Wobei Lulz als Fun wohl beide Seiten (Hase und Igel) haben, sonst würden sie nicht aus ausdauernd dabei sein. Offenbar macht es einerseits unglaublich viel Spaß, seine Zerstörungswut an der ehrwürdigen Wikipedia auszulassen und genausau macht es Spaß, User und IP dafür zu maßregeln (am besten von oben herab).

Nur zugern würde ich persönlich für eine der beiden Seiten Partei ergreifen. Aber dafür ist das Schauspiel viel zu kostbar. Vielmehr ist das Gegeneinander und die unversöhnliche Härte die fasziniert, es ist vergleichbar mit der Futurebörse in Chicago wo sich die Händler anschreien. Es geht ähnlich wie in dem Roman von Frank Norris nicht nur um die Sache an sich, sondern es spielen immer auch persönliche Motive eine wichtige Rolle. Ähnlich wie beim Kartenspiel kann daraus ein Sucht werden, wo es um die Interaktion als solche geht, wo also das Trolling bzw. das Gegentrolling zum Lebensinhalt wird. Im Wikipedia Sprech wird von notorischen Wiederholungstrollen gesprochen, aber auch die Gegenseite zeichnet sich durch eine Konstanz und Vehemenz aus. So ähnlich wie bei einem einarmigen Banditen kann man den Automaten dazu verwenden, um dem Alltag zu entfliehen, sich also für einige Stunde in die Parallelwelt des Vandalismus flüchten.

Kurzanleitung um einen Wikipedia Artikel zu schreiben

Die Abläufe um einen Wikipedia Artikel zu schreiben sind übersichtlich und wenn man es praktisch ausprobiert lernt man sehr viel darüber was wissenschaftliches Schreiben ausmacht. Schritt 1 besteht darin, zunächst einmal ein Thema zu identifzieren. Im Optimalfall gibt es dazu noch keinen Wikipedia Artikel und man hat selbst keine Ahnung davon, so dass man neugierig recherchieren kann. Das Ergebnis der Recherche vermerkt man im Literaturverwaltungsprogramm Jabref. Während man die Paper dort einfügt kann man sich parallel dazu Stichpunkte machen, also Kurzexzerpte erstellen für wichtige Informationen. Als Verweis dient der Bibtex-Key.

Nachdem man die Literatur bewältigt hat beginnt der schwerste Teil: das Schreiben eines eigenen Artikels. Üblicherweise sitzt man vor dem leeren Blatt und will natürlich gleich beim ersten Mal den großen Wurf machen, weiß aber nicht so recht wie man beginnen soll. Das beste ist sich vorzustellen, dass man zu einem Youtube-Video einen Kommentar verfasst. Und den Text schreibt man dann hin. Dabei lieber etwas umgangssprachlicher formulieren. Das Niveau dieser Texte zu erhöhen kann man später immernoch. Es ist sogar erstaunlich simpel, weil man lediglich die Rechtschreibung verbessern muss und Literaturangaben hinzufügt und schon wird aus einem flappsigen Kommentar ein lesenswerter Text. Den lädt man zu Wikipedia hoch.

Was man vermeiden sollte, ist sogenanntes Live-Editing. Also im Webbrowser gleich einen Artikel erstellen, dort zwei Sätze reinschreiben und das dann iterativ durch mehrere Wikipedia-Edits zu verbessern. Besser ist es, den Text offline zu schreiben und dann die 10 kb große Textdatei mittels Copy&Paste ins Fenster hineinzukopieren. Der Vorteil ist, dass eine derartige Änderung als kraftvoller / mächtiger wahrgenommen wird.

Vor 7 Tagen habe ich den neu erstellten Inmoov-Artikel zu Wikipedia hochgeladen. Einen Löschantrag gab es zwar noch nicht, aber dafür wartet der Text jetzt auf eine Sichtung. Die Erfahrung mit Wikipedia hat gezeigt, dass sinnvolle Änderungen sofort freigeschaltet werden, das heißt 7 Tage ist schon relativ lange also mag Wikipedia meinen Text vermutlich nicht. Viel machen kann man da aktuell nicht. Jetzt heißt es warten, bis zu 40 Tagen kann die Sichtung dauern, was dann passiert steht in den Sternen.

10 Tage nach dem Upload des Artikels gab es heute den ersehnten Sichter-Vermerk. Das heißt, der Text ist jetzt in der regulären Wikipedia freigeschaltet und kann dort angeschaut werden Laut Statistik sind es aktuell 3 Visits am Tag. Da Wikipedia bei Google ein sehr gutes Ranking hat, dürfte das niedrige Leserinteresse allein dem Thema geschuldet sein. Aber egal, nach 1 Jahr wären es dann schon 1000 Abrufe, für ein Robotik-Thema ein guter Wert.

Sun Tzu und die Kunst ein Lexikon zu schreiben

Sun Tzu sagt, jede Schlacht ist geschlagen bevor sie begonnen hat. Im Beispiel von Wikipedia heißt das, dass man bevor einen Text überhaupt dort einstellt man wissen sollte, wie darauf die Gegenseite reagiert. Um das herauszufinden habe ich folgendes Python Script erstellt:

# -*- coding: utf-8 -*-
Created on 22.02.2017
Wikipedia Check
@author: Manuel Rodriguez
class Quality: 
  def __init__(self):
    self.sentences = input('How much sentences? ')
    self.sources = input('How much sources from Google Scholar? ')
    self.doi = input('... from that with a DOI number? ')
    self.orthography = input('Is orthography correct? (0=no, 1=yes) ')
    self.quotationmarks = input('Are the quotation marks changed from"that" to „that“? (0=no, 1=yes) ')
  def result(self):
    self.neededcitation = 5
    self.neededdoi = 0.5
    count1 = 1.0 * self.sources / self.sentences
    count2 = 1.0 * self.doi / self.sources
    if count1 >= (1.0*1 / self.neededcitation): cond1 = True 
    if count2 >= (1.0*self.neededdoi): cond2 = True
    if self.orthography==1: cond3=True
    if self.quotationmarks==1: cond4=True
    print "\nResult: ",
    if cond1==True and cond2==True and cond3==True and cond4==True:
      print "Text is great, please upload. Sighting can take up to 40 days"
      print "Textquality is bad, Don't upload. The problems are:"
      if cond1==False: print "- number of sources"
      if cond2==False: print "- number of DOI"
      if cond3==False: print "- orthography"
      if cond4==False: print "- quotation marks"
if __name__ == "__main__":
  myQuality = Quality()

Nachdem man das Programm mit “python” startet muss man auf der Komamndozeile einige Fragen beantworten: Anzahl der Sätze, Anzahl Quellen, Anzahl Quelllen mit DOI Nummer, Rechtschreibung korrekt? und Anführungszeichen korrekt? Dann wird überprüft ob die Wikipedia-Qualitätskriterien erfüllt sind und entweder erscheint dann, dass alles super ist oder eben nicht. Der Check bietet eine erste Möglichkeit grob einzuschätzen ob sich ein Upload überhaupt lohnt. Vielleicht mal ein kleines Beispiel.

Auf meiner Festplatte habe ich schon einen kleinen Wikipedia Artikel geschrieben über ein Thema was interessant ist, und wozu es noch keinen Artikel bei Wikipedia gibt. Wenn ich jetzt das Programm starte, gebe ich bei Anzahl Sätze wahrheitsgemäß “10” ein, bei Anzahl Quellen “1” bei Anzahl Quellen mit einer DOI Nummer “0”, bei Rechtschreibung und Anführungszeichen beidesmal eine “0” für nicht eingehalten. Die Software rechnet dann ein wenig und es wird ausgegeben, dass die Textqualität zu niedrig ist. Jetzt könnte ich natürlich den Text trotzdem zu Wikipedia hochladen. Nur, die Wahrscheinlichkeit ist hoch, dass es Stress gibt. Entweder gibt es einen Löschantrag oder ein erfahrener Admin hat daran etwas auszusetzen. Insofern ist es besser auf den Upload zu verzichten. Das ist zwar schade aber nicht zu ändern.

Wer sich den Sourcecode näher anschaut wird relativ schnell bemerken was man eingeben muss, damit die Software den Text für perfekt hält: man muss alle 5 Sätze mindestens eine Quelle haben und es müssen 50% DOI Quellen sein. Bei den Fragen 4 und 5 muss man beidesmal “1” eingeben. Und ja, darüber kann man den Check austricksen.