Spam Filter mit Bayes Formel?

[1] Der Satz von Bayes wird von einigen Mathematikern nach wie vor als Weltformel identifziert, also als ein Wunderelexier mit dem sich jede Art von Problem lösen lässt. Und in der Tat hat die Wahrscheinlichkeitsrechnung Vorteile wenn man umfangreiche Datenbestände in Spam und Non-Spam unterteilen will. Allerdings darf bezweifelt werden, dass in der beschriebenen Form im OP die Implementierung einer Software Sinn machen würde. Nur mal als Erläuterung was der Bayes Satz ist: es handelt sich um eine kleinere Formel die sich in 2 Zeilen C-Code programmieren lässt, wenn das jetzt der komplette Spam-Filter sein soll, wie gut kann der sein? Richtig, um die Sache professioneller anzugehen braucht man wesentlich mehr. Wie wäre es beispielsweise mit einer “Finite State Machine” wo über mehrere Ebenen verteilt ein Parser implementiert wird? Im Layer1 könnte man alle E-Mails von einem bestimmten Absender ausfiltern, in Layer2 dann die mit den Stop-Words, in Layer3 die mit den vielen Links usw. Mit Wahrscheinlichkeitsrechnung hat das nicht viel zu tun, eher mit Modellierung als Automaton. Generell wird in der Schulmathematik der Stochastik viel zu viel Bedeutung beigemessen.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s