Spam Filter mit Bayes Formel?


[1] Der Satz von Bayes wird von einigen Mathematikern nach wie vor als Weltformel identifziert, also als ein Wunderelexier mit dem sich jede Art von Problem lösen lässt. Und in der Tat hat die Wahrscheinlichkeitsrechnung Vorteile wenn man umfangreiche Datenbestände in Spam und Non-Spam unterteilen will. Allerdings darf bezweifelt werden, dass in der beschriebenen Form im OP die Implementierung einer Software Sinn machen würde. Nur mal als Erläuterung was der Bayes Satz ist: es handelt sich um eine kleinere Formel die sich in 2 Zeilen C-Code programmieren lässt, wenn das jetzt der komplette Spam-Filter sein soll, wie gut kann der sein? Richtig, um die Sache professioneller anzugehen braucht man wesentlich mehr. Wie wäre es beispielsweise mit einer „Finite State Machine“ wo über mehrere Ebenen verteilt ein Parser implementiert wird? Im Layer1 könnte man alle E-Mails von einem bestimmten Absender ausfiltern, in Layer2 dann die mit den Stop-Words, in Layer3 die mit den vielen Links usw. Mit Wahrscheinlichkeitsrechnung hat das nicht viel zu tun, eher mit Modellierung als Automaton. Generell wird in der Schulmathematik der Stochastik viel zu viel Bedeutung beigemessen.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s