Spampal Plugins

Spampal PluginsDas kostenlose Open-Source-Spamfilter Spampal verfügt über mehrere Plug-ins. Wie bei jedem Open-Source-Programm, werden bei Velleman Spampal sowohl die Plug-ins, als auch der Basiscode ständig von den computeraffinen Nutzern bearbeitet. Das steigert sowohl die Qualität des Programms, als auch die Qualität der dazugehörigen Plug-ins.

Also was für Plug-ins gibt es bei Spampal?

Es folgt die Liste der wichtigsten Plug-ins:

1. Bad Words Plug-in

Durch dieses Tool werden die Wortkombinationen ausgefiltert, die häufiger in den Spam-Mails vorkommen. Als häufigster Beispiel dazu gilt „Viagra kaufen“, oder auch „tolles Angebot“. Diese „schlechten“ Wortkombinationen werden auf die eigene Blackliste der Wörter gesetzt und, und wenn diese in der E-Mail vorkommen (außer der Bayes-Filter zugreift; was es genau heißt, erfahren Sie später), wird eine solche E-Mail als Spam erkannt. Also, ein ziemlich simpler Mechanismus. Diese Blackliste der Wörter wird sowohl aus den allgemeinen (also von den anderen Nutzern angegebenen), als auch aus den individuellen „schlechten“ Wörtern und Wortkombinationen zusammengesetzt.

2. Reg-Ex-Filter

Regex PluginJetzt wird es anspruchsvoller: statt den konkreten „schlechten“ Wortkombinationen handelt es sich um den ganzen Algorithmus der Spamerkennung. Hier werden die sogenannten „regulären Ausdrücke“ ausgefiltert. Diese Ausdrücke kommen in der formalen Computersprache vor. Hierbei sind Syntax und Semantik des Ausdrucks wichtig. Was bedeutet das? Die Syntax kennzeichnet das Aussehen der regulären Ausdrücken, die Semantik definiert die formale Bedeutung der Syntax dieser Ausdrücken.

Einfacher ausgedruckt, kann man mit Hilfe vom diesen Mechanismus die Wörter, die auf irgendeine logische Weise zusammenhängen, ausfiltern. Damit ist die Arbeit um einiges erleichtert, denn man muss nicht mehr alle möglichen Wörter und Wortkombinationen separat auf die schwarze Liste der Wörter setzen. Das macht jetzt das Programm von alleine.

Z. B. kann das Programm die Wörter mit einem Wurzel aussortieren, mit dem folgenden Algorithmus:

„Suche alle Wörter, die mit „Sex“ anfangen und beliebig lang sind und beliebig enden“. Somit kann man alle Spamangebote, die in dem Fall mit Sex zu tun haben, ausfiltern.

Auch kann man mit dem Filter in Velleman Spampal die getrennte Schreibweise, die unterschiedlichen Schreibweisen (wie z. B. alte und neue Deutsche Schreibweisen) und Vieles mehr ausfiltern.

Man muss also hier das ungewünschte Gebiet ausgrenzen. Dann hilft Ihnen der Algorithmus.

3. Bayes-Filter

Den Namen „Bayes“ kennen manche von uns aus dem Statistikunterricht. Auf den Werken von Thomas Bayes, des Erfinders des Wahrscheinlichkeitsfilters, basieren sich die Grundlagen der Wahrscheinlichkeitsrechnung. Jedoch, werden wir es an der Stelle nicht statistisch vertiefen und gehen direkt zur Anwendung dieses Filters bei den Spamangelegenheiten.

Wie der Name „Wahrscheinlichkeitsfilter“ es schon verraten hat, geht es hier um die konkreten prozentuellen Wahrscheinlichkeiten, dass das konkrete Wort ein Spamwort ist (oder es nicht ist). Dabei ist das Interessante an diesem Filter, dass er individuell ist. Das heißt, dass, wenn die konkrete Person eine bestimmte Wortkombination als Spam angegeben hat, werden auf dem PC dieser Person die Wahrscheinlichkeiten der Wörter, die diese konkrete Wortkombination bilden, Spam zu sein um einen bestimmten Faktor erhöht.

Wenn die Person eine E-Mail bekommt, werden die Grundwahrscheinlichkeiten der Wörter, dass sie Spam sein können (falls von der Person irgendwann als Spam angegeben, schon um den Faktor korrigiert), zusammengerechnet. Und aus der Gesamtwahrscheinlichkeit wird ein Urteil über die konkrete E-Mail gefallen: ist sie ein Spam oder nicht.

Dazu gleich ein Beispiel. Sie kriegen viele Angebote von den lästigen Schuhgeschäften und haben viele dieser E-Mails, die eine häufige Wortkombination „Schuhe kaufen“ besassen, als Spam markiert. Jetzt lernen Sie im Urlaub eine neue Freundin kennen und tauschen mit ihr euere E-Mails aus. Da Sie keinen Facebook-Account hat, erfolgt die Kontaktaufnahme ausschließlich per E-Mail. Also, schreibt sie Ihnen die erste E-Mail, wo sie nebenbei erzählt, dass sie am Ende des Urlaubs noch tolle Schuhe gekauft hatte. Aha! Und was passiert jetzt? Dank dem Bayes-Filter, der nämlich erkennen kann, wie viele andere Wörter in dieser E-Mail noch vorhanden sind, die keine hohe Spamwahrscheinlichkeit haben, landet diese E-Mail nicht in Ihrem Spamordner. Könnte also ein ganz nützliches Tool sein, oder?