Um Spamassassin zu trainieren kann man entweder die zu verarbeitenden eMails per POP3 oder IMAP abholen und verarbeiten. Das ganze ist nur leider relativ langsam. Wesentlich schneller geht es wenn die eMails schon im mbox Format vorliegen. Nach einigem suchen im Web bin ich auf zwei Tools gestoßen. Readpst und dbxconv. Readpst konvertiert aus einer PST-Datei die eMails pro Orndern in jeweils eine mbox Datei. Dbxconv ist das gleiche für Outlook Express. Der Aufruf wäre demnach:
readpst outlook.pst
dbxconv *.dbx
Um nun die eMails als Spam zu verarbeiten geben Sie auf der Konsole des Linux Rechners folgendes ein:
sa-learn --spam --mbox
Ob das verarbeiten der Spam Mails erfolgreich war können Sie wiefolgt nachvollziehen
sa-learn --dump magic
Noch zwei Hinweise zum Schluss (gut für die die alles lesen 😉). Spamassassin speichert meines Wissens erst nach 50 identischen eMails diese als Spam. Um den Wert manuell zum lernen herunter zu setzten setzten sie folgende zwei Optionen in der /etc/spamassassin/local.cf
bayes_min_ham_num 1 bayes_min_spam_num 1
Für den Dauerbetrieb ist hier ein Wert von 10 akzeptabel.
Zweitens sollten Sie die Verarbeitung der Relayhost Informationen deaktivieren um die Informationen des eigenen Relay Server nicht mit zu verarbeiten
bayes_ignore_header X-LOC-Sender-is-local bayes_ignore_header X-Bogosity bayes_ignore_header X-Virus-Scanned bayes_ignore_header X-Authentication-Warning bayes_ignore_header X-Trailer bayes_ignore_header X-Spam bayes_ignore_header X-Spam-Flag bayes_ignore_header X-Spam-Status bayes_ignore_header X-Spam-Score bayes_ignore_header X-Spam-Report bayes_ignore_header ReSent-Date bayes_ignore_header ReSent-From bayes_ignore_header ReSent-Message-ID bayes_ignore_header ReSent-Subject bayes_ignore_header ReSent-To bayes_ignore_header Resent-Date bayes_ignore_header Resent-From bayes_ignore_header Resent-Message-ID bayes_ignore_header Resent-Subject bayes_ignore_header Resent-To