Mail: ベイジアンフィルタによるメールの判定 (F5キー、Bayesian Filter)

				プロセルピナ
Top	Internet Mail	Private Proxy	Capture Device		Download	Config and Words	Online Help	Online Home

[BACK]

☞ Top > Mail > Filtering > Bayesian > F5

	ベイジアンフィルタによるメールの判定 ( F5 キー)	Mail Filter
	Top \| Menu \| IpBlacklist \| Bayesian \| Edit \| Commands

F5 キーを押すだけで、 View部メインフォームで表示中のメールに対し ベイジアンフィルタ(Bayesian Filter)によるジャンクメール判定を行うことができます。

ベイジアンフィルタは、メールに含まれる単語の出現頻度から、ジャンクメール(SPAM)かどうかを判定するフィルタです。
→ ベイジアンフィルタ (Bayesian Filter)

F5 キーによる機能では判定結果を表示するだけで、メールの移動や廃棄などは行いません。

利用例：辞書の成長確認に

ベイジアンフィルタで使用するBayesian辞書(＝確率テーブル)が実用的なレベルにまで「成長」したかどうかを確認する目的で使用することができます。
通常メールとジャンクメールの幾つかに対して[F5]キーで判定を行い、正しく判定されているようならメールフィルタにベイジアンによる判定を組み込みます。
→ Bayesianコマンド (メールフィルタコマンド)

利用例：判定結果の詳細なチェックに

メールフィルタに組み込んだベイジアンフィルタで誤判定されていたメールに対し、 [F5]キーで個別に判定を行ってその詳細を表示することによりベイジアンフィルタの動作確認を行います。
誤判定されたメールはベイジアンフィルタに学習させます。
→ ベイジアン辞書にメールを学習させる

ベイジアンフィルタの学習例

次の図のFig.1は、ジャンクメールを対象に F5 キーでベイジアンフィルタによる判定を行った場合の表示例です。

Fig.1: ベイジアンフィルタによる判定 (学習前)

f値が１に近づくほどジャンクメールに近いと判定されます。「プロセルピナ」ではf値が 0.900 を超えるメールをジャンクメールと判定しています。
上記のFig.1の例ではメール全体のf値が0.010 となっていて、使用しているBayesian辞書の学習が不足しているのかジャンクメールと判定されていません。
結果を詳細に見ると、個々の単語ではf値が高いものがありますが、通常メールに含まれていた単語(f値が低い)も多く含まれていてそれが全体のf値を下げています。
例えば、このメールに含まれていた「恋愛」という単語はジャンクメールとして登録されたメールに875件も含まれていた一方、このユーザの通常メールには２件しか含まれていなかったので、 f値は0.999と高いものになっています。しかしその一方で「イベント」という単語はジャンクメールに368件含まれていますが、通常メールにも254件含まれているので、 f値は0.054と低いものになっています。
(ジャンクメールと誤判定される危険性を下げる為、ベイジアンの計算式ではジャンクメールと通常メールとで同じ程度にに含まれる単語のf値は中間値0.500に比べてもかなり低くなります)

ここで、このメールをジャンクメールとして学習させます。
→ ジャンクメールとして学習させる

学習後、再び [F5]キーでベイジアンフィルタによる判定を行ったのが次のFig.2の例です。

Fig.2: ベイジアンフィルタによる判定 (学習後)

f値が僅かに0.900を超えなかったので結果としてジャンクメールとは判定されていませんが、「学習」によって確実にf値が上昇している(0.010→0.897) ことが確認できます。

この後に類似の内容のジャンクメールが届いた場合に再度学習させると、ほぼ確実にジャンクメールと判定されるでしょう。
ここでは学習の例として、再度同じメールを「学習」させることで結果がどう変化するかを確認します。
(注：辞書の語彙の偏りを防ぐため、実際の運用では同じメールを繰り返して学習させないようにします)

Fig.3: ベイジアンフィルタによる判定 (再学習後)

今度はジャンクメールと判定されました。
以降は類似した内容(＝類似した語彙が使用されている内容)のメールはジャンクメールと判定されます。

ジャンクメールのURL

ジャンクメールにはアクセス先のURLが記載されていることが殆どですが、これももちろん単語に分解されてBayesian辞書に登録されます。

「プロセルピナ」のベイジアンフィルタで実装している単語解析処理では URL解析用の特殊処理が追加してあり、メールに記載されたURLからホスト名の部分を抽出し、それをBayesian辞書に普通の単語登録に加えて登録します。
ジャンクメールが誘導しようとした先のURLが変化していたとしてもホスト名までは変化しないことが多く、このホスト名抽出処理によって少ないジャンクメールの登録でもジャンクの判定が高確率で行えるようになります。
以下の例では、全て「example.net」というホスト名がBayesian辞書に登録されます。

(1) http://www.example.net/lovelove.cgi
(2) http://www3.example.net/yourprofit/getitnow.cgi
(3) http://kissme.www.example.net/goodforyou/bigmoney.php?yourName

ジャンクメールのURLに記載されたホスト名は通常メールにはまず含まれることのないホストですから、少ない回数しか出現しない場合でも自動的にf値が非常に高い単語として登録されます。
例えば学習させたメールにはたった５回しか出現しなかったホスト名だったとしても、それが通常メールには全く含まれないホスト名の場合なら、単語のf値は 0.990 といった非常に高いものになります。
メールの振り分けにおいて、URLに記載されているホスト名はジャンクメールを抽出する良いキーワードになります。

[BACK]

プロセルピナ