プロセルピナ
Top Internet
Mail
Private
Proxy
Capture
Device
Download Config
and
Words
Online
Help
Online
Home
[BACK]
Top > Mail > Filtering > Bayesian

 
  ベイジアンフィルタ (Bayesian Filter)
Mail Filter
Top | Menu | IpBlacklist | Bayesian | Edit | Commands   


ベイジアンフィルタ(Bayesian Filter)は、 メールに含まれる単語の出現頻度から、ジャンクメール(SPAM)かどうかを判定します。
メールの振り分け(filtering)で使用する機能ですが、 View部メインフォーム F5 キー を押すことで、 表示中のメールについてベイジアンフィルタがどう判定するかを確認することができます。
→ ベイジアンフィルタによるメールの判定 ([F5]キー、Bayesian Filter)


ベイジアンフィルタを使用する前に、ベイジアンフィルタの辞書(Bayesian辞書)に 通常メール、ジャンクメールを「学習」させる必要があります。
通常メールの登録が不足していると、届いた通常メールが ジャンクメールと誤判定される確率が高くなります。



Fig.1: Bayesian辞書が成長すると判定精度が向上。サイズが大きくなりすぎたらダイエット


Bayesianフィルタの判定精度は、Bayesian辞書の充実度によります。 より多くのメールを辞書に学習させることにより、 より高精度の判定が行えるようになります。
特に、ジャンクメールと誤判定された通常メールは Bayesian辞書に「通常メール」として学習させることで、 それ以降の類似の内容のメールが 再びジャンクメールと誤判定される確率を大きく下げることができます。
→ ベイジアン辞書にメールを学習させる

ベイジアンフィルタにかけられたメールは、まず単語単位にメールが分解されます。 そしてそれら各単語に対して、 通常メールに含まれる確率が高い単語か、 それともジャンクメールに含まれる確率が高い単語なのかが判定されます。
最後に、各単語での判定をトータルに判断して、メール全体が 通常メールなのかジャンクメールなのかが判定されます。


 
  インストール時のBayesian辞書

「プロセルピナ」インストール時の初期状態で既に、 ジャンクメールに高頻度で出現する単語が NGワードとして登録されています。
メールの内容や分量にもよりますが、Bayesian辞書に100件程度の通常メールを学習させたあたりから、 実用的な精度でジャンクメールを判定できるようになります。
具体的に辞書の成長度を確認するには [F5]キー を使用してください。

Bayesian辞書を全くクリアな状態から構築する場合は、View部を終了させた後で ctrlフォルダの wordDB.txt というファイルを削除してください。


 
  メールフィルタでのフィルタコマンドの記述例

次の例では、 Bayesianフィルタでジャンクメールと判定されたメールを
  F:\GTmail\mailBox\JunkMail\Bayesian のフォルダ
に移動します。
(参考: →振り分けフィルタの作成)

 
if  Bayesian  move  dir="F:\\GTmail\\mailBox\\JunkMail\\Bayesian"

 
Fig.2: 記述例1

【Note】
Bayesianフィルタの判定でメールを廃棄(ゴミ箱移動)する場合は、 誤判定の可能性を考えて Bayesianフィルタ専用のゴミ箱フォルダを使用することをお奨めします。
定期的にこのBayesian専用ゴミ箱フォルダをチェックし、 誤判定されたメールを Bayesian辞書に「通常メール」として学習させることで、 類似メールが再びジャンクメールと誤判定される確率を低下させることができます。
→ ベイジアン辞書にメールを学習させる
→ Bayesianコマンド (メールフィルタコマンド)


 
  Bayesian辞書のダイエット

Bayesian辞書から出現頻度の低い登録を削除し、辞書のサイズを軽量化することができます。
→ Bayesian辞書のダイエット


 
  頻出ワードの除外

通常メールにもジャンクメールにも頻繁に出現する単語は、ctrlフォルダの skipWord.txtファイル に登録してBayesianフィルタで使用されないように除外します。
初期状態で日本語と英語、及びWebやメール関連の基本語彙が登録されています。 skipWord.txtファイル はテキストファイルなので、ユーザで自由に編集することができます。
[F5]キーによる判定表示で、 判定から除外したい単語が使われていた場合は skipWord.txtファイル に追加してください。
単語は  , (半角カンマ) で区切ります。 行の先頭に  # 文字 がある行はコメント扱いです。

編集したskipWord.txtファイルを反映させるには、View部の再起動が必要です。


[BACK]
プロセルピナ