HOME  >  Research  >  電子メールフィルタリング  >  電子メールフィルタリングにおける機械学習システムBONSAIの学習例数と精度の関係性の検討

電子メールフィルタリングにおける
機械学習システムBONSAIの学習例数と精度の関係性の検討

Researcher:Masashi Hyuga

研究背景

近年の情報技術の発達に伴い、インターネットや携帯電話の普及が著しく、その結果,情報伝達の手段の一つとして電子メールは我々の生活に必要不可欠な存在となっている。現在、国内で一日に受信される電子メール全体における迷惑メールは3分の2を占め、迷惑メールが社会問題になっている。迷惑メールを排除するためには様々な対策が講じられてきたが、迷惑メールも日々変化するため依然として対策が有効に機能しているとは言い難い状況にある。

 

研究目的

次々に変化する迷惑メールに対応可能にするために機械学習システムBONSAIを用いたメールフィルタリングシステムの開発をしている。機械学習用いたメールフィルタリングとは、メールを受信する際、今までの経験(受信)から新しく受信したメールが、正規メールか、迷惑メールか判断する。このメールフィルタリングシステムの特徴としては、迷惑メールだけでなく正規メールの特徴も抽出するところである。迷惑メールと、正規メールの両方の特徴から受信したメールを判断するということである。これからシステムの改善を行うことによって、より精度が高く実用的なものを目指す。

 

BONSAIを用いたフィルタリングシステムの流れ

BONSAIは一次元の記号列を対象とするため、学習(経験)させる正規メール、迷惑メールを単語ごとに記号化していく。各単語が正規メール、迷惑メールのどちらのメールに出現しやすいかで、6つの記号に分類される。そしてBONSAIは、一次元記号列化された正規メールと迷惑メールを学習例として受け取り、それぞれのメールの単語の並び方の特徴を見出す。その特徴をもとに受信したメールが正規メールか迷惑メールを判断するというものである。

図1:BONSAIを用いたメールフィルタリングの流れ


MENU