Skip to main content

ベイジアンスパムフィルタリングとは何ですか?

Anonim

ベイジアンスパムフィルタは、その内容に基づいてメッセージがスパムである確率を計算します。単純なコンテンツベースのフィルタとは異なり、ベイジアンの迷惑メールフィルタは迷惑メールや迷惑メールから覚えているため、非常に堅牢で適応性が高く、効率的な迷惑メール対策を実現します。

あなたは迷惑メールをどのように認識していますか?

スパムをどのように検出するか考えてみてください。多くの場合、一目瞭然です。あなたはスパムがどのように見えるかを知っていますし、良いメールがどのように見えるかを知っています

良いメールのように見えるスパムの確率は、ゼロ…の周りにあります。

スコアベースのコンテンツベースのフィルタは適応しません

自動迷惑メールフィルタもそのように機能していれば素晴らしいとは思いませんか?

コンテンツベースのスパムフィルタを採点すると、それだけが試されます。スパムに代表される言葉やその他の特徴を探します。すべての特性要素にスコアが割り当てられ、個々のスコアからメッセージ全体のスパムスコアが計算されます。いくつかの採点フィルタは正当なメールの特徴を探し、メッセージの最終スコアを下げます。

スコアリングフィルタのアプローチは機能しますが、いくつかの欠点もあります。

  • 特性のリストは、フィルタのエンジニアが利用できるスパム(および良好なメール)から構築されます。誰かが受ける可能性がある典型的なスパムをよく理解するためには、数百の電子メールアドレスでメールを収集する必要があります。これにより、フィルタの効率が低下します。特に、 良いメールの特徴は人ごとに異なります これは考慮されていません。
  • 探している特性は多かれ少なかれ 石で設定 。スパム送信者が適応するように努力して(そしてスパムをフィルタへの良いメールのように見せるように)、フィルタリングの特性を手動で微調整する必要があります。
  • 各単語に割り当てられたスコアはおそらく良い見積もりに基づいていますが、依然として恣意的です。また、特性のリストのように、スパムの変化する世界にも、個々のユーザーのニーズにも適応しません。

ベイジアンスパムフィルターは、自分を調整し、より良くなっています。

ベイジアン・スパム・フィルタは、コンテンツ・ベースのスコアリング・フィルタの一種です。彼らのアプローチは、単純なスコアリングスパムフィルタの問題を取り除きますが、それは根本的にそうです。スコアリングフィルタの弱点は手作業で作成された特性とスコアのリストにあるため、このリストは削除されます。

代わりに、ベイジアンスパムフィルタはリスト自体を構築します。理想的には、スパムとして分類した電子メール(大量の)と、もう1つの良質のメールから始めます。フィルタは、正当なメールだけでなくスパムも分析して、迷惑メールやさまざまなメールに表示されるさまざまな特性の確率を計算します。

ベイジアンスパムフィルタが電子メールを検査する仕組み

ベイジアンスパムフィルタが見ることのできる特性は次のとおりです。

  • メッセージ本文の言葉は、もちろん、そして
  • そのヘッダー(たとえば、送信者とメッセージパス!)だけでなく、
  • HTML / CSSコード(色や他の書式のような)、または
  • 単語のペア、フレーズ、
  • メタ情報(例えば、特定のフレーズが現れる場所)。

たとえば、「デカルト」という単語がスパムには表示されないが、受信した正当な電子メールによく表示される場合、「デカルト」がスパムを示す確率はゼロに近くなります。一方、「トナー」は排他的に、またしばしばスパムに見られます。 「トナー」はスパムで検出される可能性が非常に高く、1(100%)を大きく下回るものではありません。

新しいメッセージが到着すると、それはベイジアンスパムフィルタによって分析され、完全なメッセージがスパムである確率は個々の特性を使用して計算されます。

メッセージに「デカルト」と「トナー」の両方が含まれているとします。これらの言葉だけでは、迷惑メールか正当な迷惑メールかどうかはまだはっきりしていません。他の特徴は、フィルタがそのメッセージを迷惑メールか良いメールのいずれかに分類する確率を示しています(うまくいけばおそらくそしておそらく)。

ベイジアンスパムフィルタは自動的に学習できます

分類があったので、メッセージを使用してフィルタ自体をさらに調整することができます。この場合、「デカルト」と「トナー」の両方を含むメッセージが迷惑メールであると判明した場合、良好なメールを示す「デカルト」の確率が低下するか、またはスパムを示す「トナー」の確率を再考する必要があります。

この自動適応技術を使用して、ベイジアンフィルタは 自分自身とユーザーの意思決定から学ぶ (彼女が手動でフィルタによる誤判定を訂正する場合)。ベイジアンフィルタリングの適応性は、個々の電子メールユーザーにとって最も効果的であることを確認します。ほとんどの人のスパムは類似の特性を持つかもしれませんが、合法的なメールは誰にとっても特徴的に異なります。

スパマーは過去のベイジアンフィルタをどのように入手できますか?

正当なメールの特性は、スパムと同様にベイジアンのスパムフィルタリングプロセスにとっても重要です。フィルタがすべてのユーザ専用に訓練されている場合、スパマーは誰の(またはほとんどの人の)迷惑メールフィルタにも苦労するでしょう。スパマーが試みるほとんどすべてにフィルタを適用できます。

Spammersは、スパムメッセージをみんなが得る普通のメールのように見せかけるようにすれば、十分に訓練されたベイジアンフィルタを通過させるだけです。

スパム発信者は通常、通常のメールを送信しません。これらの電子メールが迷惑メールとして機能しないためです。だから、普通の、退屈なメールだけが迷惑メールフィルタを通過させる唯一の方法である場合、彼らはそれをしない可能性があります。

しかし、スパマーがほとんど普通のメールに切り替えると、私たちの受信ボックスには多くのスパムが再び表示され、電子メールはベイジアン前の時代(またはさらに悪い)のようにイライラすることがあります。それはまた、ほとんどの種類のスパムのための市場を台無しにしてしまったので、それは長く続くことはありません。

強い指標はベイジアンスパムフィルタのアキレス腱である可能性がある

1つの例外は、通常のコンテンツであっても、スパマーがベイジアンフィルタを通って動作することを認識することができます。良好なメールに非常に頻繁に現れる1つの単語または特性は、スパムのようなメッセージをフィルタによってハムとして評価するほど大きくなる可能性があるというベイジアン統計の性質上、

スパマーがあなたの確かな善いメールの言葉を判断する方法を見つけた場合(HTMLの返品確認を使って開封したメッセージを確認するなど)、そのうちの1つを迷惑メールに入れて、訓練されたベイズフィルタ。

John Graham-Cummingは、2つのベイジアンフィルタを相互に作用させることによってこれを試みました。「悪い」のメッセージは、「良い」フィルタを通過するメッセージに適合します。プロセスは時間がかかり複雑なものですが、彼はそれが機能すると言います。私たちは、少なくとも大規模ではなく、個人の電子メールの特性に合わせて調整されたものではないことを、私たちが見ているとは思いません。スパマーは組織のためのいくつかのキーワード(おそらく、IBMの一部の人にとっては「Almaden」のようなもの)を見つけ出すかもしれない。

通常、スパムは通常のメールとは常に(大きく)異なりますが、スパムではありません。

ボトムライン:ベイズフィルタリングの強みは弱点になる

ベイジアンスパムフィルタはコンテンツベースのフィルタ それ:

  • 個別の電子メールユーザーの迷惑メールと良好なメールを認識するように特別に訓練されていますスパム発信者にとって非常に効果的かつ適応しにくいものになっています。
  • 継続的かつ多大な努力や手作業による分析なしに適応する スパマーの最新のトリックに
  • 個々のユーザーの良いメールを考慮に入れて低い偽陽性率.
  • 残念なことに、これがベイジアンのスパム対策フィルタを盲目的に信頼してしまうと、ときどき間違いがさらに深刻になる。反対の効果偽陰性 (通常のメールとまったく同じように見えるスパム)は、ユーザーを妨害して迷惑になる可能性があります。