2012年10月9日火曜日

ゲームは続く - 近代スパム技術の分析


スパムは、おそらく我々が今日見るコミュニケーションの中で最も急速に変化する形態の一つである。回避検出のスパマーの方法は、最近の過去にも採用されたものから、大幅に異なる、絶えず進化しています。

コンテンツフィルタリングのベース - まだどんな広範かつ積極的なスパム対策ソリューションの必要な部分 - 彼らの努力からの免疫を意味しな​​いことです。シグネチャ、URLブロッキングまたはヒューリスティックルールに基づいているかどうか、これらのフィルタは、まだ時々洗練されたHTMLとCSSベースの難読化法により、または無作為添付画像内のメッセージの内容全体を配置することによって阻止されています。

スパマーはまた精力的に彼らはプリエンプティブ検出を回避することができますドメイン名の登録システムの抜け穴を模索する、無料のWebホスティングプロバイダのセキュリティ対策のため、彼らは毎日新しい家の数千ページを大量に登録できます。

本稿では、統計レポートと現実の例を伴って多くの近代的なアンチスパム対策技術の分析を提供します。また、これらの多くの場合非常に効果的なので、ますます "人気の"スパム技術に対抗するためにいくつかの可能なアプローチを概説します。

インターネットのスパムは1978年には早くもから私たちとされているが、それは最初にアメリカ·オンラインは、Windows用AOLをリリースし、インターネットの指数関数的な拡大が始まった1993年9月、周りにマイナー迷惑以上になりました。

最初は、その後年間、Usenetのと、電子メールベースの​​スパムは、IPアドレスの数が限らから送信されたASCIIのメッセージを不変で構成され、非常に簡単でした。このような単純な 'プレーンテキスト'スパムはそれをブロックに対応して単純なアプローチを必要とした。そのようなメッセージ本体上のキーワードのスキャンおよび簡単なハッシュ(または '署名')などのコンテンツベースの技術は非常に有効であった、そのようなSpamhausのとMAPSなどの接続レベルのIPブロックリストのパイオニアで、彼らも呼び鈴を鳴らすことができる前に離れてスパマーを回しました。

それ以来、スパマーは、接続およびコンテンツレベルのフィルタ処理の両方をターゲットに、考案したすべてのアンチスパム技術のためにカウンター対策せ、フィルタをバイパスするための様々な方法を開発しました。前者の場合には、 "ボットネット"として知られる危険にさらさ自宅のパソコン、、の巨大なネットワークは最もよく知られている。しかし、最近採用し、別のトリックは(主にいわゆる "ナイジェリアの"詐欺による)だけでなく、IPブロックリストにもDomainKeysのとSPF /送信者IDなどの新技術に対して有効である。この特定の例ではトリックは新しい顧客が新しいYahoo!メールアドレスの連絡先を通知することができますYahoo!メールサービスを利用しています。詐欺師は、ターゲットの電子メールアドレスの大きなリストを貼り付けます(図1を参照)は、フォームの "個人的なメッセージ"領域の支援のための彼の嘆願を書き込みます( '別にコンピュータと人間を指示する完全に自動化された公開チューリングテスト')CAPTCHAを通過テスト、彼の電子メールが有効なSPFとDomainKeysの情報を持つ完全なYahoo!のメールサーバから送出されます。

Yahoo!メールは100文字に個人的なメッセージを制限すると主張しながら、書いている時点でソフォスのスパムトラップに到着したメールは詐欺が大幅にこの制限を超えるための方法を発見したことを示していることに注意してください。このテクニックはもちろん、限られたユーティリティと(おそらく)長寿のですが、スパムの割合がこのように送信すると、ごくわずかですが、これと同様のエクスプロイトは、のみに依存するアンチスパムフィルタの側面にとげかもしれません接続レベルのアプローチ。

コンテンツ面では、難読化はまだアンチスパム対策の方法論の中心部に位置しています。それは与えられたすべてのトリックのスパマーがベール彼らの言葉を設定するために使用すること周知の事実だが、それ以上の10 ^ 21の異なった方法で "バイアグラ"をスペルミスする1つの推定によれば可能になります。 (これは1つセクスティリオンの組み合わせを介してではなく、適切に、である)しかし、現代のスパムは口に出せないに言及し、多くのより洗練された方法で進化してきました。

例えば、多数の "浮動小数点のトリック"のいずれかを実行します。

カスケーディングスタイルシート(CSS)は、ブロックレベルの要素がお互いに並んで "フローティング"であるように、この機能は、最も頻繁にWebページに列スタイルのレイアウトを実装するために採用されている。しかし、それはまた、スパマーがビットに言葉を分割し、フィルタを欺くための試みで、共通のトリガワードに誤った文字を挿入することができます。一度HTMLエンジンによってレンダリングされる、しかし、これらのビットが正しい順序で再構成され、スプリアスの追加は、右の余白にオフシャント。

もう一つは、まれとはいえ、この技術は特別なコードで囲まれた文字の順序を逆にするために、Unicodeの "右から左への上書き"機能を使用することです。これは、フィルタ( 'argaiV'は、例えば、見ている)から問題のある単語または語句を隠しますが、ユーザーは、Unicodeに準拠したHTMLエンジンに正しい順序のおかげで手紙を見ている。

アクションへのURLベースのコール:しかし、スパマーは自分の本当のメッセージを偽装するために使用するどのような方法は、スパムのほとんどの種類がアキレス腱を持っています。クリックするリンクがあるかどう英語スパムの大部分で利​​益のみ行うことができます。スパムメールに含まれているURLを攻撃することは非常に有効な手法であるため、スパマーはあまりにもこのアプローチを回避しようとする方法を開発しました。

昨年の巨大な復活を見た一つの方法は、スパマーのメインのサイトに(しばしば "暗号化された 'Javascriptを介して)リダイレクトするページをホストするための" freeweb "ホスティングプロバイダを使用することである。再び、これは新しいトリックではありませんが、今でははるかに有用なURLブロックリストをレンダリングする、無作為化 "freeweb"のいずれかのURLスパムキャンペーンの利用数千を参照するのが一般的です。当然のことながら、これらのプロバイダは、特に複雑な文字と数字を含む画像を提示し、入力するようユーザーに要求が含まアカウントにサインアップしながらCAPTCHAテストの通過を要求することによって、ほとんどの部分は自分のシステムのprecautionsagainstなどの虐待を撮影したフォームに文字。

ほとんどのCAPTCHAシステムは、人間よりもコンピュータでより頻繁に、より正確に解くことができる攻撃者はターゲットを絞ったときに最近の研究では、しかし、それを示しています!

現代のスパムに見られるユニークなfreewebのURLの莫大な量のためにそれがスパマーはそのようなYahoo!ジオシティーズなどの大きなfreewebプロバイダによって使用されるCAPTCHAを割れている可能性が高いようで、大量の量のようなサイトを登録するための自​​動化システムを持っています。もちろん、彼らと他のfreewebプロバイダーは、常にそのサービスの乱用は、この種の排除に努め、現在それがこの特定の "マーケティングツール"を期待されているCAPTCHA技術の向上に行われている研究のかなりの量とされているに一日​​を拒否されます。恒久的にスパマー。いくつかのスパマーがURLブロックリストを回避するためにfreewebプロバイダーになったものの、大半はスパムとの間の遅延の間に最初に与えられたドメイン名を含むスパムトラップに表示されると、そのドメインが彼らと彼らが可能性がブロックリスト(に追加されていることを知って、自分のドメインを登録し続けボットネット)が電子メールの数十万、そうでない場合は何百万人を派遣。

しかし、アンチスパマーは新たなドメイン登録のためにWHOISと関連情報を監視し、ネームサーバと既知のスパマーのそのデータベースに対して他の情報を比較して、もう一度工夫してこの時間を答えた。この方法でそれはどんなスパムも送られてきた前にブロックリストにドメインを追加するには、多くのケースで可能になりました。当然いくつかのスパマーは同様にこれを回避する方法を発見する前に、それは長くはなかったし、そのドメインを登録するときに、いくつかは、自分のネームサーバを使用するように切り替えるには、登録フォームにfreewebネームサーバ(および信頼された)よく知られている指定しますただ彼らのスパムの実行を開始する前に数分。

他の同様の手法では手遅れになるまで、既知の悪いスパムのネームサーバでドメインをリンクWHOIS情報の解析を防ぐために、登録された各ドメインの新しいネームサーバを使用することです。さらに別の一般的なトリックは、それによって積極的にブロックされているドメインのリスクを低減する、新しいドメインを登録した後、スパム実行の瞬間を発揮することである。スパムドメイン 'fyefga.org'は、例えば、2006年2月16日に午前1時28分UTCに作成されました。

このドメインを利用して最初のメールは、単なる2分後にソフォスのスパムトラップに登場した。画像内のラスタライズされたテキストは、通常のGIF形式で、スパムメールに添付 - - ソフォスのスパムに増加している限り、コンテンツフィルタリングが行くように、ここ数カ月の間に最も顕著な発展は、画像スパムの量が大幅に増加している今年の最初の半分以上が二重以上のトラップ。このアプローチは決して新しいですが、去年かそこらにスパマーのために経済的に初めてとなった。コンシューマレベルのブロードバンド接続の可用性と人気の急増は、大量のデータを送信するボットネットを使用して可能となっていることを意味し、さらに実際に自分の帯域幅を支払うそれらのスパマーのために、関連するコストは、上に何百万人を送り出すように劇的にhavereduced画像の何百万人はもはや非常に高価ではありません。

画像スパムは、従来、スパマーの努力を占有している領域から、すべてではありませんが、ほとんどで使用されているが、特にアクションの呼び出しが不要キャンペーンに適しているようすることができます。画像スパムは、一般的に会社の株式は、価格を汲み上げるため、株式を購入するに不注意をだますための試みで偽の投資ニュースレターで宣伝されている、いわゆる 'ポンプ' N 'ダンプ'スキームで採用されています。スパマーやその雇い主は、理論的には利益を上げ、より高い値で、彼らが保持するすべての株式を売却( 'ダンプ')。スパムのこのタイプの有病率は、ソフォスのスパムトラップで見られるスパムの40%までを含むいくつかの日に、最後の9ヶ月で爆発しています。アクションへの呼び出しは、犠牲者のようなオンラインで学位を売り込んでスパムのように、呼び出し、および英語以外のスパムの大部分ににするために、電話番号である画像スパムにもよく使われます。

画像スパムは、ほぼ間違いなく、テキストの難読化の究極です:スパマーは彼らも、最も洗練されたASCIIテキストベースのフィルタをトリガするのを恐れずやりたいと言うことができます。と添付ファイルの本文上の単純なハッシュはこのように、圧縮レベルを変更し、画像内のランダムな場所にかすかなドットを追加して、どちらの方向にわずかにイメージを回転させ、実際のコンテンツを相殺するように画像の内容の(これまで)は、単純なランダム化によって防止されというようにその周囲のフレーム内のイメージから、ランダムに変化するフォントスタイル、サイズ、色は、ランダムに画像をチョッピングし、HTMLで再組み立てします。そこにテキストスパムよりも、画像スパムを難読化するためにはるかに多くの方法があり、それはの読みやすさに少しだけ影響を与えずに、可能な組み合わせは無限大と同じくらい良いことは明らかであっても、コンシューマレベルの画像処理ツールで使用可能なイメージの効果の範囲を指定して、テキスト。

認識し、画像スパムをブロックするために乗り越えなければならない他の多くの課題があります。最初に、電子メールは、しばしば、ソースコードレベルでのみ添付されたイメージを含んでいる正当な電子メールと同じに見えます。実際に、私たちは分析する画像スパムの大部分は、最初にOutlook Expressまたは他の一般的なメールユーザエージェントに接続されているダミー画像でメールを作成し、単にランダムに変更するイメージを使用して添付ファイルを交換して提供することによって作成されているように見えるランダム件名、メッセージが送られるたびに。これは、ヘッダー、MIMEstructure、同封のHTMLは、正当な電子メールと完全に一致しており、そのイメージ自体、それは発信元のIPアドレス以外の検出の基となるにないスパムの兆候がないことを意味します。

問題への一見有望なアプローチは、それがその後、既存のテキストベースの技術でスキャンすることができるようにASCIIに戻すラスタライズテキストをオンにする光学式文字認識を採用し、もちろんです。理論的にアピールしながら、これは実際には持続可能なアプローチになることはほとんどありません。 OCR技術は、近年では多くのことを進んでいるものの、開発の主な焦点は、このような印刷物や手書きなどの安定的かつ合理的な入力の認識を改善することになっています。これらの入力は読みやすいように設計されています(人間が、少なくとも)とは、多かれ少なかれ一貫した、書体のデザイナーは、OCRソフトウェアに彼らの作品をよりアクセシブルにするための重要なインセンティブを持っています。

スパマーのために、一方では、インセンティブが正確に反対です。瞬間アンチスパムフィルタが(それは執筆時点では開発のかなり初期の段階ではまだだけど、SpamAssassinのプラグインでは、すでにそれを実行するために存在します)は、プリプロセスの画像スパムにOCRを用いて開始すると、スパマーは開始されます行うにこれは困難にするような方法でそのイメージを操作し、さらに内容を難読化することによって、すなわち。これが可能である無数の方法が与えられ、予期しない入力に電流をOCR技術の感度を与え、それが必要な研究開発投資を正当化するのに十分な信頼性であるこのアプローチを想定することは困難である。

イメージの完全なOCRベースの分析では非現実的なことを証明した場合でも、他の、より脆弱なのものが用意されています

考慮されるべきであるアプローチ。大量の情報が容易にかつ迅速に画像のヘッダから抽出することができ、例えば、それが問題の画像の "スパム度"への貴重な手がかりを提供することができます。おそらく、これらの中で最も貴重な、現在のすべてのピクセルを表現するために必要なバイト数として表すことができ、画像の圧縮レベルです。非常によく似た色の大部分の画像がうまく圧縮する傾向があり、一般的に、より複雑な画像は、以下の圧縮は、質感の面で、それがされて話す。スパム画像の大多数​​は、現在無地の背景上のテキストで構成されて以来、彼らはより多くの場合よりtexturally複雑な写真や図である電子メールを介して送信される "通常"の画像(図9)よりも有意に高い圧縮レベルを示す。これは、画像のスパム度の非常に良い指標となることができます。それは、さらなる分析のためにイメージ全体を(だけでなくメタデータを抽出するよりも)を解凍することが可能と判断された場合は、別の有望な技術は、画像内で使用されるユニークな色のヒストグラムを生成することです。

前述したように、通常の画像は、ユニークな色の多数を発揮する傾向があり、それらの頻度分布は比較的滑らかである。平らな背景上のテキストから成るスパム画像は対照的に、他よりもはるかに頻繁に見られ、そのため、ヒストグラムは、しばしば通常の画像から劇的に異なっているそのうちの1つはいくつかの色が含まれています。イメージを解凍したら、そのようなフーリエ変換を用いた周波数領域に空間領域からの変換など、古典的な画像処理操作の一部を行うことが可能となる。急激なコントラスト変化どこに起因する非常に高い周波数の情報の優位性を持つ画像(比較的少ない超高周波数情報)とラスタライズのテキスト·画像( - 特に写真 - そのような処理にこれは通常区別することが可能であるテキストが十分に高い精度で)存在しています。分析はまた、ランダム回転と画像の背景に追加されたかすかなランダムな斑点のような難読化のアルゴリズムはそれほど敏感で行う前に、周波数ドメインに変換します。

これらの、より多くの画像処理技術はこの数十年前の大会の最新のラウンドで立ったままするアンチスパマーの努力で、貴重な証明することがあります。...

0 件のコメント:

コメントを投稿