スパムメールうちわけ

人気の記事:

スポンサーリンク
  • このエントリーをはてなブックマークに追加
スポンサーリンク

コメント

  1. Nobi より:

    おもしろい試みですね

    中国語、韓国語、ロシア語メールを自動消去するだけでもたしかに効果は大きそうですね

  2. マイケル より:

    <送信者>@-Ead(アットマークE-AD)企画

    <配信停止>ad_stop_jp@yahoo.co.jp

    ヨロシクお願いしますm(–)m→ http://www.pajamada.net/?N83

    このメール、アドレスをとっかえひっかえ1日10回ほど来ます。

  3. マイケル より:



    「未承諾広告※」アドレス変更しました♪

    <送信者>@-Ead(アットマークE-AD)企画

    <配信停止>ad_stop_jp@yahoo.co.jp

    ヨロシクお願いします m(–)m→ http://www.celebc.com/?N28

    今日みたら昼までに30件来てました。

    全部フィルタでゴミ箱行きですが、この業者他にも沢山出してるらしいです。

    http://antispam.blfan.org/exhibit/hclub.htm

    http://www2g.biglobe.ne.jp/~stakasa/nospam_bbs/past/log/017503.html

  4. miri *w* より:

    私もprocmailで以下の言語は切り捨ててます。

    gb2312

    big5

    euc-kr

    ks_c_5601-1987

    windows-1251

    windows-1254

    あと、スパムって簡単に決め付けられそうなのが、

    X-MailerとFromの組み合わせでの判断。

    .procmailはまじめに使い方を覚えていないので、間違ってるかもしれませんが、対象部分を抜粋するとこんな感じ。

    ※もっとうまい書き方あったら教えて欲しいです

    UNREADABLE=gb2312|big5|euc-kr|ks_c_5601-1987|windows-125[14]

    :0 HB

    * ^Content-type:.*($UNREADABLE)

    $MAILDIR/SPAM

    :0 H

    * ^Content-type: multipart/(mixed|html);

    {

      :0 B

      * ^Content-Type:.*($UNREADABLE)

      $MAILDIR/SPAM

    }

    :0 H

    * ^From.*@(yahoo|hotmail|excite)\.(com|co.jp)

    * ^X-Mailer:.*(IM2001|Achi-Kochi Mail|Easy DM free|MIME-tools|SMTP Sender).*

    $MAILDIR/SPAM

  5. より:

    メイルアドレスによるフィルタリングは、詐称が極めて容易なので、労力の割に得る実益が少ないと思います。

    特定のアドレスを指定するのなら、メイルアドレスでも spammer が取得した特定のドメインを指定するのが効果的でしょう。

    ドメイン取得は偽造メイルアドレスの変更よりコストが掛かりますから。

    私、昔は procmail によるフィルタリングをやっていました。

    junkfilter と併用していました。

    一昨年辺りに、 junkfilter は廃れました。

    作者がメンテナンスを放棄する宣言を行いました。

    紋切り型フィルタリングではもう付いて行けない、ということなのでしょう。

    少なくとも、 procmail でフィルタリングするなら、重み付けスコアリングを用いるのが良いかと思います。

    でも、条件行の書式が凄く難しいですよね。

    それに、 procmail 単体ではベイジアンが使えませんし。

  6. より:

    (ここから宣伝(笑))

    SpamAssassin なら、ルールベースマッチング、 RBL 、 Razor / Pyzor 、ベイジアンフィルタが使え、これら全てをスコアリングできます。

    http://spamassassin.apache.org/

    RBL はモノによっては乱暴な IP 登録がされていたりして、信頼度が非常に低かったりするものもあるのですが、 Razor / Pyzor (協調フィルタリングネットワークサービス)やベイジアンフィルタと掛け合わせれば、信頼性をぐっと上げられます。

    私の場合、受信するメイルを SpamAssassin に喰わせて、点数計算の結果「通常メイル(ham)」「spam」「疑わしいメイル」に振り分けます。

    私の処には20〜30通/日程度の spam が来ますが、点数計算の結果、判断が微妙で見直しをしなければならない「疑わしいメイル」は多くて4〜5通/日、見直しが不要な日もちょくちょくあります。

    誤認識は友人が私宛に spam サンプルを本文に張り付けて来たモノを spam と判定する位でしょうか。

    それでも本来なら正常な動作ですが。

    whitelist を作れば良いのでしょうけど、面倒臭いのでやっていません。

    spam が沢山来てもう嫌だ、ルールのメンテナンスに疲れた、と思う方は、一度お試しになっては如何でしょう。

    SpamAssassin 内蔵のベイジアンフィルタは日本語には非対応ですが、学習させればそれなりに動きます(特にシフトJISの spam は確実に判断します)し、これを補うユーザ定義ファイルを公開していますので、日本語 spam もそれなりの確率で判定できると思います。

    全然整理されていない、汚い定義ファイルですが、参考になれば幸いです。

    http://tlec.linux.or.jp/docs/user_prefs

    # ここ最近、日本語 spam が全然来なくて困ってます。

    # どなたかサンプルを頂けませんでしょうか。

  7. ゆき坊 より:

    日本語spam…このようなので使えるようでしたら。

    http://yukiboh.moo.jp/spam/

  8. miri *w* より:

    まずは、言語を特定してFilteringするだけでだいぶSPAMはとめられてます(自分のメーラーでは千通以上/日のメールを捌くので…)。

    なんにせよ中国系のSPAMが多く、それが防げているだけでも全然効率が違います。

    日本語系では、「カナです!」がうぜぇ…。 会社の公開メールアドレスも受け取ってるので、日に十通以上くることもあり…。

    FromでのFilteringはほとんど効果ないのはわかってるんですが、無いよりはマシ…って感じです。 これでもこのルールに引っかかってくるのがまだあるのでw

    spammerが取得したドメインから送ってくることってあります?

    大体Received Headerを見ると何処ぞのプロバイダで毎回IPも変わるので、止め様が無いんですが…。

    あと、ベイジアンフィルタと言えば一部のアカウントでPOPFileも試しています。

    なかなか効率よくはじいてくれてますが、マグネット機能がもう少し強力になってくれるといいなぁ…と思ってたりして。

  9. より:

    ゆき坊さん:

    んー、メイル本文だけでは特徴を捉え切れません。

    メイルのヘッダが重要です。

    例えば、こんな感じです:

    http://www.flcl.org/~yoh/diary/20040812.html#p01

    メイルのヘッダには、 spammer がどこから spam を発したか、どのようなツールを使ったか、等の情報が記録されています。

    情報通になりますと、著名なメイラの振りをしているものも見分けられるようになります。(私はそこまではわかりません。代わりに SpamAssassin がやってくれています。)

    これと、本文中に頻出する、 spammer が良く使いそうな単語を統計的に計算(ベイジアンフィルタ)した結果と組み合わせると、高確率で spam を排除(振り分け)できます。

  10. より:

    miriさん:

    procmail のレシピを書くだけの実力があるなら是非。

    | spammerが取得したドメインから送ってくることってあります?

    From: や Reply-To: に spammer 所有のドメインでのメイルアドレスを記入するものが、たまにあります。

    ドメインの IP から送られる、という事例ですと、特に日本国内の場合、ホスティングサービスのサーバが spammer の MTA になっている事例が結構あります。

    代表的なのは、 FreeBit 、 Infosphere 等。

    国内 ISP からホスティングサービス上の MTA を経由して、宛先ドメインの MTA へ直送、という形態です。

    それ以外ですと、

    | 大体Received Headerを見ると何処ぞのプロバイダで毎回IPも変わるので、止め様が無いんですが…。

    中国 ISP から直接、というのをかなり見ます。典型例としては、

    | 日本語系では、「カナです!」がうぜぇ…。

    これが該当します。

    Received: に記録されている IP をかき集めて whois すると、同一の ISP に辿り着きます。

    話によると、中国系犯罪組織が絡んでいる「らしい」です。

    こういった情報は、 RBL にお任せです。

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です