ぶろぐ
http://twitter.com/#!/assa_ryu

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ニホン語ハッシュタグについての自分用のメモ書きについて

ニホン語ハッシュタグでの大喜利の7割(当社調べ)があんまりおもしろくないので、
NGにしちゃいます。

ところが、どうやったら日本語ハッシュタグだけを弾けるのか、いまいちわからなかったので、
今回は、「#全角文字」全てを排除しちゃいます。
※これをすると、韓国語が弾かれちゃう可能性が微粒子レベル。

まず、全角文字の正規表現について。
全角の正規表現は、

[^\x01-\x7E]
です。

ちなみに、半角は「^をのぞけばおーけーだったと思います。

こいつをそのままNGリストに入れると、すべての全角文字が弾かれてしまい、
必要なツイートもすべて見えなくなるので、
ハッシュタグを表す、「#」をくっつけて、

#[^\x01-\x7E]

これを最終的にNGリストにいれてやります。
すると、全角文字を含むハッシュタグのみNGできます。

ただし、こいつには弱点があります。

半角文字+全角文字には効果がありません。
このあたり、どうにか回避できる方法をしっていたら教えて下さい。
正規表現についてはまったくのにわかなので。。
スポンサーサイト

Twitter

プロフィール

assaryu

Author:assaryu
あいうえおかきくけこ

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

検索フォーム

RSSリンクの表示

リンク

ブロとも申請フォーム

QRコード

QR

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。