R で2ちゃんねるを読んでみた


統計環境 R で2ちゃんねるを読むというチャレンジをしました。それに関して発表してきましたので,そのスライドおよびソースコードを公開します。

発表資料

ソースコード

ソースコードは Mercurial リポジトリから入手可能です。 ZIP 形式でも tarball 形式でもダウンロードできますし,直接 Mercurial クライアントでクローンを作成しても構いません。

ディレクトリはそのまま Eclipse プロジェクトにインポートすることもできます。 StatET プラグインを使いました。ちなみに Mercurial プラグインは HgEclipse がオススメです。

補足説明

発表時に受けた質問や説明不足だった点について補足します。

パッケージ化はしないのか

誰得。

使い方 (マニュアル)

リポジトリを参照してください。

配布ライセンス

MIT License とします。

書き込みを実装するための壁

Pure R で HTTP 通信 (レスポンスヘッダの取得や POST) がわかりません[A]。その辺りを妥協して良いなら最初から R なんか使ってないわけで…。情報求ム。

HTML 処理の問題点

実体参照 (e.g. ♥ → ♥) を解決する際に,解決された文字を一度 Shift_JIS バイトに変換しているために UTF-8 で表示できる文字も文字コードで表記されます (U+HHHH) 。解決方法はありますが (Shift_JIS バイト列を UTF-8 バイト列に変換する,もしくは実体参照の部分にマークをつけて再評価するなど),サボっています。

読みたいスレッドの探し方

r2ch.getSubjectList で取得したデータフレームの Subject 列から見つけてください。 R で正規表現がサポートされているので難しくないと思います。

動かない

バージョンが古いと動かないようです。また, ESS でも動かないことが報告されてます[B]

脚注

  1. monazilla.org::レス書き込み []
  2. http://twitter.com/clairvy/status/13601191121 []