R でバイナリを読む

昨年『R で２ちゃんねるを読んでみた』という遊びをやりました。詳細は読んでいただければ良いのですが，「Shift_JIS で定義されない文字が含まれているとうまく文字列処理ができないので，バイナリのまま処理した」という旨のことをサラッと書きましたが，その詳細については深く触れていません。そこで，あまり需要はないのかもしれませんが，実際に R でバイナリ処理を行う方法を簡単に紹介しようと思います。ただし，今回は読むだけで，書き込み操作に関しては扱いません。

なお，本記事は R Advent Calendar 2011 の 4 つ目の記事にあたります。

お題

バイナリといってもいろいろと種類がありますが，今回は Applied Biosystems の Genetic Analyzer が出力する ab1 ファイル (ABIF 形式) から，シークエンサーが読み取った波形データを取り出すというテーマで解説しようと思います。

サンプルデータが Example Data Sets の "Sequencing, Resequencing" から入手できます。アクセス時に Select Your Country と聞かれますが， United States を選択してください。 Japan を選択すると，日本のサイトに飛ばされて，データが入手できません。

用語解説

いくつか事前に知っておくべき用語 (主にコンピューター関連) をごく簡単に解説します。誤りがあったらごめんなさい。各用語のリンクは，より詳しく知りたい方のための参考リンクです。

シークエンス (Sequence): Genetic Analyzer はキャピラリー電気泳動装置です。 DNA 断片を電気泳動すると，断片サイズが小さいほど速く，大きいほどゆっくり移動します。対象配列中の各塩基まで伸長した DNA 断片の 3' 末端にあたる塩基 (AGCT) をそれぞれ異なる蛍光色素で標識して電気泳動し，それをレーザーに当てて CCD で蛍光強度を読み取ることで，塩基配列を決定することができます。つまりシークエンサーが読み取った蛍光の種類と強さの時系列データがファイルに保存されており，これを読み出すのが本記事の目的です。
符号付数値表現 (Signed Number Representation): 整数のビット列の 1 つを正負の判別に割り当てた数値表現です。普通は整数表現に用いられます。符号付の表現があるということは，逆に符号なし (unsigned) の表現もあるのですが，本記事では用いられません。
エンディアン (Endianness): 1 つのデータを表すには，ほとんどの場合 1 バイト (8 ビット) では足りず，複数のバイトからなるバイト列により表されます。このバイトの並べ方には，データの上位から並べる方法と下位から並べる方法がありますが^[A]，この並び順のことをエンディアン，前者をビッグエンディアン (big endian)，後者をリトルエンディアン (little endian) と言います。
例えば，整数の 48879 を 4 バイトで表すと 0x0000BEEF になります。ビッグエンディアンでは 00 00 BE EF の順に，リトルエンディアンでは EF BE 00 00 の順に保存されていることになります。
コネクション (Connection): 操作される実体へのプロセスからの経路を指します。ファイル等の操作される実体は本来 R プログラムの外側にあるので，コネクションをつないで R から操作できるようにします。
シーク (Seek): データを読み込む際に，読み込みの位置を一気に移動することです。パソコンの音楽再生ソフトで普通に曲を再生すると先頭から終端まで順番に進みますが，コントローラーをいじると任意の時間にジャンプする事ができるのと同じです^[B]。ファイルを読む場合も先頭から終端まで順番に読めれば十分の場合もありますが， ABIF ファイルを読む際はシークが必須です。

種類	データの型	説明
名前	32 ビット符号付整数	定義上は整数だが，実際は文字列
タグ番号	32 ビット符号付整数	同一名のディレクトリを区別するための番号
要素の型	16 ビット符号付整数	実データの型を示す整数
要素のサイズ	16 ビット符号付整数	実データの 1 要素あたりのサイズ
要素数	32 ビット符号付整数	実データの要素数
データサイズ	32 ビット符号付整数	実データのサイズ
オフセット	32 ビット符号付整数	実データのファイル内での位置 (先頭から何バイト目から始まるか) ただしデータサイズが 4 バイト以下の場合は実データそのものが格納される
データハンドル	32 ビット符号付整数	予約領域 (使用されない)

捨てられたブログ

お題

用語解説

R による実装

ファイルを開く

ヘッダを読む

シグネチャ

バージョン番号

ファイル構造

未使用領域

データの読み込み

ディレクトリの取得

塩基の順番を取得

電気泳動の結果を取得

後処理

クロマトグラムのプロット

まとめ

おまけ

脚注