EST配列との格闘

結局Laboの共用マックに入ってたATGCで約2000本の配列をクラスタリングした。Contigにする条件は、最短50 bpのオーバーラップで98%以上マッチ。126個のContigsと1500本くらいのSingletonsとなった。ここまでもいろろ大変だったなぁ。途中でTrimしきれてないベクター配列とか、ひっくり返ってる(相補鎖)配列とかを手動で処理し、へんなContigはばらしてやり直したり。ESTなんだからこの辺はあまり凝らない方がいいのかも知れないけど、明らかにおかしいのは直さないとね。
で、ContigsとSingetonsが揃ったところで、配列をすべてテキストに書き出し、ついでにContig化の様子をしめすアラインメントもテキストに書き出し。(この操作はとても面倒だった。せめてExportのキーボードショートカットがあれば、、、、
で書き出した配列をみたら、あいたたた、 Emblフォーマットだ。後でDDBJに登録するにはFASTA形式が必要。よく見たら、ATGCでFASTA形式も選択できたんだ。もう一度FASTA形式への書き出しをやり直す元気ないなぁ。バッチ処理でEmbl→FASTAの変換ができないかなぁ、と探してみたら、どうやらEMBOSSのseqretコマンドが使えそう。eBIO-Xからの利用だと一括処理はできないみたい。コマンドラインからできないかなぁ。と、今晩はここまで。明後日また勉強しましょ。(明日はラボ対抗ソフトボール大会、教員業績評価書の提出、福岡県との研究交流協議会の準備、その他委員会の宿題があってサイエンスをする余裕無し。寂しい。)

それにしても、配列データのようなテキストファイルを何千本も一括でフォーマット変更などをするには、やはりスクリプトを書けるといいなぁ。gawkとかsedとかでもいいのかな。いつになったらDDBJ大量登録用のファイル(全配列をFASTAで含むテキストファイルと全ファイルの説明を記したEXCELファイル)が出来上がるんだろう。どこかにこれらを一変に作るストリームラインのコマンド群(スクリプト/マクロ)がないかしら。