2008年5月18日日曜日

ENSEMBL IDからrefseq IDへの変換

私が対象としている、遺伝子はENSEMBL IDでリストになっています。Gene Ontologyの情報は、ENSEMBLのperl APIを使えば取得できる事は確認できたのですが、KEGGからパスウェイデータを取得するためには、ENSEMBL IDでは検索できません。

KEGG側から見てみると、KEGGパスウェイを検索するには、KEGG gene IDが必要なようです。
で、KEGG gene IDとNCBI-IDの対応表は、KEGGのFTPサイトに転がっています。
NCBI-IDとrefsqe-IDとの対応表は、
ftp://ftp.ncbi.nih.gov:/gene/DATA/gene2refseq.gz
ここの転がっていて、
最後に、refseq-IDとENSEMBL-IDの対応は、
http://jp.youtube.com/watch?v=hu1Sr1kKWUI
ここに従って、Biomartで得る事ができます。

これで、理論的には、
ENSEMBL-ID -> refseq-ID -> NCBI-ID -> KEGG gene id -> KEGG pathway
と行けそうです。
ただ、この辺をいつもネットワーク越しでアクセスしていたら大変そうなので、ローカルのデータベースに突っ込むのが良さそうです。

なんか、もっと簡単な方法がありそうなものですが、、、。

追記:
ENSEMBL perl APIで遊んでいたら、実はtranscriptのDBentryにrefseqDNAの情報が入っている事が分かりました。ここでいう、refseqDNAはいわゆるMN_*の形式ですから、そのままKEGG gene idに変換してパスウェイの検索に使えそうです。

さらに追記:
KEGGに落ちていたrefseq_idとKEGG gene_idとの対応表にあるrefseq_idとは、どうやらprotein_giのようだ。

0 件のコメント: