コンピュータを結合して遺伝子知識を発見する
バイオコンピューティングとは、バイオインフォマティクス▲(61の項参照)の基盤となる計算技術である。バイオインフォマティクスでは、増加する遺伝子▲データや分子動力学▲▼1などの大規模シミュレーションのために高性能計算機および高性能計算技術を必要とする。現在、GenBank▼2などの塩基配列データベースは1600万エントリ、総データサイズは70ギガバイトにも達しており、毎年倍増している。このため、検索の並列化が必須となっている。また、タンパク質の立体構造予測を行うためには、1ペタフロップス(1秒間に1兆回の演算)を行う計算機をもってしても、1年間かかると試算されている。さらに、複数のサイトにあるデータベースを相互参照するための分散処理技術が求められている。このようなバイオインフォマティクスのための大規模計算、高性能計算技術として、ここでは、PCクラスタ、専用計算機、グリッドコンピューティングについて紹介する。
PCクラスタとは、市販の多数のパーソナルコンピュータを高速ネットワークで結合することにより、大規模計算を並列に実行する計算技術である。例えば、類似配列検索には、BLAST▼3が用いられるが、GenBankなどの遺伝子データベースはすでに1000万エントリを超えているため、単一プロセッサによる検索は非常に時間がかかる。そこで、遺伝子データベースをPCクラスタを構成している各コンピュータのディスクに分散させて格納し、検索を並列化して高速化する方法が採用されている。このような並列化では、ノード間の通信はほとんど発生しないため、ノード数にほぼ比例した性能向上が期待できる。
専用計算機とは、特定のアプリケーションに特化したプロセッサを構築することにより、高速化を図る計算技術である。プロセッサの仕様をプログラムできるFPGA技術▼4を用いると、動的計画法を用いた高精度ホモロジー検索などの処理をパーソナルコンピュータの100倍程度の高速化が達成できる。分子動力学シミュレーションでは、静電相互作用を計算する分子動力学エンジン(MDM)を用いることにより、パーソナルコンピュータの100倍の性能向上を達成している(*62-1)。
グリッドコンピューティングは、遠隔地にある計算機をネットワーク上で協調して計算させるための計算技術である。遺伝子データベースやホモロジー検索システム、分子シミュレーションシステムなどの解析ツールをグリッドで結合することにより、誰もがネットワーク上からバイオインフォマティクス研究に必要なデータベースやアプリケーションを利用することが可能となる。
また、グリッド上で遺伝子データベースを分散化し、並列に検索することによりホモロジー検索の処理を高速化することが期待できる。
|