古典的な研究の枠を超えて
生物情報データベースに明確な定義があるわけではなく、生物に関して実験の結果得られた情報を大量に集積したものはすべて、広義の生物情報データベースであるといえる。生物情報データベースは、生命科学を研究する者にとって必須の情報源である。例えば、新しい遺伝子▲を発見したり、タンパク質▲の立体構造を決定したことに関する論文を投稿した場合、必ずそのデータをデータベースにも登録することが要求される。逆に、実験結果の新規性を確認するために、既に登録されている遺伝子やタンパク質に同じものがないかどうかをパソコンからチェックしたり、類似のものを探すことによって新しく発見した遺伝子やタンパク質の機能を推定したりすることが日常的に行われている。さらに、各種ゲノムプロジェクトの進展により、微生物をはじめとする各種生物のほぼ完全な遺伝子セットが多数報告されている現在では、特定の遺伝子やタンパク質、あるいは特定の生物だけを追いかけるという古典的な研究スタイルの枠を超えて、遺伝子全部(ゲノム)やタンパク質全部(プロテオーム▲)のネットワークを解析したり、近縁な生物同士を分子レベルで直接比較するというような、網羅的・包括的な研究が盛んに行われている。言い換えると、個別研究の深化に重点を置いた従来的な生物学では、生命システムの随所に未解明のブラックボックスが残っていた。これに対し、システムの構成要素をすべて列挙し、その関係を完全に解明することができれば、生命のどこをいじれば何が起こるかを理解することが可能になる。このような壮大な研究を支えているのが、大規模かつ多種多様な生物情報データベースと、先進的な情報処理技術である。
テキスト形式で配布されている伝統的な生物情報データベースの代表例としては、GenBankなどの塩基配列データベース、SWISS-PROTなどのアミノ酸配列データベース、PDBなどのタンパク質立体構造データベースが挙げられる。このようなデータベースには、エントリと呼ばれる単位で情報が格納されており、ひとつのエントリの中には、当該の遺伝子やタンパク質の名前、登録者名と参考文献、関連するキーワードなどのヘッダ情報に続いて実験結果の本体(遺伝子やタンパク質の配列情報や立体構造情報)が記載される。データ量に関しては、例えば2002年7月現在でGenBankが約1700万エントリ(約70GB)、SWISS-PROTが約15万エントリ(約330MB)、PDBが約1万8千エントリ(約10GB)のデータを保有しており、これら生物情報データベースのサイズは指数関数的に増え続けている。これらのデータベースは従来独立に管理されてきた側面もあるが、例えば日本のゲノムネット(https://www.genome.ad.jp)のように、いくつかのデータベースを統合的に管理し提供することで、ユーザの利便性を高めているサイトもある[★58-1]。また、個々の遺伝子やタンパク質に関する実験結果を集積したデータベースに加えて、近年では実にさまざまなデータベースが登場している。例えば、ゲノムプロジェクトの成果として、特定の生物に関する情報すべてを網羅しようとする「生物単位」のデータベースや相互作用するタンパク質の組に関するデータベース、遺伝子の発現情報▼1に関するデータベース、シグナル伝達▲という現象▼2に特化した視点で構築されたデータベースなど枚挙にいとまがない。このような新しいデータベースでは、もはや単純なテキスト形式では複雑な情報を処理できないこともあり、ウェブ技術を用いたインタラクティブなマルチメディアデータとして提供されていることが多い。一方、テキスト形式で配布されてきた伝統的なデータベースでも、正確にデータを抽出したり、他のデータベースと自動的に連携する目的で、最近ではXML▼3形式での配布に移行する動きが出てきている。
さまざまな可能性
生物情報データベースにはいろいろな使い道がある。もちろん、簡単な使い方としてはブラウザだけを用いて各種のサイトにアクセスし、そこで提供されている検索サービスや解析サービス、可視化サービスなどを利用していればいいわけであるが、自分のコンピュータ上に生物情報データベースをダウンロードすれば、プログラムを用いて独自の研究を行うことが可能になる。情報処理の観点から見れば、生物情報データベースのエントリは、物質名や人名や日付や長さや言葉や文章や配列や座標など、まったく異なる種類の情報複合体(あるいは詰合せ)であり、これをいかに活用するかがバイオインフォマティクス▲研究者▼4の腕の見せどころでもある。例えば、類似した機能を持つタンパク質の配列や構造を集めて、それらに共通するパターン(モチーフ)を発見したり、長い長い核酸配列のどの部分が遺伝子らしいかを推定したり(遺伝子発見)、いくつかのマイクロアレイ実験▼5における発現の類似性から、遺伝子同士の制御関係を導出したり(遺伝子ネットワーク推定)、近縁の生物が持つ遺伝子セットを比較することにより、生物の進化や病原性などの機能を調べたり(比較ゲノム▲学)、さらにはエントリに含まれる「言葉」の情報を調べて辞書やオントロジー▲▼6を構築することにより、論文のような自然言語情報から知識を抽出するなどの試みが考えられる。生物情報データベースを用いてこのような研究を行うためには、情報整理や高速検索のためのデータベース技術だけでなく、機械学習や自然言語処理、確率と統計、進化的パラメータ探索、並列処理など、先進的な情報処理技術がすべて必要になる。また、指数関数的に規模が拡大していること、網羅的かつ組み合わせ論的な計算が多くの場合求められることなどから、十分な計算機資源と高速なソフトウェアが必要になる。
|