ks-t-5-58


●	グローバルな知の行方を追う


	49 50 51 52 105	モード2 知識経済ナショナル・イノベーションシステム次世代イノベーションモデル教育工学


●	ネットワークの海図を描く


	53 54 55 56 57 106	電子商取引支援マルチエージェント・システムユビキタスコンピューティング情報幾何学ネットワーク生態系セマンティックウェッブ


●	生命の知を探る


	58 59 60 61 62	生物情報データベース生物情報からの知識発見遺伝子知識バイオインフォマティクス高性能バイオコンピューティング


● ●	超微細レベルから地球規模までの視界


	63 64	ナノテクノロジー地球環境シミュレーション


コンピュータに格納された生命の姿佐藤賢二遺伝子知識システム論

古典的な研究の枠を超えて

生物情報データベースに明確な定義があるわけではなく、生物に関して実験の結果得られた情報を大量に集積したものはすべて、広義の生物情報データベースであるといえる。生物情報データベースは、生命科学を研究する者にとって必須の情報源である。例えば、新しい遺伝子▲を発見したり、タンパク質▲の立体構造を決定したことに関する論文を投稿した場合、必ずそのデータをデータベースにも登録することが要求される。逆に、実験結果の新規性を確認するために、既に登録されている遺伝子やタンパク質に同じものがないかどうかをパソコンからチェックしたり、類似のものを探すことによって新しく発見した遺伝子やタンパク質の機能を推定したりすることが日常的に行われている。さらに、各種ゲノムプロジェクトの進展により、微生物をはじめとする各種生物のほぼ完全な遺伝子セットが多数報告されている現在では、特定の遺伝子やタンパク質、あるいは特定の生物だけを追いかけるという古典的な研究スタイルの枠を超えて、遺伝子全部（ゲノム）やタンパク質全部（プロテオーム▲）のネットワークを解析したり、近縁な生物同士を分子レベルで直接比較するというような、網羅的・包括的な研究が盛んに行われている。言い換えると、個別研究の深化に重点を置いた従来的な生物学では、生命システムの随所に未解明のブラックボックスが残っていた。これに対し、システムの構成要素をすべて列挙し、その関係を完全に解明することができれば、生命のどこをいじれば何が起こるかを理解することが可能になる。このような壮大な研究を支えているのが、大規模かつ多種多様な生物情報データベースと、先進的な情報処理技術である。
テキスト形式で配布されている伝統的な生物情報データベースの代表例としては、GenBankなどの塩基配列データベース、SWISS-PROTなどのアミノ酸配列データベース、PDBなどのタンパク質立体構造データベースが挙げられる。このようなデータベースには、エントリと呼ばれる単位で情報が格納されており、ひとつのエントリの中には、当該の遺伝子やタンパク質の名前、登録者名と参考文献、関連するキーワードなどのヘッダ情報に続いて実験結果の本体（遺伝子やタンパク質の配列情報や立体構造情報）が記載される。データ量に関しては、例えば2002年7月現在でGenBankが約1700万エントリ（約70GB）、SWISS-PROTが約15万エントリ（約330MB）、PDBが約1万8千エントリ（約10GB）のデータを保有しており、これら生物情報データベースのサイズは指数関数的に増え続けている。これらのデータベースは従来独立に管理されてきた側面もあるが、例えば日本のゲノムネット（https://www.genome.ad.jp）のように、いくつかのデータベースを統合的に管理し提供することで、ユーザの利便性を高めているサイトもある［★58-1］。また、個々の遺伝子やタンパク質に関する実験結果を集積したデータベースに加えて、近年では実にさまざまなデータベースが登場している。例えば、ゲノムプロジェクトの成果として、特定の生物に関する情報すべてを網羅しようとする「生物単位」のデータベースや相互作用するタンパク質の組に関するデータベース、遺伝子の発現情報▼1に関するデータベース、シグナル伝達▲という現象▼2に特化した視点で構築されたデータベースなど枚挙にいとまがない。このような新しいデータベースでは、もはや単純なテキスト形式では複雑な情報を処理できないこともあり、ウェブ技術を用いたインタラクティブなマルチメディアデータとして提供されていることが多い。一方、テキスト形式で配布されてきた伝統的なデータベースでも、正確にデータを抽出したり、他のデータベースと自動的に連携する目的で、最近ではXML▼3形式での配布に移行する動きが出てきている。

さまざまな可能性

生物情報データベースにはいろいろな使い道がある。もちろん、簡単な使い方としてはブラウザだけを用いて各種のサイトにアクセスし、そこで提供されている検索サービスや解析サービス、可視化サービスなどを利用していればいいわけであるが、自分のコンピュータ上に生物情報データベースをダウンロードすれば、プログラムを用いて独自の研究を行うことが可能になる。情報処理の観点から見れば、生物情報データベースのエントリは、物質名や人名や日付や長さや言葉や文章や配列や座標など、まったく異なる種類の情報複合体（あるいは詰合せ）であり、これをいかに活用するかがバイオインフォマティクス▲研究者▼4の腕の見せどころでもある。例えば、類似した機能を持つタンパク質の配列や構造を集めて、それらに共通するパターン（モチーフ）を発見したり、長い長い核酸配列のどの部分が遺伝子らしいかを推定したり（遺伝子発見）、いくつかのマイクロアレイ実験▼5における発現の類似性から、遺伝子同士の制御関係を導出したり（遺伝子ネットワーク推定）、近縁の生物が持つ遺伝子セットを比較することにより、生物の進化や病原性などの機能を調べたり（比較ゲノム▲学）、さらにはエントリに含まれる「言葉」の情報を調べて辞書やオントロジー▲▼6を構築することにより、論文のような自然言語情報から知識を抽出するなどの試みが考えられる。生物情報データベースを用いてこのような研究を行うためには、情報整理や高速検索のためのデータベース技術だけでなく、機械学習や自然言語処理、確率と統計、進化的パラメータ探索、並列処理など、先進的な情報処理技術がすべて必要になる。また、指数関数的に規模が拡大していること、網羅的かつ組み合わせ論的な計算が多くの場合求められることなどから、十分な計算機資源と高速なソフトウェアが必要になる。


	生物情報データベース▲ 59


	遺伝子▲ 60 / 61 / 62


	タンパク質▲ 59


	プロテオーム▲ 61


	シグナル伝達▲ 60


	バイオインフォマティクス▲ 61


	比較ゲノム▲ 61


	オントロジー▲ 36


	▼1 発現情報遺伝子が発現すると、遺伝子の転写翻訳が行われ、タンパク質が合成される。発現情報とは、いつ、どこで、どのような遺伝子が発現しているかに関する情報である。


	▼2 シグナル伝達細胞が外部から刺激を受けた場合、それに応じて細胞内部ではいくつかのタンパク質の濃度や分布が連鎖反応的に変化し、場合によっては遺伝子の発現に影響が及ぶ。このような一連の信号伝達をシグナル伝達と呼ぶ。


	▼3 XML 多くのウェブページはHTML（HyperText Markup Language）を使ってレイアウト等を表現している。しかし、HTMLではデータの意味が分からないため、データ交換を自動的に行えない。これを解決する新しい言語がXML（eXtensible Markup Language）である。


	▼4 バイオインフォマティクス技術者情報処理技術を駆使して生命の本質に迫ることを目的とする研究者。


	▼5 マイクロアレイ実験マイクロアレイとは、小さな基板上にDNA断片などを多数固定したもの。これを用いて実験を行うと、多数の（数千個の）遺伝子の発現情報を同時に調べることができる。。


	▼6 オントロジーある領域におけるさまざまな概念を体系的に記述したもの。もしくは、そのために使用される統制語（controlled term）の階層を指す。

▲page top