膨大な情報をどう処理するか
生物情報データベース▲の主な利用者が生命科学研究者である以上、その重要な目的のひとつは生命に関する科学的な知識の発見であることに異論はないであろう。かつては紙媒体の文献と研究者自身の背景知識、鋭い洞察、精密な実験によって行われていた知識発見という作業にも、膨大なデータベースに対する検索という処理が加わり、さらには「関連の深い情報の提示」「着目すべき情報の選択的提示」「汎化と特殊化」「同じものに対するさまざまな見方の提供」といった処理についても徐々にコンピュータの支援を受けられるようになってきた。情報処理の分野ではこのような処理のことをデータベースからの知識発見というが、ここでは生命科学者の知識発見支援を目的とした研究開発事例として、全文検索とデータマイニング▲を結合したシステムSTAG(https://stag.genome.ad.jp)[★59-1]を紹介する。
生物情報データベースでは一般に、各種の検索処理の結果として表示されるエントリ名の一覧が、往々にして巨大な集合になることがあり、その集合が何を意味しているかを把握するためには、一つひとつエントリを表示してユーザが目を通さなければならないことがある。これに対し、STAGでは検索結果のエントリ集合に「共通かつ特有な性質」を手軽に調べる機能を用意している。例えば、「collagen
AND casein」で全文検索した結果(上図)には、各データベースのエントリ集合に対して "Do Mining"というボタンが表示される。これをクリックして、データマイニングに関するパラメータ指定を行うと、下図のような結果が表示される。詳細については割愛するが、ここでは相関ルール発見と呼ばれる種類のデータマイニングを行っている。大雑把に言えば、ここではあらかじめ抽出しておいたエントリの特徴情報をもとに、ユーザが興味をもっているエントリ集合に共通かつ特有な性質を選択して優先的に表示する処理が行われている。例えば、あるタンパク質群が特定のシグナル伝達に例外なく関連しているならば、非常に意味のある検索の結果、その集合が得られた可能性が高い。しかし、たとえ共通の性質であっても、「酵素機能をもつ」という性質であれば、ほかにもそのようなエントリはたくさんあるので、着目するには当たらない。これは普段、研究者自身が無意識に行っている知的な処理を計算機の力を借りて、膨大な情報を収めたデータベース全体に拡張していると言える。このようなデータマイニング処理を情報検索に採り入れていくことにより、従来であればデータの洪水に紛れて見逃してしまうような重要な知識に気付くことが可能になる。
|