先進 Top Runner

数学の知見を活かして、情報科学と生物学をつなぐ懸け橋に

バイオインフォマティクスには、理論的な厳密性よりも計算速度や実験結果との整合性を優先する「ヒューリスティック」なところがあります。私の場合は、数学的な素地を持っていますから、開発にあたっては数学的裏付けを取ること、結果の正しさを証明できる情報処理方法であることを意識して研究を進めています。例えば、RNA塩基対の2次構造(立体構造)を予測する方法はいくつか存在しますが、私たちの開発した「CentroidFold」は、現時点で最高精度を有し、塩基対の予測に関して理論的にも矛盾が少ない手法です(Hamada et al., "Prediction of RNA secondary structure using generalized centroid estimators", Bioinformatics, 25, 465 (2009))。RNAは様々なタンパク質製造のためのレシピですが、後述のとおりタンパク質にならずにRNA自身が機能を持つnon-coding(ノンコーディング)RNAも数多く存在しています。そのようなnon-coding RNAの2次構造を正しく予測できれば、その機能の解明に近づきます。さらに、CentroidFoldを利用して、RNA自身を薬として働かせることができるRNAアプタマー配列の2次構造を予測する取組も進めています。また、RNAに限らず、データ駆動型の生命科学を実現するための基礎理論・技術の構築も行っています。様々な生命情報から生命現象の核心に迫る基盤情報技術として、バイオインフォマティクスが広く利用されるようになることを期待しながら、さらなる技術開発を進めています。

Cancer Research UK時代

図1 CentroidFoldを含む数多くのRNA情報解析ツールを統合したWebサーバRtools

100年先まで利用されるアルゴリズムを

近年、タンパク質を作らず、RNAのまま働いているとされるlong non-coding RNA(lncRNA)が見つかっています。ヒトゲノムの中で、タンパク質をつくるRNAコードは2万種以上存在しています。一方、lncRNAはその3〜5倍あると言われていますが、詳しい機能が分かっていません。その機能を情報科学的な見地から推定できる予測ツールを開発したいと考えています。RNAやタンパク質は単独で機能することは少なく、様々な相互作用の結果、実際の機能を発現していると考えられています。最近、どのRNAとRNAが相互作用しやすいか、あるいはしづらいのかといった予測を個々に特定していくツールの開発に成功しました。また、同様のことをRNAとタンパク質の相互作用に関しても行っています。さらには、すでに大量に蓄積されている全ゲノム、全RNA=トランスクリプトーム、全タンパク質=プロテオーム、後天的に変化・修飾されたゲノム=エピゲノム、生体分子間の相互作用=インタラクトームなどの階層化された性質の異なる生物データ(多層オミックスデータ)の各階層をターゲットにしたバイオインフォマティクス技術の開発も行っています。例えば、すでに蓄積されているゲノムワイドなエピゲノム情報から、その背後に存在する生物の構造を推定する方法の開発に成功しています(Hamada et al., "Learning chromatin states with factorized information criteria", Bioinformatics 31, 2426 (2015))。さらに今後は、これら複数(あるいは全て)の階層を統合してデータマイニングを行うことを可能とする情報技術の開発を行いたいと思っています。

Cancer Research UK時代

図2 相互作用の一例:皮膚の分化に必要となるlncRNA(TINCR)とmRNAの相互作用

これらの研究開発を通して、将来は100年先まで利用される、本質的なバイオインフォマティクスの理論・アルゴリズム・ツールの開発に結び付けたいと思っています。バイオ分野のデータはそれぞれ性質が異なりかつノイズを多く含むため扱いが困難ですが、これらを一つのツールで統合して扱えるようになれば、これまでに見えていなかった情報、生命活動の本質が明らかになるのではないかと期待しています。開発したツールが、生命科学のブレイクスルーとなるような生物学的知見の発見につながれば、嬉しいです。同時に、研究室で学んだ学生たちが実社会のいろいろな分野で活躍するようになれば教員冥利につきますね。

聞き手・構成
武末出美(早稲田大学アカデミックソリューション)