2017.01.21 Sat |
癌と機械学習
最近NIHの中のNational Cancer Instituteというガンの研究をする組織のブログで個人的に興味深いと思った記事をご紹介します。
この記事です。
”Diagnosed With Ovarian Cancer, a Researcher Mined TCGA Data to Study Her Own Disease”
https://www.cancer.gov/about-nci/organization/ccg/blog/2016/personalized-cancer-treatment-TCGA-data
この記事の内容は、Shirley Pepkeという女性がかなり進行した卵巣がんに診断されてからいろいろ奮闘する物語です。
ただ普通と違うのが、この女性(Pepke)が、計算生物学で、博士号をとった、ゲノムビックデータを扱うことができる、ということです。
Pepkeは、stage IIICの卵巣がんと診断されてから、そのがんのゲノムを読み、それでもって、最新の知見を総動員して適切な治療法を見つけることを試みました。
・Pepkeは、自分の卵巣がんのゲノム情報や遺伝子発現情報を取得し、The Cancer Genome Atlas (TCGA)のデータと比較し、またTCGA内だけで遺伝子発現パターンを教師なし機械学習Correlation Explanation (CorEx)や生存分析をもちいて探索しました。
その結果、化学療法よりチェックポイント阻害剤を使用する免疫療法が有効な可能性が高いことが判明しました。
ガンを切除し、化学療法も行い、できる限りの治療をしたものの再発してしまいました。
もうほかに治療法の選択肢はなく、彼女は、化学療法を中断し、家族と一緒に夏を楽しみました。しばらくして、どれくらい悪化しているか検査に行くと、癌が消えていることが判明しました。病は気からというように、ストレスのない環境に移ったことで免疫力が上がり、癌が消滅したのでしょうか。それとも、以前に行った化学療法や免疫療法が効いたのでしょうか?いまだにその理由はわからないようです。しかし、それから1年再発していないとのことです。
物語は、それで終わりです。
この物語自体はふーんという感じかもしれませんが、将来がんゲノムと機械学習の両方を融合させたい僕としてはいくつか非常に興味深い情報を得ることができました。
それは、PepkeがCorExという2014年にNIPSで発表された機械学習アルゴリズムを使って、自身のがんサンプルとTCGAのRNA情報を比較しているところです。
CorExの論文(https://arxiv.org/pdf/1406.1222v2.pdf)を見てもらえばわかりますが、(Fig1Left)、PCAやICAが変数が多くなると正確性ががくんと落ちる(次元の呪い)に対して、CorExは正確性は変化せずずっと高く、夢のような機械学習アルゴリズムであることが分かります。
https://arxiv.org/pdf/1406.1222v2.pdf
これで遺伝子情報のような変数が多いデータに大しても、次元削減によってデータをうまく可視化でき、データの把握が容易になります。
CorExはPythonで実装されており、だれでも簡単に使えます。
https://github.com/gregversteeg/CorEx
ポイントは、今回のアルゴリズムが、NIPSという機械学習系のジャーナルに出ていたことです。普通バイオ系の人は、NIPSは読みません。分野があまりに違いすぎるからです。しかし、今回の論文が示す例では、ゲノム系の解析例もしっかり載せてあります。
今回の例から、今後、バイオ系の単語で、AI系のジャーナル内を検索してみようと思うに至りました。
また、今回の実装はPythonでしかなされていなく、もっとPythonを使えるようにならなければいけないなと思いました。
バイオと機械学習両方できるようになるのはやはり長い道のりのようです。。
では今日はここまで。
鈴木瑞人
東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 博士課程1年
東京大学機械学習勉強会 代表
NPO法人Bizjapan