CASP14について
結局、AlphaFoldは、何で世界一位を取ったか?
ということですが、まず、AlphaFoldには、AlphaFold1、AlphaFold2があります。
そしてこの
AlphaFold2がタンパク質の四次構造予測コンペCASP14で、2位のプロDavid Bakerに倍以上の圧倒的なスコア差をつけて優勝しました。
今回はただ優勝したというだけではないのです。
1年半前に優勝した時のAlphaFoldとは違い、結晶構造解析が爆速で得られている事から、実質的に今までのタンパク質構造予測問題を解決したことになります。コンペ主催者が正式に"Solution"と認定したホドです
何を持って構造解析を完了したかというと、創薬レベルに使えるということです。
以前のブログでも書きましたが、配列のわかっているタンパク質は約18億個ありますが、構造がわかっているのは17万しかないので、これで一気に解決する。
タンパク質の立体構造はアミノ酸配列だけから決まるが、その立体構造を予測するという問題は、取り得る構造の自由度が半端ないオーダーになります。
数学的に言えば、10^300 を超えるオーダーととなるため(囲碁の局面数は10^170程度なので、以後よりずっと複雑)、端から計算すると永遠に終わらないわけです。
しかしそれを、、
Google DeepMindは、学習に128個のTPU(Googleが開発した機械学習に特化した集積回路)を数週間使い、残基間距離でグラフ表現したものを類縁配列をアラインメントし、残基ペアの表現学習を行っただけで解決したそうです。
とはいえ、まだ論文、プログラム共に未公開です。
次の課題は、
複数のタンパク質で構成される複合体の構造予測だと思われます。
その次は、タンパク質ではなく、電子の軌道まで考慮する必要がある無機物質の構造予測かな??
この動画がわかりやすいので、ぜひご覧ください