細胞という小さな宇宙で、生命活動を支える無数の働き者、タンパク質。その機能は「形」だけでなく、細胞内の「居場所」によっても大きく左右されることがわかってきました。まるで都市のように区画化された細胞内で、タンパク質が適切な場所に配置されなければ、その能力を十分に発揮できません。しかし、この「タンパク質の住所録」を予測することは、これまで非常に困難な課題でした。そんな中、ホワイトヘッド研究所とマサチューセッツ工科大学(MIT)の研究者たちが、タンパク質の「アミノ酸コード」からその細胞内局在を高精度に予測し、さらには特定の場所に集まる新しいタンパク質を設計までできる画期的なAIモデル「ProtGPS」を開発しました。これは、病気の理解や治療法開発に新たな道を開く可能性を秘めています。
細胞内は、生物学の教科書でおなじみの細胞小器官(オルガネラ)に加え、特定の分子を集めて共同作業を行わせる、膜のないダイナミックな区画も多数存在します。あるタンパク質がどこに局在し、何と一緒にいるかを知ることは、そのタンパク質の役割や、健康な細胞あるいは病気の細胞における働きをより深く理解する上で役立ちますが、これまではこの情報を系統的に予測する方法がありませんでした。
一方、タンパク質の構造は半世紀以上にわたって研究され、その集大成として人工知能ツールであるAlphaFoldが登場しました。AlphaFoldは、タンパク質のアミノ酸配列からタンパク質の構造を予測できます。AlphaFoldや同様のモデルは、研究において広く利用されるツールとなっています。
タンパク質には、決まった構造に折りたたまれないアミノ酸領域も含まれており、これらの領域はタンパク質が細胞内のダイナミックな区画に加わるのを助ける上で重要です。ホワイトヘッド研究所のメンバーであるリチャード・ヤング氏(Richard Young)と彼の同僚たちは、他の領域が構造予測に使われるのと同じように、これらの領域のコードを使ってタンパク質の局在を予測できるのではないかと考えました。
他の研究者たちは、タンパク質の局在をコードするいくつかのタンパク質配列を発見し、タンパク質局在の予測モデルの開発を始めています。しかし、タンパク質の配列に基づいてあらゆるダイナミックな区画への局在を予測できるかどうか、また局在予測のためのAlphaFoldに匹敵するツールもありませんでした。今回、MITの生物学教授でもあるヤング氏、ヤング研究室のポスドク研究員ヘンリー・キルゴア(Henry Kilgore)氏、MITのコンピューター科学・人工知能研究所(CSAIL: Computer Science and Artificial Intelligence Laboratory)のAI・健康担当スクール・オブ・エンジニアリング卓越教授であるレジーナ・バーベキュー氏(Regina Barzilay)、および彼らの同僚たちは、そのようなモデルを構築し、「ProtGPS」と名付けました。
2月6日発行のScience誌に掲載された論文で、筆頭著者であるキルゴア氏と、バーベキュー研究室の大学院生イタマール・チン氏(Itamar Chinn)、ピーター・ミカエル氏(Peter Mikhael)、イラン・ミトニコフ氏(Ilan Mitnikov)を含む学際的なチームが、このモデルを発表しました。研究者らは、ProtGPSがタンパク質が12種類の既知の区画のどれに局在するかを予測できること、また疾患関連変異がその局在を変化させるかどうかを予測できることを示しています。さらに、研究チームは特定の区画に局在する新規タンパク質を設計できる生成的アルゴリズムも開発しました。このScience誌掲載論文のタイトルは「Protein Codes Promote Selective Subcellular Compartmentalization(タンパク質コードは選択的な細胞内区画化を促進する)」です。
「これが、タンパク質を研究する人々が研究を進めることを可能にする強力なプラットフォームへの第一歩となることを願っています」とヤング氏は述べています。「そして、ヒトがどのようにして複雑な生物へと発生するのか、変異がそれらの自然なプロセスをどのように破壊するのか、そして細胞内の機能不全を治療するための治療仮説を立て、薬剤を設計する方法を理解するのに役立つことを期待しています」。
研究者らはまた、モデルの予測の多くを細胞を用いた実験的試験で検証しました。
「計算による設計から実験室で実際に試すところまで行けたことに本当に興奮しました」とバーベキュー氏は言います。「このAI分野には多くのエキサイティングな論文がありますが、その99.9%は実際のシステムでテストされることはありません。ヤング研究室との共同研究のおかげで、私たちは自分たちのアルゴリズムがどれほどうまく機能しているかをテストし、本当に学ぶことができました」。
モデルの開発
研究者らは、既知の局在情報を持つ2つのタンパク質群でProtGPSを訓練し、テストしました。その結果、タンパク質が最終的にどこに行き着くかを高い精度で正しく予測できることがわかりました。研究者らはまた、タンパク質内の疾患関連変異に基づいて、ProtGPSがタンパク質局在の変化をどれほとうまく予測できるかもテストしました。多くの変異(遺伝子とその対応するタンパク質の配列の変化)は、関連研究に基づいて疾患に寄与したり原因となったりすることがわかっていますが、それらの変異がどのようにして疾患症状を引き起こすのかについては依然として不明です。
変異がどのように疾患に寄与するかのメカニズムを解明することは重要です。なぜなら、それによって研究者はそのメカニズムを修正する治療法を開発し、疾患を予防または治療できるからです。ヤング氏らは、多くの疾患関連変異がタンパク質の局在を変化させることによって疾患に寄与しているのではないかと疑っていました。例えば、変異によってタンパク質が重要なパートナーを含む区画に参加できなくなる可能性があります。
科学者たちはこの仮説を検証するため、20万以上の疾患関連変異を持つタンパク質をProtGPSに入力し、変異型タンパク質がどこに局在するかを予測させ、さらに正常型から変異型になった場合に特定のタンパク質に対する予測がどの程度変化したかを測定させました。予測の大きな変化は、局在の変化の可能性が高いことを示します。
研究者らは、疾患関連変異がタンパク質の局在を変化させると見られる多くのケースを発見しました。彼らは20の例を細胞内でテストし、蛍光を用いて正常なタンパク質とその変異型が細胞内のどこに行き着いたかを比較しました。実験はProtGPSの予測を裏付けました。これらの結果は総合的に、誤った局在がこれまで過小評価されてきた疾患メカニズムであるかもしれないという研究者らの疑いを支持し、疾患を理解し新たな治療法を見出すためのツールとしてのProtGPSの価値を実証しています。
「細胞は非常に多くの構成要素と複雑な相互作用ネットワークを持つ、極めて複雑なシステムです」とミトニコフ氏は言います。「このアプローチによって、システムに摂動を加え、その結果を観察し、それによって細胞内のメカニズムの発見を促進したり、さらにはそれに基づいて治療法を開発したりできると考えるのは、非常に興味深いです」。
研究者らは、他の研究者たちがAlphaFoldのような構造予測モデルを使うのと同じようにProtGPSを使い始め、タンパク質の機能、機能不全、疾患に関する様々なプロジェクトを進展させることを期待しています。
予測を超えて新規生成へ
研究者らは予測モデルの潜在的な用途に興奮していましたが、既存のタンパク質の局在を予測するだけでなく、全く新しいタンパク質を設計できるようにしたいとも考えていました。目標は、細胞内で形成されたときに目的の場所に局在する、完全に新しいアミノ酸配列をモデルに作らせることでした。実際に機能(この場合は特定の細胞区画に局在する機能)を達成できる新規タンパク質を生成することは非常に困難です。モデルの成功確率を高めるため、研究者らはアルゴリズムを自然界に見られるようなタンパク質のみを設計するように制約しました。これは論理的な理由から創薬設計で一般的に用いられるアプローチです。自然界は何十億年もの歳月をかけて、どのタンパク質配列がうまく機能し、どれが機能しないかを見極めてきたのです。
ヤング研究室との共同研究のおかげで、機械学習チームはタンパク質生成器が機能するかどうかをテストすることができました。モデルは良好な結果を示しました。ある試行では、核小体(nucleolus)に局在することを意図した10種類のタンパク質を生成しました。研究者らがこれらのタンパク質を細胞内でテストしたところ、そのうち4種類が核小体に強く局在し、他のものもその場所に対してわずかな偏りを持っていた可能性があることがわかりました。
「私たちの研究室間の協力は、私たち全員にとって非常に生産的なものでした」とミカエル氏は言います。「私たちはお互いの専門用語を理解し合うことを学び、私たちの場合は細胞がどのように機能するかについて多くを学びました。そして、モデルを実験的にテストする機会を得たことで、実際にモデルを機能させるために何が必要かを理解し、その後さらに改善することができました」。
このように機能的なタンパク質を生成できることは、研究者の治療法開発能力を向上させる可能性があります。例えば、薬剤が特定の区画内に局在する標的と相互作用する必要がある場合、研究者はこのモデルを使って薬剤もそこに局在するように設計できます。これにより、薬剤は標的との相互作用により多くの時間を費やし、他の分子との相互作用(オフターゲット効果の原因となる)に費やす時間が少なくなるため、薬剤の効果が高まり、副作用が減少するはずです。
機械学習チームのメンバーは、この共同研究から学んだことを活かして、局在以外の機能を持つ新規タンパク質を設計するという見通しに意欲を燃やしています。これは、治療設計やその他の応用の可能性を広げるでしょう。
「多くの論文は、細胞内で発現できるタンパク質を設計できることを示していますが、そのタンパク質が特定の機能を持つことまでは示していません」とチン氏は言います。「私たちは実際に機能的なタンパク質設計を行い、他の生成的モデルと比較して比較的高い成功率を達成しました。これは私たちにとって本当にエキサイティングなことであり、さらに発展させたいと考えています」。
関与したすべての研究者は、ProtGPSをエキサイティングな始まりと捉えています。彼らは、このツールがタンパク質機能における局在の役割や疾患における誤局在についてさらに学ぶために使用されることを期待しています。さらに、モデルの局在予測をより多くの種類の区画を含むように拡張し、より多くの治療仮説をテストし、治療法やその他の応用のためにますます機能的なタンパク質を設計することに関心を持っています。
「局在のためのこのタンパク質コードが存在すること、そして機械学習モデルがそのコードを理解し、さらにはその論理を使って機能的なタンパク質を作成できることがわかった今、非常に多くの潜在的な研究や応用の扉が開かれます」とキルゴア氏は述べています。
この記事は、ホワイトヘッド研究所のグレタ・フライヤー氏(Greta Friar)が執筆したリリースに基づいています。



