AI活用による遺伝子研究の落とし穴と改善の提案
ウィスコンシン大学マディソン校の研究者らは、遺伝学と医学の分野で急速に普及している人工知能(AI)ツールが、遺伝子と疾患リスクを含む身体的特徴との関連について誤った結論を導く可能性があると警告しています。この問題は、ゲノムワイド関連解析(GWAS)におけるAIの利用に起因しており、これが遺伝子変異と疾患リスクの関係に「偽陽性」をもたらす可能性が指摘されています。
遺伝学と疾患の関連性は単純ではない
遺伝子変異が疾患リスクに寄与することはよく知られていますが、その関係性は複雑です。例えば、嚢胞性線維症のように単一遺伝子変異が疾患に直結する場合もありますが、多くの場合、遺伝子と身体的特徴の関連は多因子的です。
GWASは、複数の個人の遺伝プロファイルや健康特徴を解析することで、遺伝子と疾患リスクとの関連を解明するための手法です。米国国立衛生研究所(NIH)の「All of Us」プロジェクトやUKバイオバンクなどの大規模データベースが活用されていますが、これらのデータベースには研究対象の健康状態に関するデータが不足している場合があります。
データ不足へのAI依存のリスク
このデータ不足を補うため、近年ではAIツールが活用されるケースが増えています。しかし、AIモデルが不完全なデータから推論を行う際にバイアスを導入するリスクがあります。
ウィスコンシン大学のルー・チョンシー博士(Qiongshi Lu, PhD)率いる研究チームは、2024年9月30日付けのNature Geneticsに発表された論文「Valid Inference for Machine Learning-Assisted Genome-Wide Association Studies(機械学習支援ゲノムワイド関連解析のための有効な推論)」でこの問題を指摘しました。研究では、あるAIモデルが複数の遺伝子変異と2型糖尿病リスクの関連を誤って結び付けた例を挙げています。
「AIが予測した糖尿病リスクを信じると、実際には関連がない遺伝子変異まで疾患リスクと関連しているように見えてしまいます」とルー博士は述べています。このような「偽陽性」は糖尿病だけでなく、他の研究分野にも広く見られるバイアスです。
偽陽性を減らす新しい統計手法
研究チームは、AI支援型GWASにおけるバイアスを除去するための統計手法を提案しました。この手法は、AIモデルが不完全な情報から推論を行う際に導入するバイアスを軽減し、より正確な遺伝子関連の推測を可能にします。この新しい戦略を用いた結果、骨密度に関する遺伝子関連の解析が大幅に改善されました。
プロキシ情報依存の問題点
さらにルー博士らは、AIではなくプロキシ情報(代理データ)を使用した研究の問題点についても警告しています。2024年11月4日に「Nature Genetics」に発表された論文「Pervasive Biases in Proxy Genome-Wide Association Studies Based on Parental History of Alzheimer’s Disease(アルツハイマー病の親の病歴に基づくプロキシゲノムワイド関連解析における偏り)」では、家族歴に基づく代理データが遺伝子とアルツハイマー病リスクとの関連に「高度に誤解を招く」結果をもたらすことが示されました。
例えば、UKバイオバンクなどの大規模データベースには、アルツハイマー病のような高齢期発症疾患に関する直接的なデータが少ないため、親の診断歴を利用するケースが多いです。しかし、これによりアルツハイマー病リスクと認知能力の向上との間に誤った遺伝的相関が導き出される可能性があります。
今後の展望と警鐘
ルー博士は、「統計的なパワーが向上すると同時に、バイアスや誤りの確率も増加します。これが大規模データセットでの研究における重要な課題です」と述べています。研究チームは、AIや代理データへの過度な依存を避けるため、統計的な厳密性を確保する手法の重要性を強調しています。
写真:ルー・チョンシー博士 (Photo by Joe Sterbenc)
[News release] [Nature Genetics abstract 1] [Nature Genetics abstract 2]



