ゲノム解析のデータ量が爆発的に増える中、その分析の複雑さやエラーに頭を悩ませていませんか?今回、そんな大規模なシーケンスデータの分析を自動化し、標準化してくれる画期的な新しいオープンアクセスツールが発表されました。1回の実験で、科学者たちは多くの患者サンプル、動物モデル、または培養細胞の全ゲノムを解読することができます。このかつてない規模で生物学を研究する可能性を完全に実現するためには、研究者はこれらの新しい手法によって生成される膨大な量のデータを分析する準備ができていなければなりません。
Sanford Burnham Prebys Medical Discovery Institute(サンフォード・バーナム・プレビース医学発見研究所)とカリフォルニア大学ロサンゼルス校の研究者たちは、2026年3月17日、Cell Reports Methods誌において、大規模で複雑なシーケンスデータセットに取り組むための新しい計算ツールの構築とテストに関する知見を発表しました。
「metapipeline-DNA」と名付けられたこの新しいリソースは、異なる研究室間でのシーケンスデータ分析をより標準化する可能性もあります。
単一のヒトゲノムの配列は、約100ギガバイトの生データを表し、これはスマートフォンで撮影した写真約20,000枚分に相当します。数十、あるいは数百のゲノムが混ざり合うと、実験データの規模は桁違いに増大します。
過去10年から15年の間に、このデータを作成する技術が急速に進歩し、より手頃な価格でアクセスしやすくなったため、多くの研究室は分析に使用する独自のソフトウェアを構築したり、同僚から無料で共有されているオープンアクセスツールをカスタマイズしたりしてきました。しかし、これらのリソースの一部は、特定のスーパーコンピューティングやクラウドコンピューティングシステムでのみ動作します。
このような断片化されたソフトウェア環境は、機関間の共同研究を複雑にします。さらに、研究室が新しい機関に移動したり、機関が新しいコンピューティングソリューションに切り替えたりする際に困難をもたらし、標準化の欠如や、異なるツールを用いた研究の再現における課題の一因ともなります。
サンフォード・バーナム・プレビースのクラウドおよび人工知能(AI: Artificial Intelligence)インフラストラクチャアーキテクトであり、本研究の共同筆頭著者であるYash Patel(ヤッシュ・パテル)氏は、「metapipeline-DNAのようなゲノムシーケンスデータ用のバイオインフォマティクス・パイプラインは、このすべてのデータの分析を標準化し、均一かつ再現可能な方法で処理されるように設計されています」と述べています。
「目標は、品質管理、遺伝的変異の決定、その他すべての分析ステップを自動化し、研究者がデータを処理するために独自のコードを記述する必要がないようにして、はるかに簡単にすることです」とパテル氏は付け加えました。
metapipeline-DNAの開発チームは、このソフトウェアが一般的なエラーを検出し、そこから回復する能力を強調しました。科学者がシーケンスデータを分析するために使用する強力なスーパーコンピューティングクラスターであっても、実行に失敗すると数日間の計算時間が無駄になり、新しい発見が遅れる可能性があります。
サンフォード・バーナム・プレビースのNCI指定がんセンターのディレクター兼教授であり、データサイエンス担当シニアバイスプレジデントであるPaul Boutros(ポール・ブトロス)博士は、「ソフトウェアの設計において、ユーザーに提示する選択肢がパイプラインの実行前に完全に検証されるようにすることに重点を置きました」と述べています。「私たちの研究室では、防ぐことができた構成エラーによって挫折したくありませんし、私たちのパイプラインを使用する誰にもそのようなことが起こってほしくありません」とブトロス博士は語ります。
この共同開発プロセスには、基礎となるコードを強化するための1,408件のプルリクエストを行った43名の貢献者と、1,124件の提案、機能のリクエスト、および問題の報告を提出した46名の個人が含まれています。
metapipeline-DNAがゲノムのどこで変化が生じたかを特定する能力を向上させるため、科学者たちは米国商務省の国立標準技術研究所(NIST: National Institute of Standards and Technology)が率いるGenome in a Bottleコンソーシアムと協力しました。この官民学のコンソーシアムが細心の注意を払って検証したリソースを組み込むことで、研究者たちは、真の遺伝的変異を見つけるツールの精度を低下させることなく、偽陽性の発生率を低下させました。
研究者たちはまた、がん研究におけるパイプラインの機能を示す2つのケーススタディを作成しました。研究者たちはmetapipeline-DNAを使用して、全ゲノム汎がん分析(PCAWG: Pan-Cancer Analysis of Whole Genomes)データセットに正常組織と腫瘍サンプルの両方を提供した5人の患者と、The Cancer Genome Atlas(がんゲノムアトラス)からの別の5人の患者からのシーケンスデータを分析しました。
次のステップは、発見を加速するためにmetapipeline-DNAをより多くの研究室に導入し、より多くのユーザーフィードバックを得てリソースを改善し続けることです。
パテル氏は、「このツールにより、研究室は計算やコンピューターインフラストラクチャに関する多くの背景知識を必要とせず、また特定のコンピューティング環境に合わせて最適化することなく、データを処理できるようになるはずです」と述べています。
さらに、著者らはこの基盤の上に、RNAやタンパク質などの他の生体分子のシーケンスを分析するための自動化されたエンドツーエンドのソリューションを構築する予定です。
本論文のシニア著者であり責任著者であるブトロス博士は、「さまざまな生体分子間のワークフローは、metapipeline-DNAのアーキテクチャ、自動化、および品質管理の手法を共有できるため、単一のパイプラインを改善することで他のパイプラインも改善できます」と述べています。「私たちは、他のデータ集約型のハイスループットシーケンス技術へと拡張し、私たちの研究室、サンフォード・バーナム・プレビース、そして研究コミュニティ全体での発見のペースと効率を向上させ続けることに興奮しています」とブトロス博士は語りました。
なお、パテル氏は、サンフォード・バーナム・プレビースの研究助教であるChenghao Zhu(チェンハオ・朱)博士、およびサンフォード・バーナム・プレビースのブトロス博士の研究室のシニアバイオインフォマティシャンであるTakafumi Yamaguchi(タカフミ・ヤマグチ)氏と本研究の筆頭著者を共有しています。
本研究の論文は、「「metapipeline-DNA: A Comprehensive Germline & Somatic Genomics Nextflow Pipeline(metapipeline-DNA: 包括的生殖細胞系列および体細胞ゲノミクスNextflowパイプライン)」」として発表されました。

