微生物の配列データベースには、バイオテクノロジーに適応可能な酵素や他の分子に関する豊富な情報が含まれています。しかし、これらのデータベースは近年非常に大きくなり、興味のある酵素を効率的に検索することが難しくなっています。現在、マサチューセッツ工科大学(MIT)のマクガバン脳研究所、MITとハーバード大学のブロード研究所、および国立衛生研究所(NIH)の国立生物工学情報センター(NCBI)の研究者らは、細菌のゲノムにおける188種類の新しい希少CRISPRシステムを特定した新しい検索アルゴリズムを開発しました。これは、数千に及ぶ個々のシステムを含んでいます。
この研究は、2023年11月23日に「Science」誌に「希少CRISPR-Casシステムの機能的多様性の深層テラスケールクラスタリングによる解明」(Uncovering the Functional Diversity of Rare CRISPR-Cas Systems with Deep Terascale Clustering)というタイトルで発表されました。
このアルゴリズムは、CRISPR研究の先駆者であるフォン・ジャン教授(Feng Zhang)の研究室から来ており、大規模なゲノムデータを迅速に検索するためのビッグデータクラスタリング手法を使用しています。チームは、石炭鉱山、醸造所、南極の湖、犬の唾液で見つかるような珍しい細菌からのデータを含む、3つの主要な公開データベースを採掘するために、Fast Locality-Sensitive Hashing-Based Clustering(FLSHclust)と呼ばれるアルゴリズムを使用しました。研究者らは、DNAに編集を加えることができるCRISPRシステムや、RNAを標的とするもの、その他さまざまな機能を持つものを含む、驚くべき数と多様性のCRISPRシステムを発見しました。
これらの新しいシステムは、現在のCas9システムよりも副作用が少ない哺乳類細胞の編集に利用される可能性があります。また、将来的には診断ツールとして、または細胞内の活動の分子記録として使用される日も来るかもしれません。
研究者らは、この検索がCRISPRの前例のないレベルの多様性と柔軟性を強調していると述べており、データベースが拡大し続けるにつれて、まだ発見されていない多くの希少なシステムが存在する可能性が高いとしています。
「生物多様性はとても貴重な宝物であり、私たちがさらに多くのゲノムやメタゲノミクスのサンプルを配列解析するにつれて、FLSHclustのようなより良いツールが必要になっています。これは、その配列空間を検索し、分子の宝石を見つけるためです」と、研究の共同上席著者であり、MITのジェームズ・アンド・パトリシア・ポイトラス神経科学教授、脳神経科学および生物工学の部門におけるMITの共同任命教授であるジャン博士(Feng Zhang, PhD)は述べています。ジャン博士はまた、マクガバン脳研究所の研究員であり、ブロード研究所のコア研究員でもあります。NCBIの傑出した研究者であるユージン・クーニン博士(Eugene Koonin, PhD)も、研究の共同上席著者です。
CRISPRの検索
CRISPRは、クラスター化された定期的に間隔を置いた短い回文繰り返しを意味し、ゲノム編集や診断ツールに多く工学的に変換された細菌の防御システムです。
新しいCRISPRシステムを探すために、研究者らは、ビッグデータコミュニティから借りたアプローチに基づくアルゴリズムを開発しました。この技術は、局所感度ハッシュ法と呼ばれ、似ているが完全に同一ではないオブジェクトをクラスタリングします。このアプローチを使用することで、チームは、NCBI、その全ゲノムショットガンデータベース、およびジョイントゲノム研究所からの数十億のタンパク質とDNA配列を数週間で探索することができました。以前の方法では、同一のオブジェクトを探すのに数ヶ月かかるところです。彼らは、CRISPRに関連する遺伝子を探すためにアルゴリズムを設計しました。
「この新しいアルゴリズムにより、我々は実際に結果を回収し、生物学的な仮説を立てることができるほど短い時間枠でデータを解析することができます」と、研究の共著者であり、研究開始時にジャン博士の研究室の大学院生であり、現在はハーバード大学のポスドクおよびジュニアフェローであるスーミャ・カンナン博士(Soumya Kannan, PhD)は述べています。研究中にジャン博士の研究室の大学院生であり、現在ワシントン大学のポスドクであるハン・アルタエ=トラン博士(Han Altae-Tran, PhD)が、研究のもう一人の共同第一著者です。
「探索方法を改善し、できるだけ多くのデータを使用すると何ができるかの証明です。検索のスケールを拡大することができるのは本当にエキサイティングです。」とアルタエ=トラン博士は述べています。
新しいシステム
アルタエ=トラン博士、カンナン博士、およびその同僚たちは、彼らが発見した数千のCRISPRシステムが、いくつかの既存のカテゴリーと多くの新しいカテゴリーに分類されることに気付きました。彼らは、実験室で新しいシステムのいくつかをより詳細に研究しました。
彼らは、既知のタイプI CRISPRシステムのいくつかの新しいバリアントを発見しました。これらは、Cas9の20ヌクレオチドガイドではなく、32ベースペアのガイドRNAを使用します。これらのより長いガイドRNAを持つタイプIシステムは、オフターゲットの編集が少ないより正確な遺伝子編集技術を開発するために利用される可能性があります。ジャン博士のチームは、これらのシステムの2つが、ヒト細胞のDNAに短い編集を行うことを示しました。また、これらのタイプIシステムは、CRISPR-Cas9と同様のサイズであるため、現在CRISPR用に使用されている同じ遺伝子デリバリー技術を使用して、動物やヒトの細胞に届けられる可能性があります。
タイプIシステムの1つは、「コラテラルアクティビティ」も示しました。これは、CRISPRタンパク質がその標的に結合した後に核酸を広範囲に分解します。研究者らは、感染症の診断などにこのようなシステムを使用してきました。たとえば、DNAやRNAの単一分子を迅速に感知できるSHERLOCKなどのツールです。ジャン博士のチームは、新しいシステムを診断技術に適応させることができると考えています。
研究者らは、いくつかのタイプIV CRISPRシステムの新しい作用メカニズムと、RNAを正確に標的とするタイプVIIシステムを発見しました。これは、RNA編集に使用される可能性があります。他のシステムは、遺伝子が発現された時期の分子文書として、または生きている細胞内の特定の活動のセンサーとして使用される可能性があります。
データの採掘
研究者らは、このアルゴリズムが他の生化学的システムの探索に役立つ可能性があると述べています。「この検索アルゴリズムは、これらの大規模なデータベースでタンパク質がどのように進化するかを研究したり、新しい遺伝子を発見したりしたいと思う人によって使用される可能性があります」とアルタエ=トラン博士は述べています。
研究者らは、自分たちの発見がCRISPRシステムがどれほど多様であるか、また、ほとんどが珍しい細菌でのみ見つかるということを示していると付け加えています。「これらの微生物システムの中には、石炭鉱山の水からのみ発見されたものもありました。それに興味がなければ、私たちはこれらのシステムを見ることはなかったでしょう。我々が発見できる多様性を拡大し続けるためには、サンプリングの多様性を広げることが本当に重要です。」とカンナン博士は述べています。



