サイバーオクトパスの登場:AIが動物のように学習する未来とは?

AIはどうすれば動物のように環境を探索し、報酬を求め、障害を乗り越えることができるのでしょうか?

2024年5月11日、ジャーナルNeurocomputingに掲載された研究によると、科学者たちは海のナメクジが採餌する際の脳回路に基づくシンプルな連合学習ルールを人工知能に適用し、それをタコのような優れたエピソード記憶で強化することに成功しました。これにより、新しい環境をナビゲートし、報酬を探し、ランドマークを地図化し、障害を克服するAIを構築しました。この新しいアプローチは、AIが空間的および時間的な認識を拡大し、仕事中に学習しながら知識ベースを成長させる能力を持つことを可能にします。

イリノイ大学アーバナシャンペーン校のポスドク研究員、エカテリーナ・グリブコワ博士(Ekaterina Gribkova, PhD)と、同大学の分子統合生理学名誉教授ラノー・ギレット博士(Rhanor Gillette, PhD)が主導し、農業生物工学教授ギリシュ・チョウダリー(Girish Chowdhary)のサポートを受けたこの研究は、オープンアクセスで公開されています。論文のタイトルは「Cognitive Mapping and Episodic Memory Emerge from Simple Associative Learning Rules(認知マッピングとエピソード記憶はシンプルな連合学習ルールから生じる)」です。

この新しい研究は、タコの行動を駆動する脳ネットワークの研究に基づいています。研究者たちは、強化されたAIエージェントを「サイバーオクトパス」と名付けました。

「このアプローチにより、現在の人工知能よりもはるかに動物的なAIが誕生しました」とグリブコワ博士は述べています。「私たちは、非常に単純な海のナメクジの記憶から、私たちのような複雑な記憶へと進化させる方法を学んでいます。」

この新しいアプローチは、AIに基本的な機能を実行させる前に大量のデータで事前訓練を行う従来の方法よりも効率的です。

メモリーモジュールを追加することで、AIは過去のイベントに関する情報を保持できるようになり、非常にシンプルな空間学習をより複雑な学習に拡張できるようになりました。

「同じ種類の連合を使用して、例えば運動行動のシーケンスを学習したり、社会的ネットワークをマッピングしたり、言語的な問題解決を行ったりすることができます」とグリブコワ博士は述べています。「空間ドメインでの学習と実際に環境をナビゲートしてショートカットを作成することは、私たちのメモリーモジュールができることであり、より抽象的な概念にも非常によく適用できます。」

この研究チームは、以前に「サイバースラッグ」と呼ばれるプロジェクトで、プレウロブランケア属の海のナメクジの意思決定ニューロン回路をシミュレートする研究を行っていました。彼らは、このシミュレートされた生物をアイザック・アシモフにちなんで「ASIMOV」と名付けました。アシモフは、人間社会におけるロボットの安全性と倫理について探求したサイエンスフィクション作家です。

研究者たちは、ASIMOVに自己の内部状態を監視し、飽食と報酬を求めるようにプログラムしました。ASIMOVはしばらく食べていないと「空腹」になり、試行錯誤を通じて栄養価のある食べ物を選ぶことを学習しました。研究者たちが中毒性のあるシミュレーション薬を選択肢に追加すると、ASIMOVは栄養価がないにもかかわらず、その薬を追い求める行動を示しました。

しかし、ASIMOVは瞬間に生きており、経験から学習することはできましたが、過去の経験から情報を統合する能力は限られていました。そこでグリブコワ博士は、エピソード記憶のための計算モジュールを追加しました。これを「特徴連合マトリックス」と呼び、学習と記憶に不可欠な脳領域である海馬の構造と機能をモデルにしました。この研究もタコの行動を駆動する脳ネットワークの研究に基づいていました。研究者たちはASIMOV-FAMエージェントを「サイバーオクトパス」と呼びました。

「エピソード記憶は、過去の出来事や経験の空間的および時間的な文脈を符号化します」と著者らは述べています。これは、ほとんどの現在のAIモデルが欠けている自然知能の基本的な構成要素です。

新しい研究では、ASIMOV-FAMが報酬を持つランドマークが点在するシミュレートされた環境を探索しました。グリブコワ博士は、ASIMOVが取った各経路の相対的な報酬を比較して強化または弱化できるペアワイズ連合に焦点を当てました。ASIMOVは新規性と報酬を追求するようにプログラムされていました。

「ASIMOVエージェントは、FAMによって形成された認知マップを使用して空間環境を学習します」とギレット博士は述べています。「それは、新しい経路やショートカットを生成して、環境をより効率的に移動し、より多くの報酬を得ることができます。これは実質的に空間推論です。」

研究者たちは、この新しいアプローチを使用して、空間ナビゲーション以外のさまざまなタスクを実行できる、より効率的で高度なAIを作成することを期待しています。

「ASIMOV-FAMは、例えばChatGPTのような大規模言語モデルを効率的な計算と問題解決のために強化し、サイズとトレーニング要件を削減するために適応できると期待しています」とギレット博士は述べています。

「私たちは、ボトムアップアプローチを採用すれば、あまり多くのデータを必要とせず、適応的な行動と創造性においてはるかに動物的で、自ら学習するAIを構築できると考えています」とグリブコワ博士は述べています。「本質的には、私たちは子供が学ぶように学習する高度なAIを目指しています。」
ギレット博士とグリブコワ博士は、イリノイ大学ナショナルスーパーコンピューティングアプリケーションセンターの人工知能イノベーションセンターおよび同大学の神経科学プログラムのアフィリエイトです。ギレット博士はまた、イリノイ大学ベックマン先端科学技術研究所およびカール・R・ウーゼゲノミクス生物学研究所の教授でもあります。

今回の研究は、人工知能に動物のような行動をさせるための新しいアプローチを示しました。シンプルな連合学習ルールとエピソード記憶の組み合わせにより、AIは環境を探索し、報酬を追求し、複雑な問題を解決する能力を持つようになります。特に、タコの脳ネットワークを参考にしたこの研究は、AIの進化に新しい可能性をもたらすものです。ASIMOV-FAMのようなAIは、従来のAIに比べてより効率的であり、将来的には多様な応用が期待されます。

[News release] [Neurocomputing article]

この記事の続きは会員限定です