バークレー研究所:新しいMatterChatモデルがAIに科学の言語を「見る」ことを可能にする
バークレー研究所はMatterChatフレームワークを開発し、大規模言語モデルと物理ベースの原子間ポテンシャルモデルを橋渡しすることで、AIが材料科学の3D原子構造を理解できるようにした。このモデルは材料特性の予測でGPT-4を大幅に上回り、新素材の発見を加速する可能性がある。
2026年5月18日 — メールの作成からコンピュータコードの生成まで、私たちの日常生活に浸透している人工知能の多くは、テキストという一つの領域を習得することで成功を収めてきました。しかし、これにより物理科学には重大な盲点が残されています。物理科学のモデルは、結晶内の複雑な原子格子のような、高解像度の3次元データに依存しているからです。AIを科学に活用するという約束を果たすには、これらのデータ駆動型テキストモデルに、物理ベースのモデルとシームレスに「対話」することを教える必要があります。
現在、ローレンス・バークレー国立研究所(バークレー研究所)の新しいAIフレームワーク「MatterChat」がこの問題を解決し、特殊な「橋」を構築しました。これは、大規模言語モデル(LLM)の会話能力と、原子間の複雑な物理力をモデル化する物理ベースのAI(「原子間ポテンシャル」)を接続します。結果として得られるシステムは、材料特性の予測においてGPT-4のような汎用AIツールを大幅に上回り、チームはこれが確かな洞察を提供し、新しい材料を合成するためのステップバイステップの指示を生成する堅牢な研究パートナーとして機能することで、科学的発見を加速できると期待しています。
この研究を説明する論文は、最近『Nature Machine Intelligence』に掲載されました。
「従来のシミュレーションは材料科学に必要な物理的厳密性を提供できますが、その計算コストはハイスループットスクリーニングには依然として法外です。逆に、LLMは迅速な知識統合に優れていますが、原子座標から材料を直接解釈する『構造的視覚』を本質的に欠いています」と、バークレー研究所の応用数学・計算研究部門(AMCR)の博士研究員で論文の主著者であるYingheng Tang氏は述べています。「MatterChatはこのジレンマを解決するために構築され、LLMに構造的『視覚』を与え、研究者が複雑な現実世界の材料課題を解決するためにその潜在能力を最大限に活用できるようにします。」
言語モデルに材料科学の複雑な課題を解決する力を与える
MatterChatを構築するために、バークレー研究所のチームは視覚質問応答(VQA)やテキストから画像への生成(T2I)などの技術から着想を得ました。これらのタスクでは、AIは高レベルのテキスト概念を視覚画像に変換したり、その逆を行う必要があります。そのためには、根本的に異なる2つのデータ形式を「橋渡し」するツールを開発者が構築する必要があります。
研究者たちはこの概念を物理科学に適応させました。MatterChatでは、LLMの一般的な知識と、科学的な原子間ポテンシャルにコード化された原子スケールの世界の深い理解とをうまく接続する「橋モデル」を作成しました。
これまで、LLMを使用して材料問題を解決する研究者は、通常、生のデータファイルをテキスト文字列としてLLMに入力していました。これは、AIに部品リストだけから複雑な3Dエンジンを理解させるようなものです。LLMは名前を読むことはできますが、原子が空間でどのように組み合わさっているかを「見る」ことはできません。MatterChatは、数百万の結晶構造とLLMで事前学習された特殊なAIブリッジモデルを訓練し、LLMの世界表現と原子間ポテンシャルの世界表現を整列させることで、この問題を解決します。
ブリッジモデルは、物理的な洞察をLLMが実際に理解できる形式に変換できます。LLMにこれらの「科学的な目」—AIの用語で科学的「帰納バイアス」—を与えることで、バークレー研究所のチームはLLMを、熱安定性の予測や電子バンドギャップの分析など、複雑な材料課題に対して確かな科学的洞察を提供できる強力な研究ツールに変えました。
「私たちは原子が物理空間に存在すると考えますが、機械学習の観点からは、それらは高次元ユークリッド空間の非常に自明でない構造を持つ多様体上に存在する単なるベクトルです。そしてもちろん、それらの原子についてのアイデアを表現するために使用する文や段落も同様です」と、共著者でバークレー研究所科学データ部門(SDD)のAIイニシアチブ研究リーダーであるMichael Mahoney氏は述べています。「ブリッジモデルは基本的に、これら2つの構造を互いに『対話』させます。」
この一般的なアプローチの概念実証として、チームはMaterials Projectからの約143,000の安定した原子構造と対応する物理特性をペアにしたデータセットでブリッジモデルを訓練しました。このトレーニングデータはMaterials ProjectのAPIを使用して自動的に収集され、形成エネルギーやバンドギャップなど、マイクロエレクトロニクス設計に基本的な特性を意図的に豊富に含めることで、MatterChatが材料の原子設計図とその機能性能を結びつける複雑なパターンを学習できるようにしました。
モデルを検証するために、研究者たちはMatterChatを汎用LLMから他の特殊な科学AI手法に至るまでの一連のAIシステムと比較しました。結果は、MatterChatがさまざまなタスクで一貫して競合他社を上回ることを示しました。モデルは材料タイプの分類においてより正確であり、数値特性の予測において優れた精度を示しました。例えば、高容量エネルギー貯蔵から次世代コンピュータチップまでの新しいエレクトロニクスを設計するために重要な特性である材料のバンドギャップ予測で優れていました。
「私たちの設計は、ゼロから大規模なAIモデルを構築する必要がないため、はるかに効率的です」と、共著者でバークレー研究所AMCRの研究科学者であるZhi (Jackie) Yao氏は述べています。「代わりに、材料物理用の構造エンコーダとオープンソースLLMという2つの強力な事前学習済みモデルをそのまま使用します。実際に訓練する唯一のコンポーネントは、それらの間を変換する軽量の『ブリッジモデル』です。それは、車工場全体を建設するのと、ワールドクラスのエンジンをワールドクラスのナビゲーションシステムに接続するスマートアダプターを設計するのとの違いです。このアプローチは計算効率が高いだけでなく、システムをモジュール化するため、将来的にコンポーネントを簡単にアップグレードしたり、ブリッジを他の科学ドメインに適応させたりすることができます。」
重要なのは、このモジュール設計が、バークレー研究所やエネルギー省のような機関が急成長するAI業界でどのように非常に価値のあるニッチを切り開いているかを正確に示していることです。シリコンバレーのテクノロジー大手と競合してゼロからより大規模なLLMを構築するのではなく、研究所は商用AIをハードコアな科学に役立たせるための特殊な結合組織に焦点を当てています。
MatterChatの基礎にあるブリッジモデルアプローチは前方互換性があるため、これらの並行する革新の流れを活用するのに最適な位置にあります。Mahoney氏が指摘したように、「業界は改良されたLLMを開発し続け、分野の科学者や施設は新しいデータを生成し続けると予想されます。科学機械学習の重要な部分は、今日のデータに関する問題を解決することだけでなく、科学的ドメインからであれLLMからであれ、桁違いに多くのデータに対して前方互換性のある一般的な方法を開発することです。」
Yao氏によると、バークレー研究所の研究所指導研究開発(LDRD)プログラムからの資金提供で最初に開発され強化されたMatterChatプロジェクトは、今後その機能を拡大する予定です。フェルミ研究所との協力により、MatterChatはすでに米国エネルギー省のジェネシスミッションプロジェクト—Accelerating eXtreme Environment Specs-to-Silicon(AXESS)と呼ばれる—に貢献しており、このプロジェクトは、高度な3D集積回路(チップレット)とAI駆動データ分析を使用して、挑戦的な素粒子物理学実験のための次世代高速放射線耐性検出器の開発を加速することを目的としています。
LDRDサポートに加えて、チームはバークレー研究所にある国立エネルギー研究科学計算センター(NERSC)のスーパーコンピューティングリソースをMatterChatの成功の要因として挙げています。「NERSCには非常に感謝しています。彼らのAI for Scienceプログラムを通じてPerlmutterスーパーコンピュータにアクセスできなければ、この研究は単に実現しなかったでしょう」とTang氏は述べています。当時NERSCの博士研究員だったWenbin Xu氏もこの研究の主要な共著者であり、バークレー研究所SDDの研究科学者であるBenjamin Erichson氏も加わり、AI for Scienceに関するAMCR-SDDのコラボレーションの利点を強調しています。
出典:Linda Vu、バークレー研究所
この記事はAIwireに最初に掲載されました。