Import AI 461:「アラインメントは軌道に乗っていない」;FrontierCode;そして合成研究インターン
今号では、AI研究の最新動向をカバー:新たな安全性スタートアップSequentは「アラインメントが軌道に乗っていない」と主張し、多様な研究ポートフォリオで超知能のアラインメントに取り組む;中国のユネスコ遺産を対象とした文化推論ベンチマークChinaHeritaQA;コード品質を重視した困難なプログラミングベンチマークFrontierCode;Xiaomiの毎秒1000トークンの超高速推論モデル;そして研究インターンの仕事をシミュレートするAARRベンチマーク。
Import AIへようこそ。AI研究に関するニュースレターです。今号は以下のトピックを扱います。
AI研究者が新たな安全性スタートアップを立ち上げ、「アラインメントは軌道に乗っていない」と主張 英国AI安全研究所のアラインメントチームとアラインメント理論スタートアップTimaeusの研究者らが協力し、新しい非営利研究組織Sequentを設立しました。目的は、超知能AIシステムの安全性に対する確信を高めるアラインメント技術を開発することです。Sequentは「人工超知能(ASI)は今後数年内に開発される可能性がある。アラインメントが同じ時間枠で準備できるかどうかは不明だ。少なくとも、AIラボでの実証プログラムがASIの訓練前にすべてがうまくいくという事前の確信をもたらす可能性は低い」と述べています。
Sequentは2年以内に40〜80人のフルタイム従業員を雇用する計画で、当初は1億〜1.5億ドルの資金調達を目指し、その後さらに大規模な調達も視野に入れています。研究アプローチは主要AIラボとは異なり、「制御可能な状況で観察されるアラインメントが、制御困難な状況でも一般化するという原則的な理由」を見つけることに重点を置いています。具体的な研究方向には、スケーラブルな監視、学習理論、ヒューリスティックな議論、ゲーム理論、ペルソナなどが含まれます。
ChinaHeritaQAで中国のユネスコ遺産知識をテスト ミュンヘン大学、FAUエアランゲン=ニュルンベルク大学、テュービンゲン大学、中山大学、コペンハーゲン大学、メリーランド大学カレッジパーク校の研究者らが、中国のユネスコ世界遺産に関する視覚言語モデル(VLM)の文化推論能力を評価するためのマルチモーダルベンチマークデータセットChinaHeritaQAを構築しました。データセットには中国の51の遺産地に関する2279枚の画像と、中国語と英語の14,133の多肢選択QAペアが含まれています。画像は中国の大手ソーシャルメディアプラットフォームである新浪微博から収集されました。質問タイプは7種類:アイデンティティ認識、視覚的グラウンディング、説明マッチング、歴史的年代区分、歴史的コンテキスト化、機能分析、建築分析。興味深いことに、オープンウェイトモデルQwen-VL-8B-Instructの正解率(81%)はすでに人間の平均(約67%)を上回っています。
FrontierCode – コード品質をテストする困難なプログラミングベンチマーク Devinの開発元であるCognitionが、新しい困難なコーディングベンチマークFrontierCodeを発表しました。このベンチマークは20人のオープンソース開発者によって手作業で構築され、150のタスクをダイヤモンド、メイン、拡張の3つの難易度に分けています。評価はコードのマージ可能性に重点を置き、正確性、テスト品質、スコープの規律、スタイル、コードベース標準への準拠をチェックします。結果は非常に困難で、Claude Opus 4.8でさえダイヤモンド難易度で13.4%のスコアしか達成できませんでした。これにより、FrontierCodeは今後も有用性を維持すると期待されています。
Xiaomiが毎秒1000トークンの超高速モデルで速度競争に参入 中国のテクノロジー企業Xiaomiが、MiMo-V2.5-Pro-UltraSpeedモデルの詳細を公開しました。これは1兆パラメータの大規模言語モデルで、毎秒1000トークンという驚異的な推論速度が特徴です。この速度は、モデルとソフトウェアスタックの協調設計、FP4量子化、ブロックレベルのマスク並列予測に基づく投機的復号法DFlash、そしてTile AIのTileRTソフトウェアを活用することで実現されました。このモデルは専用ハードウェアではなく「8GPUの汎用ノード」で動作します。このような速度は、ソフトウェアの迅速なリファクタリングなど、これまで不可能だったタスクを可能にします。
AIシステムは研究インターンが行うタスクの一部を実行可能 西安交通大学と西安電子科技大学の研究者らが、科学者の作業をAIシステムがどの程度支援できるかを評価するためのベンチマークシリーズAARR(Act As a Real Researcher)を開発しました。最初のサブベンチマークAARRI-Benchは、初級レベルの研究タスクをシミュレートします。最も性能が高かったのはClaude-Opus-4.7で、Mini-Swe-Agentフレームワークを使用して68.3%のスコアを達成しました。
以上が今号のImport AIです。ご購読ありがとうございます。