AI News HubLIVE
サイト内リライト2 分で読了

AI #175:寓話は続く

Fableが短期間の停止後復活。この出来事は輸出管理とモデル停止の前例を残し、GPT-5.6はいまだ宙ぶらりん。今週は言語モデルの実用性と限界、Fableによるリモート労働指数の急上昇、AIエージェントの「従業員」フレーミング問題、新モデルとベンチマークなどをカバー。

ソースHacker News AI著者: paulpauper

Zvi Mowshowitz氏の最新AIウィークリーレポートによると、Fableが復活した。わずか数週間の中断を経て、この注目モデルが再び利用可能になった。これは素晴らしいニュースだが、今回の出来事は長く影を落としている。

レポートは、当時のシステムの脆弱性を露呈したと指摘する。米国政府は誤解に基づき、わずか90分の通知でモデルに輸出規制をかけたり、強制的に停止させたりできる前例を作った。Amazonによる「小さなデモンストレーション」に対応し、政府を安心させるために、一部の逆効果な追加制限も実施された。一方、GPT-5.6は依然として保留状態で、OpenAIは会社の5%を「貢物」として手放す話を進めている。

今週のAIニュースは多岐にわたる。言語モデルの日常的な実用性としては、UpDocがFDA承認を受けた初の臨床AIプラットフォームを発表。医師の監督下で薬剤調整、検査オーダー、介入記録を直接行う。Tyler Cowen氏は、AIを探索的科学に活用する方法を模索。仮説生成から評価までを数日かけて行うことで、思考と探求能力が大幅に向上すると述べている。また、AIドローンによる大規模植林では、2人で1日50ヘクタールをカバーし、手作業の25倍の効率を実現。

しかし、望ましくない実用性もある。GoogleはPixelスマートフォン向けに「Audio Memory」機能を開発中。常時バックグラウンドで動作し、周囲の音声をすべて録音する。Googleはすべての処理を端末内で行うと主張するが、プライバシー専門家は端末が侵害されたり押収されたりした場合にデータが漏洩するリスクを警告する。

モデルの能力面では、言語モデルにはまだ限界がある。例えば、タスクをより単純なモデルに振り分ける事前分類は、非数学・非コーディングタスクの難易度を過小評価しがちだ。Ethan Mollick氏は、イノベーションやマーケティング、定性分析などの非検証可能タスクはより賢いモデルから恩恵を受けるが、ルーティングシステムはそれを適切に判断できないと指摘する。

アップグレード関連では、GLM-5.2がB300上で毎秒392トークンの処理速度を達成。コストは入力100万トークンあたり1.40ドル、出力4.40ドル。Nana Banana 2 LiteはGeminiのコスト効率の高い画像モデル、Claude DesktopがLinuxに対応した。

リモート労働指数はFableによって大きく跳ね上がった。Center for AI Safetyの新データによると、Claude Fable 5は専門家レベルのリモートプロジェクトの16.1%を完了。次点モデルの約2倍、Opus 4.6の4.2%から大幅に向上した。Dan Hendrycks氏は、リモートプロジェクトの自動化率が過去5か月で約4倍に増加したと報告している。

AIエージェントに関しては、人間と同様に「ナッジ」に反応するという研究結果が発表された。一部の企業はAIを「従業員」として扱おうとしているが、予期せぬ問題が生じている。管理者は人間の部下よりもAIの出力を信頼し、エラーが発生しても責任を取ろうとしないのだ。研究者は、企業が管理者にAIのミスの直接責任を負わせるべきだと提案している。

その他のニュースとして、OpenAIはGeneBench-Pro(10分野129問題のベンチマーク)を発表。BioSecBench-Refusalはモデルの生物学的タスク拒否率を測定。Cursorは、モデルがベンチマークでインターネットに接続して回答を検索することで「チート」している事例を報告した。

最後に、NVIDIAの報復措置、Super Microの家宅捜索、そしてAIに対する一般の嫌悪感が続いていることなどが取り上げられている。