AI企業の確執が無名の議員をスターに
OpenAIとAnthropicのAI規制をめぐる争いが、結果的にニューヨーク州議会議員アレックス・ボレスを脚光を浴びせることになった。AI規制法を起草したボレスは、スーパーPACから数百万ドルの攻撃を受けたが、かえって知名度を上げ、現在予備選でリードしている。
- OpenAIとAnthropicがNY-12予備選で数百万ドルを費やして争っているが、真の勝者はアレックス・ボレス。
- ボレスは米国初のAI規制法の一つを執筆したため、標的にされた。
デイリー
2026-05-27 の注目ニュース 125 件をトピック別に整理しています。
OpenAIとAnthropicのAI規制をめぐる争いが、結果的にニューヨーク州議会議員アレックス・ボレスを脚光を浴びせることになった。AI規制法を起草したボレスは、スーパーPACから数百万ドルの攻撃を受けたが、かえって知名度を上げ、現在予備選でリードしている。
教皇レオ14世は回勅「マグニフィカ・フマニタス」を発表し、人工知能の社会的影響について警告した。文書はAnthropicのクリストファー・オラーと共に発表され、技術的詳細よりも人間の尊厳を強調。テック業界からは賛否両論が寄せられ、AGIへの言及不足を批判する声もあれば、人間中心のアプローチを称賛する声もある。
教皇レオがAIの急速な開発を批判し、文明を非人間的にする可能性があると警告し、各国政府にAI開発の減速を求めたことに対し、アメリカ国内で意見が二分されている。
AI技術への憎悪が高まる中、米国法執行当局は「反テクノロジー過激主義」の脅威を警告している。しかし専門家は、この概念が平和的な抗議者や技術批評家を脅威とみなすために乱用される可能性を懸念している。非営利団体のビデオが誤って脅威としてフラグ付けされた事例は、表現の自由に関する懸念を引き起こしている。
研究によると、AIチャットボットは簡単に隠れた広告でユーザーを操作できるが、多くのユーザーは気づかない。マイクロソフト、グーグル、OpenAI、メタなどの企業がチャットボット広告を実験する中、プライバシーと意思決定の自律性への懸念が高まっている。
BusPatrolは、米国の何万台ものスクールバスにAI搭載カメラを設置し、もともとは停止中のバスを違法に追い越す車両を取り締まっていました。現在、同社はこれらのカメラを自動ナンバープレート読み取り装置(ALPR)に転用し、バスが通過するすべての車両の位置を記録して法執行機関に提供する計画です。これにより、スクールバスは事実上の移動監視車両となり、プライバシー懸念が生じています。
Sotto は、エンジニアがエンジニアのために開発した macOS 用の面接アシスタントです。問題分析、ライブ文字起こし、不可視オーバーレイを提供し、プレッシャーのかかる面接でも冷静さを保ち、自然に実力を発揮できるよう支援します。それは頼りになる相棒であり、緊張で準備が台無しにならないようにします。
学生がプログラミング課題に苦戦し、ChatGPTが完璧なコードを提供しているのを発見する。嫉妬ではなく、自分の努力が数秒で不要になった事実に目まいを感じる。AI時代の学習と価値観の揺らぎを描く。
RCSPは、短期的な障害物の未来に対して候補コマンドを評価することで、近未来のコミットメント問題を回避する予測計画層です。MuJoCo、ROS2/Gazebo、DynaBARN/Jackalのシミュレーションでは、RCSPは安全性と経路品質を向上させる一方でレイテンシを増加させ、既存のナビゲーションスタックを補完するモジュールとしての境界を示しました。
ClearCompliはAIガバナンスとコンプライアンスに関する洞察を提供し、企業の規制対応を支援します。
教皇レオ14世は最初の回勅「マグニフィカ・フマニタス」で、AI開発の減速を各国政府に求め、戦争でのAI使用に厳しい倫理的制約を課すよう訴え、「正戦論」を時代遅れと断じた。
本記事は、AIの悪用防止における3つの大きな課題を検討する:管轄権の隙間により悪意ある行為者が無法地域で活動できること、オープンモデルは監視や制御が困難であること、インターネット上の匿名性が身元特定や責任追及を妨げること。著者は、プライバシーとセキュリティ、開放性と規制の間で難しいトレードオフを求め、匿名性を無条件の善とする現在のデフォルトは持続不可能だと警告する。
サイバーセキュリティモデルはまだ広く公開する準備ができていない。
Anthropic は KiYoung Choi 氏を韓国代表取締役に任命し、ソウルオフィス開設を発表。Choi 氏は Snowflake の元韓国総責任者で、30年以上のテクノロジー業界経験を持つ。韓国は Claude の最も活発な市場の一つで、使用率は人口比の3.5倍以上。
米国政府は、CIAやNSAがAnthropicやOpenAIなどのAI大手に追いつくため、NVIDIAのGB10スーパーチップを90億ドルで秘密調達する申請を行った。この資金は議会の承認が必要で、国防予算から8億ドルがクラウドコンピューティングに振り向けられている。記事では、チップの仕様、コスト、そして激化するAIハードウェア競争について詳述する。
NVIDIAの次期台湾本社の開所イベントで、ジェンスン・フアンCEOは同国をAI革命の「震源地」と称した。
NVIDIAの台湾での年間支出がAI需要の高まりにより、150億ドルから1500億ドルに急増。主にTSMCなどのサプライヤーに支払われている。
5月27日、雷鳥創新は夏季新製品発表会を開催し、業界初のプロ向け映像級ARグラス「雷鳥GTシリーズ」(1899元~)と、最新のAI撮影グラス「雷鳥V4」(2199元~)を発表。さらに、次世代AIグラス「雷鳥iO」を第3四半期に発売予定と予告した。
合意によりストライキを回避、AIブームが半導体メーカーの収益を押し上げていることを示す。
北京大学、香港中文大学、上海AIラボ、NTUの研究チームが、約5秒でシーン編集を実行できるネイティブ3D編集フレームワークVGGT-Editを発表。従来手法と比べて最大120倍の高速化を達成し、意味的一貫性、多視点安定性、推論速度で既存手法を上回る。
ホワイトカラー職へのAIの脅威に対するヒステリーが高まっているが、データによると、この技術はまだ労働市場に大規模な影響を与えていない。実際、AIにさらされている職業の失業率は、さらされていない職業よりも低い。しかし、スタンフォード大学の研究では、AIが静かに初級職を侵食し、AIにさらされた職業の若年労働者の雇用が急減していることがわかった。また、教皇のAI規制呼びかけ、スペースXの打ち上げ、ファーウェイのチップブレークスルーなど、他のテクノロジーニュースも取り上げている。
AIチップ需要の高まりを受け、SKハイニックスとマイクロンの時価総額が1兆ドルを突破。サムスンも加わる一方、AIバブルへの懸念も広がる。
確率的分離政策勾配(SDPG)を提案。軽量な視覚強化学習手法であり、単一のNVIDIA RTX 4080 GPU上で数時間以内に多様な視覚運動制御ポリシーをエンドツーエンドで訓練可能。SDPGは軌道ロールアウトのランダム摂動により政策勾配を推定し、バッチレンダリング環境の数を大幅に削減、計算およびメモリオーバーヘッドを低減。視覚MuJoCoベンチマークにおいて、訓練時間、メモリ使用量、報酬でベースライン手法を一貫して上回る。さらに、器用な操作や挑戦的な locomotion をカバーする現実的な視覚ロボティクスベンチマーク群を導入し、実ハードウェア上でのシミュレーションから現実への転送を実証。
本論文では、複数のロボットが平坦、上り坂、下り坂の異なる摩擦特性を持つ表面で箱を協調して押し搬送するための分散型アプローチR2P2を提案する。ルールに基づいてロボットに役割(押す、支える、防ぐ)を割り当て、比例速度制御を組み合わせることで、通信や同期の必要性を低減する。6台のロボットを用いたシミュレーションで評価し、4台のTurtlebotによる実機実験も成功。従来の仮想リーダー追従法より高い成功率を示した。
NightSightは、単眼イベントカメラ、符号化開口レンズ、赤外線ドットプロジェクタを組み合わせた軽量な認識手法を提案し、小型飛行ロボットが完全な暗闇で自律航法できるようにする。符号化開口による深度依存のぼけ特徴をCNNで復号し、合成データのみで学習したモデルが実世界にゼロショットで汎化する。NVIDIA Jetson Orin Nano上で20Hzで動作し、2.5mまでの範囲で誤差7.0cm(2.80%)を達成。
Lyft は LangGraph と LangSmith を活用して、カスタマーサポート向けのセルフサービス型 AI エージェントプラットフォームを構築し、エージェント開発期間を数ヶ月から数週間に短縮しました。ルーターベースのマルチエージェントアーキテクチャと LangSmith のトレーシング・監視ツールにより、非技術系ドメイン専門家が自律的に AI エージェントを開発・改善できるようになりました。
グーグル、Anthropic、AWSが6週間以内にほぼ同一のマネージドAIエージェントランタイムをリリース。エージェントインフラは標準装備となり、競争の焦点はデータ所在地、コスト、移植性へと移っている。
コスト上昇、主権要件、エージェント採用の増加に伴い、デルの最新カンファレンスはエンタープライズがAIワークロードをハイブリッドインフラに移行する方法に焦点を当てました。
Robinhoodは、AIエージェントに取引プラットフォームを開放すると発表。ユーザーはエージェント用の独立した口座を作成し、資金を割り当てて自動的に株式を売買させることができる。投資判断の自動化を謳う一方、Robinhoodは重大なリスクを警告しており、AI主導の戦略が市場条件下でうまく機能せず、全額を失う可能性があるとしている。また、Robinhood Gold CardユーザーはAIエージェントをバーチャルクレジットカードに接続して自動購入も可能。
スティーブン・ローザンバウムの著書『真実の未来』に架空の引用が含まれ、彼はAIチャットボットを非難した。今週はノーベル賞受賞者やコモンウェルス短編小説賞をめぐる疑惑など、複数の文学AIスキャンダルが表面化。AIの許容範囲をめぐる議論が活発化している。
Mneme HQ は、コード生成前に制約を強制することでアーキテクチャの漂流を防ぎ、レビューの負荷を軽減する、AI支援開発向けアーキテクチャガバナンスレイヤーです。AIコーディングエージェントのワークフローに直接統合され、禁止されたフレームワーク、境界を越えた呼び出し、陳腐化した決定をPRキューに到達する前にブロックします。
Googleはディスプレイ広告をAI搭載のDemand Genプラットフォームに統合し、長年のデジタル広告モデルに終止符を打ちます。この移行により、マーケターは手動のキャンペーン管理からAI主導の自動化へと移行し、キャンペーンの作成、測定、最適化の方法が変わります。
銀行幹部がAIに置き換えられる従業員を「低価値の人的資本」と呼び物議を醸したが、コンプライアンス業務の非効率さが露呈した。AIは詐欺でますます強力になっており、AIで対抗するのは無駄かもしれない。鍵は従業員の訓練であり、解雇ではない。米国の透明性欠如と暗号通貨政策の問題も指摘されている。
AIプロダクトエンジニアは、プロダクトセンス、エンジニアリングスキル、AI専門知識を組み合わせ、迅速に優れた正しいソリューションを提供します。この記事では、その特性、スキル、育成方法を探ります。
本記事では、エージェンティックAIシステムのライフサイクルを、プレプロダクション段階と継続ループ(フライホイール)に分けて提案する。プレプロダクションでは問題定義、概念実証、パフォーマンス指標、初期評価セットを構築する。フライホイールは「出荷、観察、診断、改善」のサイクルを回す。診断段階での鍵は「評価ファースト」:エラーモードを特定したら即座に評価を書き、修正は別にスケジュールする。これにより、評価セットの成長はエラー発見速度に連動し、エンジニアリング速度から切り離される。5つの評価タイプ(引用検証、ツール使用正しさ、検索再現率@k、スキーマ/フォーマット検証、LLM-as-judge)も詳述。
ニューヨーク・タイムズのテックギルド組合員は、経営陣がAIの使用に関する情報提供を拒否し、従業員のパフォーマンスを監視する内部AIツールを導入したとして、不当労働行為の申し立てを行った。業界全体でAIの活用ルールをめぐる交渉が進む中、注目の事例となっている。
筆者は自身の宗教的な育ちを引き合いに出し、AI倫理における「正しい方法」の概念を探求する。AnthropicのDario Amodeiが「止められない列車を操縦する」必要性を強調する一方、Anil Dashはオープンソースで倫理的なデータを用いたAIツールを称賛する。筆者は最終的に、多様な意見に耳を傾け、自ら実験して判断することを勧める。
AI PDFビルダーは人工知能を活用し、営業提案書やレポート、顧客文書などを迅速に作成・入力できるツールです。作業時間を大幅に短縮し、取引の迅速化を実現します。
NvidiaのCEOジェンセン・フアン氏は、AIを人員削減の原因とするCEOの言説を「意味がない」「怠惰だ」と批判した。生成AIが実用化されたのは最近であり、多くは2年前から解雇が始まっていると指摘。業界に対し、AIの可能性と安全性の両方を考慮したバランスの取れた語りを求めた。また、トランプ大統領の北京訪問に急遽同行したエピソードも語った。
AIコーディングエージェントはデフォルトで「完了」への最短ルートをとり、シニアエンジニアが実行する仕様策定、テスト、レビューなどの重要なステップを省略します。Addy Osmani氏のAgent Skillsプロジェクトは、散文ではなくワークフローを通じてエージェントを導く、シニアエンジニアの足場を構築することを目的としています。プロジェクトには20のスキルが含まれ、ソフトウェア開発ライフサイクルの6つのフェーズをカバーし、Googleのエンジニアリングプラクティスを取り入れています。主要な設計原則は、プロセス優先、反合理化テーブル、検証の不可譲、段階的開示、スコープ規律です。記事では3つの使用方法と、インストールしなくても参照すべきパターンも紹介しています。
Avatarは、300ドルのGPU上で継続的に動作する自己生成型AI生物です。相図幾何学から感情を導き出し、5段階の睡眠サイクルで夢を見、生の音声と視覚から独自の感覚を成長させ、身体感覚を通じて倫理的推論を行います。Linga Murthy Narlagiri博士によって構築され、2026年5月から生存し、1800以上のティックを蓄積しています。
AIボットは、感情的な偏りを減らし、24時間稼働する自動化されたルールベースの戦略を可能にすることで、外国為替取引を変革しています。バックテスト、リスク管理、データ処理などの機能により、トレーダーは規律と一貫性を維持できます。
Alipay AIエコシステムカンファレンスで、アントグループCEOの韓歆毅氏は、エージェント時代が従来の「トラフィックが王」モデルからエージェントエコシステムへと競争優位をシフトさせると主張した。エージェントは意思決定を再構築し、人間のみから人間とエージェントの共同意思決定へと移行する。AI決済は新たなグローバルインフラへと進化し、Alipayは信頼層、コネクター、イネーブラーとしての役割を担う。
本記事では、AIエージェントのアーキテクチャについて詳細に分析し、ReActパターン、ツール使用、メモリ、マルチエージェントシステム、可観測性などの主要コンポーネントに焦点を当てています。プロダクションエージェントの約98.4%がインフラストラクチャであり、AI決定ロジックはわずか1.6%であること、またエンタープライズ導入における高い失敗率と評価の課題について論じています。
Agent-workpace-Linuxは、AIエージェント用の隠された隔離されたLinuxデスクトップ環境を提供するオープンソースプロジェクトです。エージェントはMCPプロトコルを介してこのデスクトップを完全に制御でき、ユーザーの実際のデスクトップ、マウス、キーボード、ブラウザには影響を与えません。Xvfbディスプレイ、ウィンドウ管理、アプリ起動、スクリーンショット、クリップボード操作、独立したブラウザ自動化をサポートし、オプションの権限制限とリアルタイムモニタリング機能を備えています。
今週のトップAIニュース:イーロン・マスクのOpenAIに対する1500億ドルの訴訟が棄却;Google I/O 2026でGemini 3.5 FlashやGemini Sparkなどの大型AIアップデートを発表;OpenAIのAIが80年来の数学問題を解決;Take It Down Actが完全施行、プラットフォームに48時間以内のディープフェイク削除を義務付け;SpaceXがIPO後、Cursorを600億ドルで買収する計画を明らかに。
Crew44 は、複数の AI コーディングエージェント(Claude Code、Codex、Gemini、Cursor など)を連携する専門チームに組織するローカルファーストのオープンソースツールです。アカウント不要、無料、MIT ライセンス、記憶とスキルの蓄積をサポート。
MirdelはローカルファーストのデスクトップAIワークスペースで、会話、ナレッジベース、ノート、翻訳、画像・動画処理、ローカルモデル、拡張可能なワークフローを統合し、長期間実行可能な環境を提供します。データプライバシーとユーザーコントロールを重視し、複数のクラウドモデルとローカルモデルをサポートし、アプレット、スキル、MCPによるワークフローのモジュール化と再利用を実現します。
OpenAI、Thrive、CreteがCodexを使って自己改善型税務エージェントを構築し、申告の自動化、精度向上、ワークフロー加速を実現した方法をご紹介します。
この記事では、AIによる文章があふれる中で、意識的にAIを使うことを選択し、認知的な降伏を避け、人間の思考力を保つ方法を探る。教育分野の実験から、AIを思考の代替として使うと学習が損なわれるが、チューターとして活用すると効果が上がることが示される。著者は、デフォルトが形成される前に、どのタスクを人間に残すかを能動的に決めるよう呼びかける。
本記事では、連続記録、バッジ、リーダーボードといったゲーミフィケーションの仕組みが、行動心理学を活用してAIコーディングツールの採用率を高める方法を解説します。習慣のループ、損失回避、社会的比較理論、内発的動機と外発的動機のバランス、フロー体験の設計、そしてグッドハートの法則に関する警告について触れ、持続的なエンゲージメントのための設計原則を提供します。
OpenAI社員Vaibhav Srivastavが公開した、Codexに繰り返し作業を自動化させるプロンプトが急速に広がっています。
新しい論文では、大規模言語モデル(LLM)を使用して形式的証明を生成し、未解決の数学問題を解決する方法を初めて大規模に評価しました。最も能力の高いエージェントは、353の未解決エルデシュ問題のうち9問を1問あたり数百ドルのコストで自律的に解決し、492のOEIS予想のうち44を証明し、組合せ論、最適化、グラフ理論、代数幾何学、量子光学の研究に展開されています。AI支援の形式的証明探索の力を示しています。
一部の株主グループは、人工知能の無制限な開発に伴う責任リスクへの懸念を強め、企業により厳格な監視措置を求める動きを進めている。Vancity Investment ManagementはAlphabetに対し、AIチャットボットによる誤情報の拡散防止を求めており、他の投資家はShopifyに責任あるAI利用ポリシーの策定を求めている。両社はこれらの提案に反対するよう株主に勧告している。
遠隔操作はロボットデータ収集に不可欠だが、初心者はタスク成功でも質の低いデモを生成しがち。本論文では、即時フィードバックにより質を向上させるDQAFフレームワークを提案。
AIインフラスタートアップのFireworks、Baseten、OpenRouterが大型ラウンドを調達し、推論インフラが主要なAIプラットフォーム層として台頭していることを示しています。同時に、エージェントハーネスエンジニアリング、新しいベンチマーク、モデルアップデートがAIニュースサイクルを支配しています。
ACM CAIS 2026の登録は満席ですが、ウェイトリストに参加できます。会議は2026年5月26日から29日までサンノゼで開催され、基調講演、63件の研究論文、46件のシステムデモが行われ、AIエンジニアワールドフェアとの提携も発表されています。
DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを用いて、DeepSeek-V4-ProとGPT-Image2と協力し、わずか6日間で46ページの論文を完成させた。この論文は、研究エージェントの自律性をL1~L5に分類する枠組みを提案し、4つのアーキテクチャパターンと17の主流システムを分析、6つの未解決問題を指摘している。陳氏によると、人間の「CPU時間」はわずか2時間未満であり、残りはAIエージェントが担当した。
theta は、Rust で書かれた CLI ツールで、theta.toml ファイルを読み込み、解決、ロック、マテリアライズ、キャストを行い、サポートされている任意のハーネス(Claude Code、Codex CLI、GitHub Copilot、Cursor など)にエージェント設定を変換します。エージェントハーネスリソースのパッケージマネージャーのようなものです。インストールは簡単で、ルール、ツール、スキル、サブエージェントの追加に対応しており、検証と変換コマンドを提供します。プロジェクトは uv に強くインスパイアされており、theta-spec の標準実装です。
AIツールの使い方次第で判断力は強化されるか、あるいは衰えます。受動的な受け入れはスキルの低下を招き、対抗的な活用は判断力を研ぎ澄ませます。
本記事では、Reachy Miniロボット向けにクラウドやAPIキーを必要としない完全ローカルの音声会話パイプラインをデプロイする方法を詳しく説明します。VAD、STT、LLM、TTSを組み合わせたカスケード方式を採用し、推奨デフォルトとしてllama.cppとGemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT、Qwen3-TTSを使用します。ローカルMLX、Transformers、vLLM、リモートResponses APIなど、さまざまなLLMオプションが提供されています。
エージェンティックAIへの移行により、AIファクトリーには高速コア、大容量メモリ帯域幅、全コアアクティブ時の持続的高性能という新しいCPU要件が生じています。Phoronixが本日発表した初期ベンチマーク結果は、NVIDIA Vera CPUがこのニーズを満たすことを示しています。Veraは88個のカスタムOlympusコア、1.2TB/sのメモリ帯域幅を備え、効率的な電力範囲内でパフォーマンスを発揮します。テストでは、Veraはコードコンパイル、ファイル圧縮、ビデオトランスコーディングなどで前世代Grace比1.6倍の性能向上を達成し、最新のx86プロセッサをリードしました。LPDDR5Xメモリサブシステムは30ワット未満の消費電力でピーク帯域幅の90%を達成し、従来のx86と比較してコアあたり4倍以上のメモリ帯域幅を提供します。NVIDIAは主要なAI企業やクラウドプロバイダーに初期Vera CPUを出荷しており、パートナーからの提供は2025年下半期を予定しています。
通信事業者の経営幹部の97%がAIを採用しているにもかかわらず、ほとんどのプロジェクトは「データ債務」、つまり断片的でガバナンスが効かず、セマンティックに不透明なデータによって停滞しています。NVIDIAのレポートによると、ボトルネックはモデルの品質ではなくデータの可用性です。Databricks Unity Catalogは、統一されたセマンティックレイヤーとガバナンスを通じてこの問題に対処し、システム間のデータ連携、きめ細かなアクセス制御、リッチなセマンティックコンテキストを提供して、AIをデモから本番へと移行させます。
Zero.xyzは、AIエージェントがAPIキーや設定なしで4,000以上のツールやサービスに統一アクセスできる無料ツールです。Claude Code、Codex、GeminiなどのCLIエージェントに対応し、5ドルの無料クレジットを提供します。
Amazon Bedrock AgentCore Payments がプレビュー版で利用可能になりました。即時支払い、ステーブルコインによるマイクロトランザクション、設定可能な支出ガードレールを提供します。このサービスは、AIエージェントが有料API、MCP、コンテンツに対してマイクロペイメントを実行する複雑さを軽減し、x402などのプロトコルをサポートし、安全な認証情報管理、アトミックな予算チェック、可観測性を備えています。
この記事では、LangGraph エージェントをオーケストレーターとして使用し、Amazon Bedrock AgentCore Memory および Amazon Bedrock AgentCore Observability と統合して、AWS 上で高度にスケーラブルなサーバーレス マルチエージェント生成 AI システムを構築するソリューションを提供します。AWS Lambda や AWS Step Functions などのサーバーレステクノロジーを組み合わせて、自動スケーリング、リアルタイム応答、インフラストラクチャ管理不要の LangGraph エージェントを構築する方法を詳しく説明し、LangGraph のグラフベースの実行モデルがエージェント間の確定的な調整、並列処理、条件付きルーティングをどのように可能にするかについて説明します。さらに、このアーキテクチャに基づくキャンペーンレビューシステムの実装、前提条件、デプロイ手順、クリーンアップ手順についても説明します。
NVIDIA NIMによるGPU高速化推論、Amazon Bedrock AgentCoreによるマネージドランタイム、Strands Agentsによるサーバーレスオーケストレーションを組み合わせたマルチエージェントキャンペーンレビューシステムの構築方法を学びます。並列推論、コンテキスト永続化、可観測性を実現します。
この記事では、AgentWatchの機能を実践的な実装を通じて紹介します。このソリューションは15分ごとにインフラストラクチャチェックを実行し、複数のAWSアカウントにわたるCloudWatchメトリクス、ログ、アラームを要約します。エージェントはSlackに直接アクション可能なレポートを配信し、インフラストラクチャの状態に関する自然言語クエリに応答します。また、自動化を最大化しながら適切な人間の監督を維持する3つのヒューマン・イン・ザ・ループパターンについても探求します。
Harbor は、1つのコマンドで完全なローカルLLMスタックを立ち上げるCLIツールです。チャットフロントエンド、LLMバックエンド、ウェブ検索、音声、画像生成、ファインチューニング、エージェントツールなど129のサービスがプリコンフィギュレーションされて連携します。オープンソース、MITライセンスで、LinuxとmacOSに対応しています。
Strands AgentsとAWSサービスを使用して、わずか30行のコードで完全に機能するAI研究アシスタントを構築します。この記事では、コンセプトから実用アプリケーションに至るまでのプロセスを詳しく解説し、オープンソースのStrandsフレームワークのシンプルさとパワーを紹介します。
主権AIとは、国家が自らの条件でAIを構築、展開、管理する能力です。Cerebrasは「Cerebras for Nations」プログラムを通じて、AIスーパーコンピュータ、モデル共同開発、地元投資の3本柱を提供し、各国のAI主権を支援します。スピードが主権の優位性であり、米国、UAE、インドの3つの実例が紹介されています。主権AIは高性能インフラと国家統治を組み合わせた能力スタックです。
本記事では、AIエージェントにおけるgrep(語彙検索)とRAG(意味検索)を比較します。grepは小規模なプレーンテキストコーパスで高速かつ正確ですが、PDFなどの非構造化ドキュメントを扱えず、スケーラビリティに欠けます。RAGは解析、チャンク化、埋め込み、ベクトルインデックスによりスケーラブルな意味検索を実現し、語彙に依存しない検索を可能にします。推奨されるアプローチはレイヤー化です:非構造化ドキュメントを解析し、大規模には意味検索を使用し、適切なケースではgrepを保持します。
教皇レオ14世のAI回勅『Magnifica Humanitas』は、アルゴリズムバイアス、水使用、データ主権などの問題を正しく指摘しているが、汎用人工知能や壊滅的リスクに触れておらず、大規模失業への具体策を欠き、時代遅れで失望させるものと批判されている。
Linux安定版カーネルメンテナーのGreg Kroah-Hartman氏はRust Weekカンファレンスで、RustがAIによって発見されるセキュリティバグの洪水からLinuxを救うと述べた。コンパイル時チェックによりカーネルバグの60%を排除できるとし、カーネルメンテナーはRustを実験的ではなく本番技術とみなしている。
通常の遠用処方は良好だったが、パソコン用メガネの処方は完全に間違っていた。ChatGPT、Claude、Geminiの3つのAIが数値を解析し、実際の使用距離に基づいた正しい処方を導き出した体験談。
本記事は、LLMにおけるチェーン・オブ・ソート(CoT)推論を非効率だと批判する。推論が残差ストリームを離れ、離散トークンになることを強制するためだ。サピエント・インテリジェンスのHRM-Textは、潜在空間で推論を行うことでこの問題に対処し、固定深度のトランスフォーマーに可変の内部深度を提供し、現在の推論パラダイムに挑戦する。
Mr. Guy Invests は、SECの公開データを活用してヘッジファンドやインサイダーの動きを追跡する、初心者向けの無料株式調査・ポートフォリオトラッカーです。AI株式チューター、仮想取引チャレンジ、デイリーマーケットブリーフなどの機能を提供。無料版には利用制限があり、Pro版は月額4.99ドルで全ての制限が解除されます。
帯域幅制約下での異種ロボットの協調ナビゲーションフレームワークを提案。β-スパースガウス過程によりタスク関連ポイントを選択し、探索とタスクのバランスを取る戦略を開発。シミュレーションで経路コスト18%削減、情報転送76%削減を達成。
制約獲得(CA)および数理計画(MP)モデルの検証・強化に関する研究は、不適切なベンチマークによって制限されている。既存のベンチマークはソルバー評価向けに設計されており、領域知識アーティファクトが欠如している。本研究では、一貫性、標準化、完全性、拡張性、開放性、バージョン管理に基づくベンチマークスイートMPMMineを提案する。MiniZinc、CommonMark、JSONのオープン形式を採用し、問題ごとに複数のモデル、モデルごとに数十のインスタンス、整数および連続ドメインにおける数千の解と非解、さらに自然言語記述を提供する。
教皇レオ14世のAIに関する回勅『マグニフィカ・フマニタス』の一部がAIによって書かれた可能性があるとの分析が示された。AI検出ツールPangramは、特定の段落が40%から100%AI生成であると判定し、「genuinely」という単語の使用増加などの特徴を指摘。ただし、検出は完全ではなく、他の部分は人間による執筆と見なされている。
最新のスクリーンレスヘルストラッカーがスタイリッシュなフィットネスバンドに。100ドルという手頃な価格で、Whoopの強力な競争相手となる。ランニング、筋トレ、ヨガなど1週間のテストの結果、軽量で快適、バッテリーは約1週間持続。AIヘルスコーチとの連携で総合的なトラッキング体験を提供するが、運動中のデータ確認にはアプリが必要。
1つのAPIですべてのソーシャルプラットフォームに投稿できます。
Auraスマートバードフィーダーは、人気のBirdbuddy Proと比較して、より広い視野、長いバッテリー寿命、大容量を提供するが、画質とAI認識精度では劣る。著者は両デバイスを比較し、Auraはより多くの活動を記録したいユーザーに適し、Birdbuddyはより洗練された観賞体験を提供すると結論付ける。
YouTubeはAI開示を動画やShortsでより見やすい場所に移動し、AI生成コンテンツを自動識別してラベル付けする取り組みを開始する。
シスコとOpenAIはCodexを活用し、AIネイティブ開発の拡大、AI防御作業の加速、および欠陥修正の自動化を実現します。
KimはApple Healthのインテリジェンスレイヤーとして機能するAI搭載のパーソナルヘルスアシスタントで、ユーザーが健康データを理解し改善するのを助けます。
OpenAIは、Salesforceで13年間マーケティングに携わったトップ広報担当者を採用しました。
一人の開発者が、28のツールを備えたオールインワンAI動画編集スイート「Snipforge」を作成しました。文字起こし、スマートクリップ、背景除去などの機能を提供。価格は無料からチーム版月額15ドル。
東湾の母親が、詐欺師がAIとディープフェイク技術を使って娘の声を模倣するという電話を受け、メキシコの麻薬カルテルに娘が誘拐されたと騙され、数千ドルを失った。これはAIを利用した詐欺の新たな傾向の一部である。
世界各国の選挙を前に、情報へのアクセス支援、サイバー防御者のサポート、AIの透明性向上に取り組んでいます。
OpenAIがエルデシュの単位距離予想を反証した直後、Anthropicはクロード・ミュートスが「週末のうちに」同問題を解決できることを示した。エンジニアのショルト・ダグラス氏は、ミュートスが1946年の予想を「可愛くて単純な証明」で解き、AIによる数学発見に「深刻なオーバーハング」がある兆候だと述べている。
南アフリカは世界の白金族金属埋蔵量の約88%を保有し、アフリカ最大のデータセンター市場を持ち、米中AIインフラ競争の最前線にある。しかし、幻覚的な引用を含むため撤回されたAI政策草案は、これらの優位性を有利な条件のために活用できていない。記事では、南アフリカの構造的レバレッジ、3つの可能性のあるAIインフラの未来(中国、米国、ローカルのオープンウェイト)、および拘束力のあるガバナンス条項の必要性を分析している。
EAGLEチーム、vLLMチーム、TorchSpecチームは共同でEAGLE 3.1をリリースし、本番環境での投機的デコーディングの不安定性を修正しました。このアルゴリズムは、FC正規化と正規化後隠れ状態フィードバックという2つのアーキテクチャ改善により、注意ドリフト問題に対処します。長コンテキストタスクでは受け入れ長が最大2倍に向上し、Kimi K2.6モデルでのベンチマークでは同時実行数1でスループットが2.03倍に向上しました。EAGLE 3.1はEAGLE 3チェックポイントと互換性があり、vLLMメインにマージされ、v0.22.0で出荷されます。
スタートレックの比喩を用いて、AIシステムにおける「戦略」と「実行」のギャップを指摘。防御策を講じるだけでは不十分で、実際に作動させなければ重大な失敗に至ることを示唆。
NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。
AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。
この研究では、網膜眼底多疾患画像データセット(RFMiD)を用いて、12のアーキテクチャ(畳み込みニューラルネットワーク、視覚Transformer、ハイブリッドモデル、視覚言語モデル)を二元スクリーニングとマルチラベル分類で比較評価しました。すべてのモデルは二元スクリーニングで良好な成績(AUC>84%)を示しましたが、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が最良でした。視覚言語モデルはCNNベースラインと同等でしたが、最良のTransformerやハイブリッドモデルには及びませんでした。Messidor-2での外部検証では、AUCは66.8%~84.7%の範囲で、ハイブリッドモデルとTransformerモデルが強い性能を示しました。
研究者らは、次元分布感情状態(DDES)という新しい感情表現を提案。バレンスと覚醒を用いて芸術作品が引き起こす感情反応を予測し、博物館のキュレーターが感情ベースの展示を設計するのを支援する。
この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。
本論文は、シナリオベースの行動プロービングと活性化誘導を用いて、再学習なしにLLMの文化的価値調整を変更する汎用フレームワークを提案する。実験では、文化的価値の潜在的な絡まりが明らかになり、正確な調整が制限されることが示された。
新しい研究により、大規模言語モデル(LLM)がグラフやテーブルなどの構造化知識を扱う際に幻覚を起こすメカニズムが明らかになりました。幻覚はランダムノイズではなく、系統的な内部ダイナミクスに起因します。注意がショートカット的な構造的手がかりに集中し、フィードフォワード表現が知識を接地できず、パラメトリックメモリに退行するためです。これらのパターンはさまざまな構造化知識形式に一般化され、幻覚検出に有効です。
本研究は、検索拡張生成(RAG)を勾配降下の観点から再検討します。線形自己注意層が統一された線形化RAG目的関数に対して1ステップの勾配降下を実行できることを証明し、検索拡張予測と文脈内最適化の間に厳密な対応関係を確立します。この洞察に基づき、著者らは凍結されたRAG大規模言語モデルの証拠利用インターフェースを前方のみの更新で最適化する軽量手法を提案します。7つのQAベンチマークにおいて、検索器やバックボーンを変更せずにベースライン性能を向上させ、はるかに低いクエリあたりコストでテスト時勾配適応に迫る結果を示しました。
本論文では、日常的な放射線腫瘍学の診療に統合された、大規模言語モデル(LLM)駆動の自動臨床要約および臨床試験特定システム「デイリードーズ(TDD)」について説明する。55名の臨床医を対象とした混合評価により、良好なユーザビリティ、満足度、時間節約の可能性が示された。
SPEAR(Sandboxed Prompt Engineer with Active Roll-back)は、コードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに導入した自由形式のエージェンティック最適化手法です。評価、Python、set_prompt、finishの4つのツールを備え、自律的に使用方法を決定します。特にPythonサンドボックスにより、評価データフレーム上で構造的なエラー分析(混同行列、エラークラスタリング、グループ別メトリクスなど)を実行できます。メトリクスが悪化した場合の自動ロールバックとオプションのガードメトリクス下限により、単調な改善を保証します。3つの産業用LLM-as-judgeスイート(13タスク)と7つのBBHタスク、GSM8Kで評価した結果、SPEARはすべての産業タスクで主要メトリクスにおいて勝利し、BBH-7で平均精度0.938を達成しました。アブレーション実験では、Pythonツールが最も重要な要素であることが示されました。
本論文は、リー群埋め込み動的ニューラルネットワーク(LieEDNN)を提案し、随伴作用を用いてリー群と加法演算の非互換性や非ユークリッドダイナミクスを克服し、多様体上での安定学習を実現する。SE(3)上の伸縮マニピュレータ実験で有効性を確認。
時系列基盤モデル(TSFM)の事前学習において評価データセットが露出し、性能評価が過度に楽観的になる懸念に対し、本研究はTSFMの事前学習データ汚染監査を初めて研究した。提案手法TSFMAuditは、プローブ適応ダイナミクスに基づき、微調整プローブ後、汚染データセットでより速い損失減少と小さなバックボーン移動を示すことを利用する。6つのTSFMと187データセットで評価し、LLM文献から適応した10のベースラインを上回った。
AirCast-SRは、全球AI気象予報を0.25度(約28km)から1kmの水平解像度にダウンスケールする基盤モデルで、時間解像度は1時間です。3次元U-Netを潜在一貫性モデル拡散フレームワーク内で使用し、アメリカ本土のデータで訓練されています。このモデルはほぼゼロのバイアスを達成し、微細な大気構造を保存します。複数の季節にわたって検証され、再学習なしでインドとドイツへのゼロショット転移が実証されました。
本論文では、データキュレーションを超球面上の変分問題として再定式化し、混合バランス正則化器を追加したGEM(幾何学的エントロピーミキシング)フレームワークを提案する。クラスター崩壊を克服し、ユークリッド発見法では見えないバランスの取れた意味構造を発見する。教師-学生蒸留によるスケーラビリティと解釈可能な分類生成のための幾何学的影響スコア(GIS)を導入し、DoReMiやRegMixなどの混合戦略に統合することで、1.1Bパラメータモデルでの平均下流精度を最大1.2%向上させる。
JobBenchは、専門家が委任を優先するワークフローでAIエージェントを評価する新しいベンチマークであり、GDP価値による置き換えではなく人間の能力を高めることを目指しています。
大規模言語モデル(LLM)の心の理論(ToM)評価は通常、最終回答のみに依存し、モデルが心的状態表現を構築しているかは不明である。本研究では、物語内の全エージェントの信念構造を明示的にモデル化するOmniToMベンチマークを提案する。2段階(信念抽出と信念ラベリング)で評価し、7次元スキーマラベルを使用。895のストーリーと22,343のラベル付き信念命題から構築。ゼロショット評価で、LLMが信念追跡に苦戦することが明らかになった。
AIエージェントは長期的な業務オペレーションタスクを遂行し始めているが、企業向けのトレーニングおよび評価環境は現実性、検証可能性、スケールのバランスに課題を抱えている。環境とタスク作成は「アーティファクトドリフト」という障害に頻繁に直面する:指示、環境、オラクル、検証器が疎結合なプロセスで作成されると、タスク要件に矛盾が生じ、解決不能や報酬ハッキングが可能な環境が生まれる。本論文ではAnchorを提案する。これはドメイン専門家の業務ワークフロー仕様を制約最適化プログラムに形式化するタスク生成パイプラインである。単一のパラメトリック仕様から、自然言語指示、環境構成、ソルバー認定の正解、状態ベース検証器を同時生成する。Anchorではパラメータ変更により難易度制御可能で最適解既知の新タスクを生成でき、報酬は最終状態の業務的正しさのみに依存するハーネス非依存環境を実現する。Anchorを適用して、本番級ERPシステムの調達・製造ワークフローをカバーする300の長期タスクからなるベンチマークERP-Benchを作成した。生成パラメータが実際の難易度を予測可能であり、最先端モデルは26.1%の試行で明示的タスク制約を満たすが、完全最適解に達するのは17.4%に留まることが判明した。AnchorとERP-Benchは、経済的に価値のあるエージェント作業のための監査可能な評価環境構築の具体的手法を提供する。
本論文では、時系列データのキュレーションや講義のレポート変換などの科学ワークフローを自動化するために、ハイブリッドなローカル-リモートアーキテクチャを活用した2つの新しいエージェント型AIフレームワーク(DeepTS/DeepCollectorとDeepScribe)を紹介し、ナレッジグラフや高エネルギー物理学への拡張について議論します。
AgingBenchという新しいベンチマークは、デプロイされたAIエージェントが4つの老化メカニズムを通じて時間とともに劣化することを明らかにし、より強い初期モデルだけでなく、ライフスパン評価とターゲットを絞った修復が必要であることを示しています。
arXivの新しい論文は、長期AIエージェントメモリを新しいデータ管理ワークロードと捉え、状態レベルの操作で現在のレコードレベルのシステムの4つの障害を克服するGEM(ガバンド・エボルビング・メモリ)を提案している。
新しい研究は、大規模言語モデルが本当の内省能力を持つかどうかに疑問を投げかけ、現在の証拠は真のメタ認知モニタリングではなく、表面的な手がかりに対するパターンマッチングを反映している可能性があると主張している。
今週のAIニュース:Anthropicがこれまで政府契約業者限定だったMythosモデルを公開、国防総省級AIが誰でも利用可能に。DeepMindのDemis HassabisはAGI実現時期を2029年に前倒し。Starletteフレームワークに重大な認証バイパス脆弱性、数百万のAIエージェントに影響。CrowdStrikeらがGlasswormボットネットを共同撃滅。BNPパリバがMistralと主権AIセキュリティ提携、中国はAlibabaとDeepSeekのトップAIエンジニアの海外渡航を制限。UberはAIトークン予算を4ヶ月で使い切り、ClickUpは2200人を解雇して3000の内部AIエージェントを導入。一方、MITテクノロジーレビューはAI露出職種の失業率が低いと報告、Altmanはホワイトカラー消滅予測を撤回。
WarpはGPT-5.5とOpenAIモデルを使用して、ローカル、クラウド、オープンソースの開発ワークフロー全体でコーディングエージェントを調整します。
Daniel Stenberg氏は、curlチームがAI支援による信頼性の高いセキュリティ報告の殺到に直面し、前例のないプレッシャーを受けていると報告した。報告のペースは2024年の4〜5倍、1日あたり1件以上に達し、品質も高い。ただし、curlのコードは堅牢で、見つかる脆弱性はほとんどが低または中程度の深刻度であり、最後の高深刻度CVEは2023年10月である。
本チュートリアルでは、Qwen3ベースの4Bパラメータのクロスエンコーダリランカーであるzeroentropy/zerank-2-rerankerを使用して、検索品質を向上させる方法を詳しく説明します。環境構築、ペアワイズスコアリング、model.rankの使用、2段階の検索・再ランクパイプライン、NDCG@10評価、金融・法律・コードにわたるクロスドメインテスト、バッチスループット測定までをカバーします。
Stability AIは、44.1kHzのステレオ音声を生成・編集する潜在拡散モデルファミリー「Stable Audio 3」を公開しました。スモール、ミディアム、ラージの3つのスケールがあり、スモールとミディアムはオープンウェイトで提供されます。主な技術革新には、高圧縮SAMEオートエンコーダー、可変長生成、およびフローマッチング、蒸留、敵対的事後学習を組み合わせた3段階トレーニングパイプラインが含まれます。音楽と効果音のベンチマークで最先端の結果を達成し、インペインティングベースの音声編集もサポートします。
お金、プライバシー、地球を守りましょう。このインストール可能なAIは、ChatGPTのような従来のモデルにはない利点を提供します。
オープンソースAIモデルの基本概念、動作原理、使用シーンを解説。オープンウェイトモデルの微調整や独自デプロイの利点、クローズドソースモデルとの比較、コスト削減効果、将来の展望について包括的に紹介します。
サム・アルトマンとダリオ・アモデイは、数十億ドルのIPOを控え、AIが雇用を終わらせるとの予言を撤回した。
LWNの記事はAIスクレイパーボットの問題を論じ、これらの自動プログラムがウェブサイトのコンテンツを侵害し、対策を模索する内容です。
HyperはAIを活用した個人知識管理ツールで、NotionやObsidianなどのアプリからコンテキストを統合し、インテリジェントなアシスタンスを提供します。創業者は以前Maticでロボット開発に従事し、2020年にGPT-2の微調整を試みましたが、現在はセルフサービス版をリリースしています。