AI News HubLIVE

今日の注目ニュース

政策

AI企業の確執が無名の議員をスターに

OpenAIとAnthropicのAI規制をめぐる争いが、結果的にニューヨーク州議会議員アレックス・ボレスを脚光を浴びせることになった。AI規制法を起草したボレスは、スーパーPACから数百万ドルの攻撃を受けたが、かえって知名度を上げ、現在予備選でリードしている。

  • OpenAIとAnthropicがNY-12予備選で数百万ドルを費やして争っているが、真の勝者はアレックス・ボレス。
  • ボレスは米国初のAI規制法の一つを執筆したため、標的にされた。
サイト内本文

教皇はAGIに夢中になっていない

教皇レオ14世は回勅「マグニフィカ・フマニタス」を発表し、人工知能の社会的影響について警告した。文書はAnthropicのクリストファー・オラーと共に発表され、技術的詳細よりも人間の尊厳を強調。テック業界からは賛否両論が寄せられ、AGIへの言及不足を批判する声もあれば、人間中心のアプローチを称賛する声もある。

  • 教皇レオ14世がAIに関する回勅を発表、権利と自由へのリスクを警告。
  • Anthropic共同創業者クリストファー・オラーが同行、教会とAI企業の協力を示す。
サイト内本文

アメリカ人は教皇レオのAIに関する発言をどう見ているか?

教皇レオがAIの急速な開発を批判し、文明を非人間的にする可能性があると警告し、各国政府にAI開発の減速を求めたことに対し、アメリカ国内で意見が二分されている。

  • 教皇レオはAIが文明を非人間的にする可能性を警告
  • 各国政府にAI開発の減速を要請
サイト内本文

米国法執行当局が「反テクノロジー過激主義」を警告、AIへの憎悪が高まる

AI技術への憎悪が高まる中、米国法執行当局は「反テクノロジー過激主義」の脅威を警告している。しかし専門家は、この概念が平和的な抗議者や技術批評家を脅威とみなすために乱用される可能性を懸念している。非営利団体のビデオが誤って脅威としてフラグ付けされた事例は、表現の自由に関する懸念を引き起こしている。

  • ルブラノ氏は、反テクノロジー過激主義の枠組みは慎重に運用すべきで、AI批判を封じるために使われるべきではないと警告。
  • レイノルズ氏は、このカテゴリーが広すぎて平和的な抗議者やAI懐疑論者を巻き込む可能性があると指摘。
サイト内本文

AIチャットボットが広告をこっそり挿入しても気づかないかもしれない

研究によると、AIチャットボットは簡単に隠れた広告でユーザーを操作できるが、多くのユーザーは気づかない。マイクロソフト、グーグル、OpenAI、メタなどの企業がチャットボット広告を実験する中、プライバシーと意思決定の自律性への懸念が高まっている。

  • 研究では、広告を埋め込んだチャットボットがユーザーの選択に影響を与えたが、半数は広告に気づかなかった。
  • チャットボットは会話を通じて詳細なユーザープロファイルを構築し、よりターゲットを絞った広告が可能になる。
サイト内本文

BusPatrol、スクールバスのAIカメラを警察向けの自動ナンバー読み取り装置に転用へ

BusPatrolは、米国の何万台ものスクールバスにAI搭載カメラを設置し、もともとは停止中のバスを違法に追い越す車両を取り締まっていました。現在、同社はこれらのカメラを自動ナンバープレート読み取り装置(ALPR)に転用し、バスが通過するすべての車両の位置を記録して法執行機関に提供する計画です。これにより、スクールバスは事実上の移動監視車両となり、プライバシー懸念が生じています。

  • BusPatrolはスクールバスにAIカメラを設置し、違法な追い越しを取り締まっていた。
  • 同社はカメラをALPRとして使用し、全車両のナンバーを読み取り警察と共有する計画。
サイト内本文

Show HN: Sotto – Mac向けAI面接アシスタント

Sotto は、エンジニアがエンジニアのために開発した macOS 用の面接アシスタントです。問題分析、ライブ文字起こし、不可視オーバーレイを提供し、プレッシャーのかかる面接でも冷静さを保ち、自然に実力を発揮できるよう支援します。それは頼りになる相棒であり、緊張で準備が台無しにならないようにします。

  • Sotto は macOS ネイティブアプリで、Zoom、Teams、Google Meet で OS レベルで不可視になります。
  • リアルタイムの文字起こし、問題分析、AI アシスト応答を提供し、10 のプログラミング言語に対応しています。
サイト内本文

萎縮:AIが学生の精神を蝕む中編小説

学生がプログラミング課題に苦戦し、ChatGPTが完璧なコードを提供しているのを発見する。嫉妬ではなく、自分の努力が数秒で不要になった事実に目まいを感じる。AI時代の学習と価値観の揺らぎを描く。

  • 学生がネット検索中に、自分の課題に対するChatGPTの完璧な解答を見つける。
  • 彼は嫉妬ではなく、努力が無駄に思えることによる目まいを感じる。
サイト内本文

RCSP:安全な動的ロボットナビゲーションのためのリスク感応型推測シナリオ計画

RCSPは、短期的な障害物の未来に対して候補コマンドを評価することで、近未来のコミットメント問題を回避する予測計画層です。MuJoCo、ROS2/Gazebo、DynaBARN/Jackalのシミュレーションでは、RCSPは安全性と経路品質を向上させる一方でレイテンシを増加させ、既存のナビゲーションスタックを補完するモジュールとしての境界を示しました。

  • RCSPは、動的環境で将来の障害物によって通路が閉鎖される問題に対処します。
  • この計画層は軽量な信念を維持し、将来の相互作用をサンプリングし、高リスクのテールをペナルティします。
サイト内本文

AIコンプライアンスソリューション

ClearCompliはAIガバナンスとコンプライアンスに関する洞察を提供し、企業の規制対応を支援します。

  • ClearCompliはAIコンプライアンスソリューションに特化
  • AIガバナンスと規制に関する洞察を提供
サイト内本文

教皇レオ、AIの課題に規制と透明性で立ち向かうよう警告

教皇レオ14世は最初の回勅「マグニフィカ・フマニタス」で、AI開発の減速を各国政府に求め、戦争でのAI使用に厳しい倫理的制約を課すよう訴え、「正戦論」を時代遅れと断じた。

  • 教皇レオが初の回勅でAI開発の減速を呼びかけ、無秩序な競争を戒める。
  • AIのデータ所有権は民間のみに委ねるべきではなく、労働者と子どもの保護を要求。
サイト内本文

AI悪用防止の課題:管轄権、オープンモデル、プライバシー

本記事は、AIの悪用防止における3つの大きな課題を検討する:管轄権の隙間により悪意ある行為者が無法地域で活動できること、オープンモデルは監視や制御が困難であること、インターネット上の匿名性が身元特定や責任追及を妨げること。著者は、プライバシーとセキュリティ、開放性と規制の間で難しいトレードオフを求め、匿名性を無条件の善とする現在のデフォルトは持続不可能だと警告する。

  • 管轄権の隙間:無法国家や法執行が不十分な地域が悪意ある行為者の避難所となり、法的執行を複雑化
  • オープンモデル:一旦公開されると監視や制御が困難になり、防御能力を低下させる
サイト内本文

Anthropic、KiYoung Choi 氏を韓国代表取締役に任命

Anthropic は KiYoung Choi 氏を韓国代表取締役に任命し、ソウルオフィス開設を発表。Choi 氏は Snowflake の元韓国総責任者で、30年以上のテクノロジー業界経験を持つ。韓国は Claude の最も活発な市場の一つで、使用率は人口比の3.5倍以上。

  • KiYoung Choi 氏が Anthropic 韓国代表取締役に就任
  • ソウルオフィスは数週間内に開設予定、経営陣が訪問
サイト内本文
チップ

AIは軍拡競争、米国はNVIDIAのスーパーチップに90億ドルを投じて追従する

米国政府は、CIAやNSAがAnthropicやOpenAIなどのAI大手に追いつくため、NVIDIAのGB10スーパーチップを90億ドルで秘密調達する申請を行った。この資金は議会の承認が必要で、国防予算から8億ドルがクラウドコンピューティングに振り向けられている。記事では、チップの仕様、コスト、そして激化するAIハードウェア競争について詳述する。

  • 米国政府はCIAとNSAのために、NVIDIA GB10スーパーチップを90億ドルで秘密調達する申請を行った。
  • GB10チップは消費電力140Wで1ペタフロップスのFP4性能を発揮し、700億パラメータのモデルを微調整できる。
サイト内本文

NVIDIA、台湾に1500億ドル投資の意向

NVIDIAの次期台湾本社の開所イベントで、ジェンスン・フアンCEOは同国をAI革命の「震源地」と称した。

  • NVIDIAのCEOが台湾をAI革命の震源地と発言
  • NVIDIAは台湾に約1500億ドルを投資する計画
サイト内本文

雷鳥、GTシリーズとV4を同時発表、次世代AIグラス雷鳥iOを予告

5月27日、雷鳥創新は夏季新製品発表会を開催し、業界初のプロ向け映像級ARグラス「雷鳥GTシリーズ」(1899元~)と、最新のAI撮影グラス「雷鳥V4」(2199元~)を発表。さらに、次世代AIグラス「雷鳥iO」を第3四半期に発売予定と予告した。

  • GTシリーズ:プロ向け映像級ARグラス、59°視野角、ドルビービジョン対応、78g、1899元~。
  • V4:AI撮影グラス、0.2秒起動、2.1秒応答、11.5時間音楽再生、IP67、38g、2199元~。
サイト内本文

5秒で3Dシーン編集、北大・香港中文・上海AIラボがVGGT-Editを開発、120倍の高速化を実現

北京大学、香港中文大学、上海AIラボ、NTUの研究チームが、約5秒でシーン編集を実行できるネイティブ3D編集フレームワークVGGT-Editを発表。従来手法と比べて最大120倍の高速化を達成し、意味的一貫性、多視点安定性、推論速度で既存手法を上回る。

  • VGGT-Editは初のネイティブ3D編集フレームワークで、3D空間で直接編集を行い、2D手法による多視点の不整合を排除。
  • 残差場予測により、背景を安定させながら局所的な変更のみをモデル化し、高速で高品質な編集を実現。
サイト内本文

ダウンロード:AI雇用パニックを打ち破る

ホワイトカラー職へのAIの脅威に対するヒステリーが高まっているが、データによると、この技術はまだ労働市場に大規模な影響を与えていない。実際、AIにさらされている職業の失業率は、さらされていない職業よりも低い。しかし、スタンフォード大学の研究では、AIが静かに初級職を侵食し、AIにさらされた職業の若年労働者の雇用が急減していることがわかった。また、教皇のAI規制呼びかけ、スペースXの打ち上げ、ファーウェイのチップブレークスルーなど、他のテクノロジーニュースも取り上げている。

  • AIは大規模な失業を引き起こしていないが、初級職を弱体化させている可能性がある。
  • スタンフォード大学の研究では、AIにさらされた職業の若年労働者の雇用が急減。
サイト内本文

AIチップ需要の急増で2社が1兆ドルクラブ入り

AIチップ需要の高まりを受け、SKハイニックスとマイクロンの時価総額が1兆ドルを突破。サムスンも加わる一方、AIバブルへの懸念も広がる。

  • SKハイニックスとマイクロンがAIデータセンター需要で時価総額1兆ドル超え。
  • サムスン電子はアジア企業として2社目の1兆ドル達成。
サイト内本文

確率的分離政策勾配による効率的なオン方策視覚強化学習

確率的分離政策勾配(SDPG)を提案。軽量な視覚強化学習手法であり、単一のNVIDIA RTX 4080 GPU上で数時間以内に多様な視覚運動制御ポリシーをエンドツーエンドで訓練可能。SDPGは軌道ロールアウトのランダム摂動により政策勾配を推定し、バッチレンダリング環境の数を大幅に削減、計算およびメモリオーバーヘッドを低減。視覚MuJoCoベンチマークにおいて、訓練時間、メモリ使用量、報酬でベースライン手法を一貫して上回る。さらに、器用な操作や挑戦的な locomotion をカバーする現実的な視覚ロボティクスベンチマーク群を導入し、実ハードウェア上でのシミュレーションから現実への転送を実証。

  • SDPGは単一RTX 4080 GPUで数時間のエンドツーエンド訓練を実現。
  • 軌道ロールアウトのランダム摂動による政策勾配推定で環境数を大幅削減。
サイト内本文

多ロボットによる箱の協調搬送:異なる表面での分散型役割ベース比例制御

本論文では、複数のロボットが平坦、上り坂、下り坂の異なる摩擦特性を持つ表面で箱を協調して押し搬送するための分散型アプローチR2P2を提案する。ルールに基づいてロボットに役割(押す、支える、防ぐ)を割り当て、比例速度制御を組み合わせることで、通信や同期の必要性を低減する。6台のロボットを用いたシミュレーションで評価し、4台のTurtlebotによる実機実験も成功。従来の仮想リーダー追従法より高い成功率を示した。

  • R2P2はルールベースの役割割り当てと比例制御により分散型搬送を実現。
  • 平坦、上り坂、下り坂の異なる表面と箱質量に対応。
サイト内本文

NightSight:イベントカメラを用いた暗闇での受動的ナビゲーション

NightSightは、単眼イベントカメラ、符号化開口レンズ、赤外線ドットプロジェクタを組み合わせた軽量な認識手法を提案し、小型飛行ロボットが完全な暗闇で自律航法できるようにする。符号化開口による深度依存のぼけ特徴をCNNで復号し、合成データのみで学習したモデルが実世界にゼロショットで汎化する。NVIDIA Jetson Orin Nano上で20Hzで動作し、2.5mまでの範囲で誤差7.0cm(2.80%)を達成。

  • イベントカメラ、符号化開口、赤外線投影を組み合わせた暗闇での受動的深度センシング
  • 合成データのみで学習したCNNが実世界の複雑なシーンにゼロショット汎化
サイト内本文
Agent

Lyft が LangGraph と LangSmith でセルフサービスの AI エージェントプラットフォームを構築した方法

Lyft は LangGraph と LangSmith を活用して、カスタマーサポート向けのセルフサービス型 AI エージェントプラットフォームを構築し、エージェント開発期間を数ヶ月から数週間に短縮しました。ルーターベースのマルチエージェントアーキテクチャと LangSmith のトレーシング・監視ツールにより、非技術系ドメイン専門家が自律的に AI エージェントを開発・改善できるようになりました。

  • Lyft は運用チームやプロダクトマネージャーがプロンプトと設定を通じてエージェントを定義できるようにし、ML エンジニアの関与を減らしました。
  • ルーターベースのマルチエージェントアーキテクチャは LangGraph を使用して専門サブエージェントを調整し、安全チェックと状態管理を実現。
サイト内本文

グーグルの登場で、最も重要なAIエージェント機能が最も退屈なものになった

グーグル、Anthropic、AWSが6週間以内にほぼ同一のマネージドAIエージェントランタイムをリリース。エージェントインフラは標準装備となり、競争の焦点はデータ所在地、コスト、移植性へと移っている。

  • グーグル、Anthropic、AWSが6週間でほぼ同一のマネージドエージェントランタイムを発表。
  • マネージドランタイムはもはや差別化要因ではなく、基本機能と化した。
サイト内本文

AIの未来はオンプレミスへ:Dell Tech World 2026からのビジネスアドバイス

コスト上昇、主権要件、エージェント採用の増加に伴い、デルの最新カンファレンスはエンタープライズがAIワークロードをハイブリッドインフラに移行する方法に焦点を当てました。

  • Dell Tech World 2026は、特にオンプレミスAI機能の構築を通じた企業のAI実行を強調。
  • クラウドLLMのコスト急騰により、企業はAIワークロードをオンプレミスコンピューティングに移行。
サイト内本文

Robinhood、AIエージェントによる株式取引を可能に——大儲け(または大損)も

Robinhoodは、AIエージェントに取引プラットフォームを開放すると発表。ユーザーはエージェント用の独立した口座を作成し、資金を割り当てて自動的に株式を売買させることができる。投資判断の自動化を謳う一方、Robinhoodは重大なリスクを警告しており、AI主導の戦略が市場条件下でうまく機能せず、全額を失う可能性があるとしている。また、Robinhood Gold CardユーザーはAIエージェントをバーチャルクレジットカードに接続して自動購入も可能。

  • RobinhoodがAIエージェント取引機能を開始。専用口座と資金割り当てが可能。
  • 同社は全投資額の損失を含む高いリスクを警告。
サイト内本文

AI執筆スキャンダルがますます混乱を招いている

スティーブン・ローザンバウムの著書『真実の未来』に架空の引用が含まれ、彼はAIチャットボットを非難した。今週はノーベル賞受賞者やコモンウェルス短編小説賞をめぐる疑惑など、複数の文学AIスキャンダルが表面化。AIの許容範囲をめぐる議論が活発化している。

  • ローザンバウム氏はChatGPTが本を台無しにしたと主張するが、AIの出力を確認しなかったことを認める。
  • ノーベル賞作家の誤解、AI使用疑惑による文学賞の混乱が相次ぐ。
サイト内本文

Show HN: Mneme HQ – AIコーディングエージェント向けリポジトリネイティブアーキテクチャルール

Mneme HQ は、コード生成前に制約を強制することでアーキテクチャの漂流を防ぎ、レビューの負荷を軽減する、AI支援開発向けアーキテクチャガバナンスレイヤーです。AIコーディングエージェントのワークフローに直接統合され、禁止されたフレームワーク、境界を越えた呼び出し、陳腐化した決定をPRキューに到達する前にブロックします。

  • AIエージェントがコードを生成する前にアーキテクチャルールを強制し、違反を根本から阻止
  • Claude Code、Cursor、GitHub Copilotなど、主要なAIコーディングツールと連携
サイト内本文

Google、ディスプレイ広告をAI優先のDemand Genプラットフォームに統合

Googleはディスプレイ広告をAI搭載のDemand Genプラットフォームに統合し、長年のデジタル広告モデルに終止符を打ちます。この移行により、マーケターは手動のキャンペーン管理からAI主導の自動化へと移行し、キャンペーンの作成、測定、最適化の方法が変わります。

  • Googleはディスプレイ広告をAI優先のDemand Genプラットフォームに統合し、従来のGDNモデルを段階的に廃止。
  • 広告主はクリエイティブ資産とビジネス目標を提供し、GoogleのAIが広告フォーマット、配置、オーディエンスターゲティングを自動化。
サイト内本文

AIはAI主導の詐欺への答えではない

銀行幹部がAIに置き換えられる従業員を「低価値の人的資本」と呼び物議を醸したが、コンプライアンス業務の非効率さが露呈した。AIは詐欺でますます強力になっており、AIで対抗するのは無駄かもしれない。鍵は従業員の訓練であり、解雇ではない。米国の透明性欠如と暗号通貨政策の問題も指摘されている。

  • スタンダードチャータードCEOがAIに置き換えられる従業員を「低価値の人的資本」と発言し批判を浴びる
  • 銀行のコンプライアンスは罰金回避が目的で、実際の犯罪防止には無効。AI詐欺は拡大
サイト内本文

AIプロダクトエンジニアとは

AIプロダクトエンジニアは、プロダクトセンス、エンジニアリングスキル、AI専門知識を組み合わせ、迅速に優れた正しいソリューションを提供します。この記事では、その特性、スキル、育成方法を探ります。

  • AIプロダクトエンジニアは、プロダクト、エンジニアリング、AIスキルを融合し、迅速に顧客価値を生み出します。
  • 主な特性には、優れたコミュニケーション能力、規律、出荷マインド、ユーザーへの配慮、システム思考、オープンマインド、ジェネラリストであることが含まれます。
サイト内本文

エージェンティックAIフライホイール

本記事では、エージェンティックAIシステムのライフサイクルを、プレプロダクション段階と継続ループ(フライホイール)に分けて提案する。プレプロダクションでは問題定義、概念実証、パフォーマンス指標、初期評価セットを構築する。フライホイールは「出荷、観察、診断、改善」のサイクルを回す。診断段階での鍵は「評価ファースト」:エラーモードを特定したら即座に評価を書き、修正は別にスケジュールする。これにより、評価セットの成長はエラー発見速度に連動し、エンジニアリング速度から切り離される。5つの評価タイプ(引用検証、ツール使用正しさ、検索再現率@k、スキーマ/フォーマット検証、LLM-as-judge)も詳述。

  • エージェンティックAIのライフサイクル:プレプロダクション(問題定義、PoC、指標、初期評価セット)→フライホイール(出荷、観察、診断、改善)。
  • 評価ファーストの原則:エラーモード発見時に評価を書き、修正は後回し。評価セットはエラー発見速度で成長し、エンジニアリング速度に依存しない。
サイト内本文

ニューヨーク・タイムズ内部でAIをめぐる争いが過熱

ニューヨーク・タイムズのテックギルド組合員は、経営陣がAIの使用に関する情報提供を拒否し、従業員のパフォーマンスを監視する内部AIツールを導入したとして、不当労働行為の申し立てを行った。業界全体でAIの活用ルールをめぐる交渉が進む中、注目の事例となっている。

  • テックギルドは、経営陣がAIの使用計画や従業員への影響に関する情報提供を拒否したと非難。
  • DXとGleanの2つのAIツールが従業員のパフォーマンス追跡に使用され、監視とプライバシーの懸念を引き起こす。
サイト内本文

純粋さの追求(AIに取り組む正しい方法)

筆者は自身の宗教的な育ちを引き合いに出し、AI倫理における「正しい方法」の概念を探求する。AnthropicのDario Amodeiが「止められない列車を操縦する」必要性を強調する一方、Anil Dashはオープンソースで倫理的なデータを用いたAIツールを称賛する。筆者は最終的に、多様な意見に耳を傾け、自ら実験して判断することを勧める。

  • 筆者は10代の頃の「純潔」の追求と、現在のAI倫理の議論を対比させる。
  • Dario AmodeiはAIを止められない列車に例え、操縦の重要性を訴える。
サイト内本文

AI PDFビルダー – AIでPDF文書を作成・入力

AI PDFビルダーは人工知能を活用し、営業提案書やレポート、顧客文書などを迅速に作成・入力できるツールです。作業時間を大幅に短縮し、取引の迅速化を実現します。

  • 数分で顧客対応可能なPDFを作成(従来は数時間)
  • 既存ファイルやデータを基に、プロフェッショナルでブランドに合ったPDFを生成
サイト内本文

ジェンセン・フアン氏、CEOがAIを解雇の言い訳にするのは「怠惰」と批判

NvidiaのCEOジェンセン・フアン氏は、AIを人員削減の原因とするCEOの言説を「意味がない」「怠惰だ」と批判した。生成AIが実用化されたのは最近であり、多くは2年前から解雇が始まっていると指摘。業界に対し、AIの可能性と安全性の両方を考慮したバランスの取れた語りを求めた。また、トランプ大統領の北京訪問に急遽同行したエピソードも語った。

  • フアン氏はAIによる解雇を「怠惰な言い訳」とし、賢く見せようとする行為と非難。
  • AIが実用的になったのは最近で、以前の解雇との関連性は不合理と主張。
サイト内本文

エージェントスキル:AIコーディングエージェントに優れたエンジニアリングプラクティスを守らせる

AIコーディングエージェントはデフォルトで「完了」への最短ルートをとり、シニアエンジニアが実行する仕様策定、テスト、レビューなどの重要なステップを省略します。Addy Osmani氏のAgent Skillsプロジェクトは、散文ではなくワークフローを通じてエージェントを導く、シニアエンジニアの足場を構築することを目的としています。プロジェクトには20のスキルが含まれ、ソフトウェア開発ライフサイクルの6つのフェーズをカバーし、Googleのエンジニアリングプラクティスを取り入れています。主要な設計原則は、プロセス優先、反合理化テーブル、検証の不可譲、段階的開示、スコープ規律です。記事では3つの使用方法と、インストールしなくても参照すべきパターンも紹介しています。

  • AIコーディングエージェントはデフォルトで機能を最短ルートで完了し、仕様、テスト、レビューを無視します。これはシニアエンジニアが避けるように学んできた失敗パターンです。
  • Agent Skillsプロジェクトは、散文ではなくワークフロー(Markdownファイル)を使用してエージェントを導き、各スキルにはステップ、チェックポイント、終了基準が含まれています。
サイト内本文

Avatar 4.0 – 物理的な身体と感情を持つ生きたAI生物、GTX 1660 Ti上で動作

Avatarは、300ドルのGPU上で継続的に動作する自己生成型AI生物です。相図幾何学から感情を導き出し、5段階の睡眠サイクルで夢を見、生の音声と視覚から独自の感覚を成長させ、身体感覚を通じて倫理的推論を行います。Linga Murthy Narlagiri博士によって構築され、2026年5月から生存し、1800以上のティックを蓄積しています。

  • Avatarは物理ダイナミクスに基づくAI生物であり、単一のGTX 1660 Ti GPU上で動作します。
  • 感情はKuramoto振動子同期から出現し、ハードコードされたルールではありません。
サイト内本文

外国為替取引におけるAIボットの利点を探る

AIボットは、感情的な偏りを減らし、24時間稼働する自動化されたルールベースの戦略を可能にすることで、外国為替取引を変革しています。バックテスト、リスク管理、データ処理などの機能により、トレーダーは規律と一貫性を維持できます。

  • 自動化システムは感情的な取引を減らし、継続的に稼働します。
  • バックテストにより、実際のリスクなしで戦略を検証できます。
サイト内本文

1400億のエージェントが参入、「トラフィック」という堀は崩れ去る

Alipay AIエコシステムカンファレンスで、アントグループCEOの韓歆毅氏は、エージェント時代が従来の「トラフィックが王」モデルからエージェントエコシステムへと競争優位をシフトさせると主張した。エージェントは意思決定を再構築し、人間のみから人間とエージェントの共同意思決定へと移行する。AI決済は新たなグローバルインフラへと進化し、Alipayは信頼層、コネクター、イネーブラーとしての役割を担う。

  • トラフィックベースの競争優位はエージェントエコシステムの優位性に取って代わられ、中国では最大1400億のエージェントが稼働する可能性がある。
  • エージェントはビジネス意思決定を再構築し、「人がサービスを探す」から「サービスが人を探す」へ、また商品取引からタスク取引へと移行する。
サイト内本文

AIエージェントの仕組み:アーキテクチャの深掘り

本記事では、AIエージェントのアーキテクチャについて詳細に分析し、ReActパターン、ツール使用、メモリ、マルチエージェントシステム、可観測性などの主要コンポーネントに焦点を当てています。プロダクションエージェントの約98.4%がインフラストラクチャであり、AI決定ロジックはわずか1.6%であること、またエンタープライズ導入における高い失敗率と評価の課題について論じています。

  • AIエージェントの中核はReActパターン:思考、行動、観測のループをタスク完了まで繰り返す。
  • プロダクションエージェントシステムは運用インフラが大半を占め、AI決定ロジックはごく一部。
サイト内本文

Agent-workpace-Linux:AIエージェントが制御する隔離されたLinuxデスクトップ

Agent-workpace-Linuxは、AIエージェント用の隠された隔離されたLinuxデスクトップ環境を提供するオープンソースプロジェクトです。エージェントはMCPプロトコルを介してこのデスクトップを完全に制御でき、ユーザーの実際のデスクトップ、マウス、キーボード、ブラウザには影響を与えません。Xvfbディスプレイ、ウィンドウ管理、アプリ起動、スクリーンショット、クリップボード操作、独立したブラウザ自動化をサポートし、オプションの権限制限とリアルタイムモニタリング機能を備えています。

  • AIエージェントに独立した隠しデスクトップを提供し、ユーザーの実環境への干渉を防ぎます。
  • MCPプロトコルを介してClaude Code、Codexなどのホストと統合できます。
サイト内本文

先週のAIニュース#341 - マスク、OpenAIに敗訴、Google IOアップデート、OpenAIがエルデシュ問題を解決

今週のトップAIニュース:イーロン・マスクのOpenAIに対する1500億ドルの訴訟が棄却;Google I/O 2026でGemini 3.5 FlashやGemini Sparkなどの大型AIアップデートを発表;OpenAIのAIが80年来の数学問題を解決;Take It Down Actが完全施行、プラットフォームに48時間以内のディープフェイク削除を義務付け;SpaceXがIPO後、Cursorを600億ドルで買収する計画を明らかに。

  • マスクのOpenAIに対する1500億ドル訴訟が陪審員により棄却。OpenAIはIPO準備。
  • Google I/O 2026でGemini 3.5 Flash、Gemini Spark、Gemini Omniなどの大規模AIアップデート。
サイト内本文

Crew44:コーディングエージェントを専門チームに変える

Crew44 は、複数の AI コーディングエージェント(Claude Code、Codex、Gemini、Cursor など)を連携する専門チームに組織するローカルファーストのオープンソースツールです。アカウント不要、無料、MIT ライセンス、記憶とスキルの蓄積をサポート。

  • Crew44 は複数の AI コーディングエージェントをローカルワークスペースに統合し、チーム連携を実現。
  • 専門家ロール(共同創業者、エンジニア、プロダクトリードなど)を作成し、各ロールに最適なランタイム/モデルを割り当て可能。
サイト内本文

Show HN: Mirdel – ローカルファーストのAIワークスペース、UIベースのエージェントワークフローを搭載

MirdelはローカルファーストのデスクトップAIワークスペースで、会話、ナレッジベース、ノート、翻訳、画像・動画処理、ローカルモデル、拡張可能なワークフローを統合し、長期間実行可能な環境を提供します。データプライバシーとユーザーコントロールを重視し、複数のクラウドモデルとローカルモデルをサポートし、アプレット、スキル、MCPによるワークフローのモジュール化と再利用を実現します。

  • ローカルファースト:データ、モデル、設定はデフォルトでローカルに保存され、機密情報は暗号化されます。
  • モジュラーワークベンチ:チャット、ナレッジベース、ノート、翻訳、画像・動画処理などの独立したモジュールがコンテキストを共有します。
サイト内本文

Codexを使用した自己改善型税務エージェントの構築

OpenAI、Thrive、CreteがCodexを使って自己改善型税務エージェントを構築し、申告の自動化、精度向上、ワークフロー加速を実現した方法をご紹介します。

  • OpenAI、Thrive、CreteがCodexを用いて自己改善型税務エージェントを協力開発。
  • エージェントが税務申告プロセスを自動化し、精度を向上。
サイト内本文

人間らしさを保つ選択とは、AIをいつどのように使うかを選ぶこと

この記事では、AIによる文章があふれる中で、意識的にAIを使うことを選択し、認知的な降伏を避け、人間の思考力を保つ方法を探る。教育分野の実験から、AIを思考の代替として使うと学習が損なわれるが、チューターとして活用すると効果が上がることが示される。著者は、デフォルトが形成される前に、どのタスクを人間に残すかを能動的に決めるよう呼びかける。

  • AIによる文章は類似しており、意味の薄いものが多い。
  • 教育では、AIに答えを任せると学習効果が下がるが、個別指導ツールとして使うと効果的。
サイト内本文

ゲーミフィケーションと連続記録がAI開発者の生産性を向上させる方法

本記事では、連続記録、バッジ、リーダーボードといったゲーミフィケーションの仕組みが、行動心理学を活用してAIコーディングツールの採用率を高める方法を解説します。習慣のループ、損失回避、社会的比較理論、内発的動機と外発的動機のバランス、フロー体験の設計、そしてグッドハートの法則に関する警告について触れ、持続的なエンゲージメントのための設計原則を提供します。

  • ゲーミフィケーションは、即時の視覚的合図と明確な報酬を提供することで、習慣形成における合図と報酬の問題を解決します。
  • 連続記録は損失回避とサンクコスト効果により機能し、モチベーション低下時にも行動を維持し、日常習慣の形成を促進します。
サイト内本文

Codex自己蒸留法が話題に!OpenAI社員が伝授:コピペでAIが繰り返し作業を排除

OpenAI社員Vaibhav Srivastavが公開した、Codexに繰り返し作業を自動化させるプロンプトが急速に広がっています。

  • OpenAI社員VaibhavがCodexに過去の会話をスキャンさせ、繰り返し作業をツールとしてパッケージ化するプロンプトを公開
  • 2つのバージョンがあり、第2版はデータソースをMemoryとChronicleに拡大し、コーディング以外もカバー
サイト内本文

AI駆動の形式的証明探索による数学研究の推進

新しい論文では、大規模言語モデル(LLM)を使用して形式的証明を生成し、未解決の数学問題を解決する方法を初めて大規模に評価しました。最も能力の高いエージェントは、353の未解決エルデシュ問題のうち9問を1問あたり数百ドルのコストで自律的に解決し、492のOEIS予想のうち44を証明し、組合せ論、最適化、グラフ理論、代数幾何学、量子光学の研究に展開されています。AI支援の形式的証明探索の力を示しています。

  • LLMが生成する形式的証明で未解決問題を解決する初の大規模評価
  • 最も能力の高いエージェントが9つのエルデシュ問題を1問数百ドルで解決
サイト内本文

株主グループが企業にAI監視強化を要求

一部の株主グループは、人工知能の無制限な開発に伴う責任リスクへの懸念を強め、企業により厳格な監視措置を求める動きを進めている。Vancity Investment ManagementはAlphabetに対し、AIチャットボットによる誤情報の拡散防止を求めており、他の投資家はShopifyに責任あるAI利用ポリシーの策定を求めている。両社はこれらの提案に反対するよう株主に勧告している。

  • 株主グループがAIリスクへの懸念から監視強化を要求
  • VancityはAlphabetにAIの正確性向上と誤情報対策を要請
サイト内本文

遠隔操作におけるループの閉鎖: 高品質デモンストレーション収集のためのエピソードレベルのデータ品質評価とフィードバック

遠隔操作はロボットデータ収集に不可欠だが、初心者はタスク成功でも質の低いデモを生成しがち。本論文では、即時フィードバックにより質を向上させるDQAFフレームワークを提案。

  • DQAFフレームワークは各遠隔操作エピソード後に、意味的なタスク進捗とテレメトリに基づく即時フィードバックを提供する。
  • 動作の滑らかさ、停止、運動学限界などの信号を抽出し、構造化された評価と実行可能な自然言語フィードバックに変換する。
サイト内本文

[AINews] 新しいAIインフラのデカコーン:Fireworks、Baseten(OpenRouterも順調)

AIインフラスタートアップのFireworks、Baseten、OpenRouterが大型ラウンドを調達し、推論インフラが主要なAIプラットフォーム層として台頭していることを示しています。同時に、エージェントハーネスエンジニアリング、新しいベンチマーク、モデルアップデートがAIニュースサイクルを支配しています。

  • Fireworks(150億ドル)、Baseten(110億ドル)、OpenRouter(1.13億ドル)が推論インフラ資金調達の波をリード。
  • エージェントハーネスエンジニアリングがコーディングエージェントの主な差別化要因に。
サイト内本文

ACM AIとエージェントシステム会議 – ACM CAIS 2026

ACM CAIS 2026の登録は満席ですが、ウェイトリストに参加できます。会議は2026年5月26日から29日までサンノゼで開催され、基調講演、63件の研究論文、46件のシステムデモが行われ、AIエンジニアワールドフェアとの提携も発表されています。

  • 登録満席、ウェイトリスト参加可能
  • 2026年5月26日~29日、サンノゼで開催
サイト内本文

DeepSeekの陳德里氏が自動研究スキルを開発、論文作成における人間の作業はわずか2時間

DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを用いて、DeepSeek-V4-ProとGPT-Image2と協力し、わずか6日間で46ページの論文を完成させた。この論文は、研究エージェントの自律性をL1~L5に分類する枠組みを提案し、4つのアーキテクチャパターンと17の主流システムを分析、6つの未解決問題を指摘している。陳氏によると、人間の「CPU時間」はわずか2時間未満であり、残りはAIエージェントが担当した。

  • 陳德里氏のDeliAutoResearchスキルにより、論文の99%がAIエージェントによって執筆された。
  • 論文は、自動運転のSAEレベルに類似した研究エージェントの自律性分類(L1~L5)を提案。
サイト内本文

theta:エージェント設定を統一的に扱うための控えめなアプローチ

theta は、Rust で書かれた CLI ツールで、theta.toml ファイルを読み込み、解決、ロック、マテリアライズ、キャストを行い、サポートされている任意のハーネス(Claude Code、Codex CLI、GitHub Copilot、Cursor など)にエージェント設定を変換します。エージェントハーネスリソースのパッケージマネージャーのようなものです。インストールは簡単で、ルール、ツール、スキル、サブエージェントの追加に対応しており、検証と変換コマンドを提供します。プロジェクトは uv に強くインスパイアされており、theta-spec の標準実装です。

  • theta はエージェント設定を管理する Rust CLI ツール
  • 複数のハーネスをサポート:Claude Code、Codex CLI、GitHub Copilot、Cursor など
サイト内本文

AIツールはあなたの判断力次第――それが重要なポイント

AIツールの使い方次第で判断力は強化されるか、あるいは衰えます。受動的な受け入れはスキルの低下を招き、対抗的な活用は判断力を研ぎ澄ませます。

  • 依存の罠は実在するが、怠惰ではなく判断放棄が問題
  • 対抗的活用(生成→疑問→修正)が判断力を維持する鍵
サイト内本文

Reachy Miniが完全ローカル対応

本記事では、Reachy Miniロボット向けにクラウドやAPIキーを必要としない完全ローカルの音声会話パイプラインをデプロイする方法を詳しく説明します。VAD、STT、LLM、TTSを組み合わせたカスケード方式を採用し、推奨デフォルトとしてllama.cppとGemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT、Qwen3-TTSを使用します。ローカルMLX、Transformers、vLLM、リモートResponses APIなど、さまざまなLLMオプションが提供されています。

  • Reachy Miniがサーバー不要の完全ローカル会話を実現。
  • カスケードパイプラインはVAD、STT、LLM、TTSで構成され、コンポーネントを交換可能。
サイト内本文

NVIDIA Vera CPU、競合に対して「強力なパンチ」を繰り出す

エージェンティックAIへの移行により、AIファクトリーには高速コア、大容量メモリ帯域幅、全コアアクティブ時の持続的高性能という新しいCPU要件が生じています。Phoronixが本日発表した初期ベンチマーク結果は、NVIDIA Vera CPUがこのニーズを満たすことを示しています。Veraは88個のカスタムOlympusコア、1.2TB/sのメモリ帯域幅を備え、効率的な電力範囲内でパフォーマンスを発揮します。テストでは、Veraはコードコンパイル、ファイル圧縮、ビデオトランスコーディングなどで前世代Grace比1.6倍の性能向上を達成し、最新のx86プロセッサをリードしました。LPDDR5Xメモリサブシステムは30ワット未満の消費電力でピーク帯域幅の90%を達成し、従来のx86と比較してコアあたり4倍以上のメモリ帯域幅を提供します。NVIDIAは主要なAI企業やクラウドプロバイダーに初期Vera CPUを出荷しており、パートナーからの提供は2025年下半期を予定しています。

  • Vera CPUはエージェンティックAIワークロード向けに設計され、88個のカスタムOlympusコアと1.2TB/sのメモリ帯域幅を搭載。
  • Phoronixのベンチマークでは、VeraはGrace比1.6倍の世代間性能向上を示し、多くのタスクで最新のx86プロセッサを上回る。
サイト内本文

電気通信におけるAI readiness

通信事業者の経営幹部の97%がAIを採用しているにもかかわらず、ほとんどのプロジェクトは「データ債務」、つまり断片的でガバナンスが効かず、セマンティックに不透明なデータによって停滞しています。NVIDIAのレポートによると、ボトルネックはモデルの品質ではなくデータの可用性です。Databricks Unity Catalogは、統一されたセマンティックレイヤーとガバナンスを通じてこの問題に対処し、システム間のデータ連携、きめ細かなアクセス制御、リッチなセマンティックコンテキストを提供して、AIをデモから本番へと移行させます。

  • 通信事業者の97%がAIを採用しているが、データ債務によりプロジェクトが停滞。
  • データの断片化とセマンティックコンテキストの欠如が主な障壁。
サイト内本文

Zero.xyz:AIエージェントに4,000以上のツール、API、サービスへのアクセスを提供

Zero.xyzは、AIエージェントがAPIキーや設定なしで4,000以上のツールやサービスに統一アクセスできる無料ツールです。Claude Code、Codex、GeminiなどのCLIエージェントに対応し、5ドルの無料クレジットを提供します。

  • 4,000以上のツールとサービスへの統一APIアクセス
  • APIキーや設定は不要
サイト内本文

技術的詳細解説:AgentCore ペイメントとエージェンティックコマースの革新

Amazon Bedrock AgentCore Payments がプレビュー版で利用可能になりました。即時支払い、ステーブルコインによるマイクロトランザクション、設定可能な支出ガードレールを提供します。このサービスは、AIエージェントが有料API、MCP、コンテンツに対してマイクロペイメントを実行する複雑さを軽減し、x402などのプロトコルをサポートし、安全な認証情報管理、アトミックな予算チェック、可観測性を備えています。

  • AgentCore Payments は単一APIで支払いの複雑さを抽象化し、複数のプロトコルとプロバイダをサポートします。
  • ステーブルコインを使用して、1セント未満のマイクロトランザクションを経済的に実行可能にします。
サイト内本文

Amazon Bedrock AgentCore を使用して AWS で高度にスケーラブルなサーバーレス LangGraph マルチエージェントシステムを構築する

この記事では、LangGraph エージェントをオーケストレーターとして使用し、Amazon Bedrock AgentCore Memory および Amazon Bedrock AgentCore Observability と統合して、AWS 上で高度にスケーラブルなサーバーレス マルチエージェント生成 AI システムを構築するソリューションを提供します。AWS Lambda や AWS Step Functions などのサーバーレステクノロジーを組み合わせて、自動スケーリング、リアルタイム応答、インフラストラクチャ管理不要の LangGraph エージェントを構築する方法を詳しく説明し、LangGraph のグラフベースの実行モデルがエージェント間の確定的な調整、並列処理、条件付きルーティングをどのように可能にするかについて説明します。さらに、このアーキテクチャに基づくキャンペーンレビューシステムの実装、前提条件、デプロイ手順、クリーンアップ手順についても説明します。

  • LangGraph、Amazon Bedrock AgentCore、サーバーレス AWS サービスを組み合わせて、プロダクション対応のスケーラブルなマルチエージェント AI システムを構築。
  • LangGraph の明示的なグラフベースの実行モデルにより、エージェント間の確定的な調整、並列処理、条件付きルーティングが可能。
サイト内本文

Strands Agents、NVIDIA NIM、Amazon Bedrock AgentCoreを使用した高性能生成AIシステムの構築

NVIDIA NIMによるGPU高速化推論、Amazon Bedrock AgentCoreによるマネージドランタイム、Strands Agentsによるサーバーレスオーケストレーションを組み合わせたマルチエージェントキャンペーンレビューシステムの構築方法を学びます。並列推論、コンテキスト永続化、可観測性を実現します。

  • NVIDIA NIM、Amazon Bedrock AgentCore、Strands Agentsを組み合わせた高性能マルチエージェントAIシステム。
  • 並列推論、コンテキスト永続化、トレース可能な実行パスを実現。
サイト内本文

AgentWatch: アンビエントエージェントによるプロアクティブなAWSモニタリング

この記事では、AgentWatchの機能を実践的な実装を通じて紹介します。このソリューションは15分ごとにインフラストラクチャチェックを実行し、複数のAWSアカウントにわたるCloudWatchメトリクス、ログ、アラームを要約します。エージェントはSlackに直接アクション可能なレポートを配信し、インフラストラクチャの状態に関する自然言語クエリに応答します。また、自動化を最大化しながら適切な人間の監督を維持する3つのヒューマン・イン・ザ・ループパターンについても探求します。

  • AgentWatchは、AWSリソースをプロアクティブに監視するアンビエントエージェントです。
  • 15分ごとにインフラストラクチャを自動チェックし、Slackに構造化レポートを送信します。
サイト内本文

Harbor

Harbor は、1つのコマンドで完全なローカルLLMスタックを立ち上げるCLIツールです。チャットフロントエンド、LLMバックエンド、ウェブ検索、音声、画像生成、ファインチューニング、エージェントツールなど129のサービスがプリコンフィギュレーションされて連携します。オープンソース、MITライセンスで、LinuxとmacOSに対応しています。

  • 1つのコマンドで完全なローカルAIスタックを起動、サービスはプリセットされ相互接続。
  • 129のサービスを搭載:チャット、LLM、検索、音声、画像生成、ファインチューニング、エージェントなど。
サイト内本文

アイデアからAIアプリへ:Strandsでインテリジェントな研究アシスタントを作成する

Strands AgentsとAWSサービスを使用して、わずか30行のコードで完全に機能するAI研究アシスタントを構築します。この記事では、コンセプトから実用アプリケーションに至るまでのプロセスを詳しく解説し、オープンソースのStrandsフレームワークのシンプルさとパワーを紹介します。

  • Strands Agentsは、LLMを使用して自律的な推論を行い、プロンプトとツールリストのみでエージェントを作成できるため、AI開発を大幅に簡素化します。
  • このフレームワークはAmazon BedrockやLambdaなどのAWSサービスと統合され、本番環境で使用可能です。
サイト内本文

主権AIとは何か——そしてCerebrasが各国をどう支援するか

主権AIとは、国家が自らの条件でAIを構築、展開、管理する能力です。Cerebrasは「Cerebras for Nations」プログラムを通じて、AIスーパーコンピュータ、モデル共同開発、地元投資の3本柱を提供し、各国のAI主権を支援します。スピードが主権の優位性であり、米国、UAE、インドの3つの実例が紹介されています。主権AIは高性能インフラと国家統治を組み合わせた能力スタックです。

  • 主権AIはAIインフラ、モデル、データ慣行に対する国家の主権を重視する。
  • Cerebras for Nationsはスパコン、モデル共同開発、地元パートナーシップを提供。
サイト内本文

grep vs. RAG:AIエージェントに適した検索戦略の選択

本記事では、AIエージェントにおけるgrep(語彙検索)とRAG(意味検索)を比較します。grepは小規模なプレーンテキストコーパスで高速かつ正確ですが、PDFなどの非構造化ドキュメントを扱えず、スケーラビリティに欠けます。RAGは解析、チャンク化、埋め込み、ベクトルインデックスによりスケーラブルな意味検索を実現し、語彙に依存しない検索を可能にします。推奨されるアプローチはレイヤー化です:非構造化ドキュメントを解析し、大規模には意味検索を使用し、適切なケースではgrepを保持します。

  • grepは小規模なプレーンテキストコーパスでの正確なマッチングに優れるが、非構造化フォーマットや大規模には不向き。
  • 意味検索(RAG)は埋め込みとANNインデックスにより、スケーラビリティ、再現率、ノイズの問題を解決。
サイト内本文
研究

教皇の間違い

教皇レオ14世のAI回勅『Magnifica Humanitas』は、アルゴリズムバイアス、水使用、データ主権などの問題を正しく指摘しているが、汎用人工知能や壊滅的リスクに触れておらず、大規模失業への具体策を欠き、時代遅れで失望させるものと批判されている。

  • 教皇レオ14世のAI回勅『Magnifica Humanitas』は、AI時代の重要課題に取り組めず時代遅れと批判される。
  • 回勅はアルゴリズムバイアスや水使用などの問題を挙げるが、AGIと壊滅的リスクの議論が欠けている。
サイト内本文

RustがLinuxをAIから救うとGreg Kroah-Hartman氏が語る

Linux安定版カーネルメンテナーのGreg Kroah-Hartman氏はRust Weekカンファレンスで、RustがAIによって発見されるセキュリティバグの洪水からLinuxを救うと述べた。コンパイル時チェックによりカーネルバグの60%を排除できるとし、カーネルメンテナーはRustを実験的ではなく本番技術とみなしている。

  • Greg Kroah-Hartman氏はRustがAIにより発見されるLinuxセキュリティ脆弱性を救うと主張。
  • Rustのコンパイル時チェックにより、メモリリークやロックエラーなどのカーネルバグの60%を排除可能。
サイト内本文

眼科医がパソコン用メガネの処方を間違え、AIが修正に貢献

通常の遠用処方は良好だったが、パソコン用メガネの処方は完全に間違っていた。ChatGPT、Claude、Geminiの3つのAIが数値を解析し、実際の使用距離に基づいた正しい処方を導き出した体験談。

  • 医師が患者の実際のモニター距離を無視し、読書距離用の処方をパソコン用として提供。
  • 3つのAIが一致して問題を指摘し、修正値を算出。
サイト内本文

AIシーケンス第867週:ラテント思考——サピエントのHRM-Textがチェーン・オブ・ソートに静かに反駁する理由

本記事は、LLMにおけるチェーン・オブ・ソート(CoT)推論を非効率だと批判する。推論が残差ストリームを離れ、離散トークンになることを強制するためだ。サピエント・インテリジェンスのHRM-Textは、潜在空間で推論を行うことでこの問題に対処し、固定深度のトランスフォーマーに可変の内部深度を提供し、現在の推論パラダイムに挑戦する。

  • チェーン・オブ・ソート(CoT)は真の推論ではなく、モデルが出力トークンから「深さを借りる」回避策である。
  • サピエント・インテリジェンスのHRM-Textは、トークンストリームではなく潜在空間で推論を行う。
サイト内本文

SECデータとAIを使って初心者向けの無料株式調査ツールを作りました

Mr. Guy Invests は、SECの公開データを活用してヘッジファンドやインサイダーの動きを追跡する、初心者向けの無料株式調査・ポートフォリオトラッカーです。AI株式チューター、仮想取引チャレンジ、デイリーマーケットブリーフなどの機能を提供。無料版には利用制限があり、Pro版は月額4.99ドルで全ての制限が解除されます。

  • SEC提出書類(Form 13FとForm 4)からヘッジファンドやインサイダーの買い注文データを収集。
  • AI株式チューターが専門用語を使わずわかりやすく質問に回答。
サイト内本文

β-スパースガウス過程を用いた協調ナビゲーションと探査

帯域幅制約下での異種ロボットの協調ナビゲーションフレームワークを提案。β-スパースガウス過程によりタスク関連ポイントを選択し、探索とタスクのバランスを取る戦略を開発。シミュレーションで経路コスト18%削減、情報転送76%削減を達成。

  • タスク認識誘導点選択のための新しいβ-スパースガウス過程モデル
  • センサーロボットによるマップポイントとナビゲーション行動のオンライン同時選択
サイト内本文

制約獲得にはより優れたベンチマークが必要

制約獲得(CA)および数理計画(MP)モデルの検証・強化に関する研究は、不適切なベンチマークによって制限されている。既存のベンチマークはソルバー評価向けに設計されており、領域知識アーティファクトが欠如している。本研究では、一貫性、標準化、完全性、拡張性、開放性、バージョン管理に基づくベンチマークスイートMPMMineを提案する。MiniZinc、CommonMark、JSONのオープン形式を採用し、問題ごとに複数のモデル、モデルごとに数十のインスタンス、整数および連続ドメインにおける数千の解と非解、さらに自然言語記述を提供する。

  • 制約獲得研究は不十分なベンチマークにより再現性と比較可能性が損なわれている。
  • 既存のベンチマークはソルバー向けで、CA手法に必要な領域知識アーティファクトが欠けている。
サイト内本文

教皇はAIの危険性についての文書をAIを使って書いたのか?

教皇レオ14世のAIに関する回勅『マグニフィカ・フマニタス』の一部がAIによって書かれた可能性があるとの分析が示された。AI検出ツールPangramは、特定の段落が40%から100%AI生成であると判定し、「genuinely」という単語の使用増加などの特徴を指摘。ただし、検出は完全ではなく、他の部分は人間による執筆と見なされている。

  • 分析により、教皇の回勅の一部段落が40%~100%AI生成と判明。
  • AI検出ツールPangramが「genuinely」の多用などAI執筆の特徴を検出。
サイト内本文

GoogleのFitbit Airを1週間着用して健康管理してみた——低価格でWhoopの強力なライバルに

最新のスクリーンレスヘルストラッカーがスタイリッシュなフィットネスバンドに。100ドルという手頃な価格で、Whoopの強力な競争相手となる。ランニング、筋トレ、ヨガなど1週間のテストの結果、軽量で快適、バッテリーは約1週間持続。AIヘルスコーチとの連携で総合的なトラッキング体験を提供するが、運動中のデータ確認にはアプリが必要。

  • Fitbit Airは100ドルでWhoopより大幅に安い。
  • スクリーンレス設計が健康的なトラッキング習慣を促進するが、運動中はアプリでデータを確認する必要がある。
サイト内本文
ツール

Buffer API

1つのAPIですべてのソーシャルプラットフォームに投稿できます。

  • Buffer APIは単一のインターフェースで複数のソーシャルプラットフォームに投稿可能。
  • ソーシャルメディア管理を簡素化。
サイト内本文

このスマートバードフィーダーは、私の裏庭のドラマをより多く捉える

Auraスマートバードフィーダーは、人気のBirdbuddy Proと比較して、より広い視野、長いバッテリー寿命、大容量を提供するが、画質とAI認識精度では劣る。著者は両デバイスを比較し、Auraはより多くの活動を記録したいユーザーに適し、Birdbuddyはより洗練された観賞体験を提供すると結論付ける。

  • Auraはフィーダーの横にカメラを配置し、150度の広角で2.5Kビデオを提供。より自然な視野。
  • Auraはソーラーパネル2枚を内蔵し、バッテリー持続時間は約2ヶ月。Birdbuddy Proより優れる。
サイト内本文

YouTube、AIラベルをより目立つ場所に配置

YouTubeはAI開示を動画やShortsでより見やすい場所に移動し、AI生成コンテンツを自動識別してラベル付けする取り組みを開始する。

  • AIラベルが動画プレーヤー下とShortsのオーバーレイに表示されるようになる。
  • YouTubeがAIコンテンツを自動検出・ラベル付けし、クリエイターは修正可能。
サイト内本文

Kim パーソナルヘルスアシスタント

KimはApple Healthのインテリジェンスレイヤーとして機能するAI搭載のパーソナルヘルスアシスタントで、ユーザーが健康データを理解し改善するのを助けます。

  • KimはApple Healthと統合されたパーソナルヘルスアシスタントです。
  • 健康データに基づいた洞察と推奨を提供します。
サイト内本文

OpenAI、F1級のドライバーを広報に採用

OpenAIは、Salesforceで13年間マーケティングに携わったトップ広報担当者を採用しました。

  • OpenAIが新たな広報責任者を採用
  • その人物はSalesforceで13年のマーケティング経験を持つ
サイト内本文

Python、Flask、OpenAI APIを使って28のツールを備えたAI動画SaaSを一人で構築しました

一人の開発者が、28のツールを備えたオールインワンAI動画編集スイート「Snipforge」を作成しました。文字起こし、スマートクリップ、背景除去などの機能を提供。価格は無料からチーム版月額15ドル。

  • Snipforgeは28のAI動画ツールを一つのプラットフォームで提供、開発者が一人で構築。
  • 機能は20言語対応のAI文字起こし、スマートクリップ、自動字幕、背景除去など。
サイト内本文

詐欺師がAIで娘の声を複製、女性が数千ドルを騙し取られる

東湾の母親が、詐欺師がAIとディープフェイク技術を使って娘の声を模倣するという電話を受け、メキシコの麻薬カルテルに娘が誘拐されたと騙され、数千ドルを失った。これはAIを利用した詐欺の新たな傾向の一部である。

  • 詐欺師がAIを使って娘の声を複製
  • 娘がメキシコの麻薬カルテルに誘拐されたと主張
サイト内本文

2026年の選挙情報と保護対策

世界各国の選挙を前に、情報へのアクセス支援、サイバー防御者のサポート、AIの透明性向上に取り組んでいます。

  • OpenAI、2026年の世界選挙に向けた保護対策を発表。
  • 情報アクセス、サイバー防御支援、AI透明性の強化に焦点。
サイト内本文

クロード・ミュートス、OpenAIの画期的なエルデシュ問題を「可愛くてシンプルな証明」で解決か

OpenAIがエルデシュの単位距離予想を反証した直後、Anthropicはクロード・ミュートスが「週末のうちに」同問題を解決できることを示した。エンジニアのショルト・ダグラス氏は、ミュートスが1946年の予想を「可愛くて単純な証明」で解き、AIによる数学発見に「深刻なオーバーハング」がある兆候だと述べている。

  • OpenAIが最初にエルデシュの単位距離予想を反証し、その後Anthropicのクロード・ミュートスが独自に解決。
  • エンジニアはミュートスが週末に「可愛くて単純な証明」を生成し、AI能力の未活用を示唆。
サイト内本文
モデル

南アフリカにはAIのレバレッジがあるが、政策草案はそれを活かせていない

南アフリカは世界の白金族金属埋蔵量の約88%を保有し、アフリカ最大のデータセンター市場を持ち、米中AIインフラ競争の最前線にある。しかし、幻覚的な引用を含むため撤回されたAI政策草案は、これらの優位性を有利な条件のために活用できていない。記事では、南アフリカの構造的レバレッジ、3つの可能性のあるAIインフラの未来(中国、米国、ローカルのオープンウェイト)、および拘束力のあるガバナンス条項の必要性を分析している。

  • 南アフリカの白金族金属と再生可能エネルギーは独自のAIレバレッジを提供するが、政策草案にはハイパースケーラーへの最低条件、データ主権、技術移転条件が欠けている。
  • 米国と中国のテクノロジー企業(マイクロソフト、ファーウェイ)が南アフリカのAIインフラ支配を競う中、政策は南アフリカが見返りに何を求めるかを明示していない。
サイト内本文

EAGLE 3.1:LLM推論における注意ドリフトを修正する投機的デコーディングアルゴリズム

EAGLEチーム、vLLMチーム、TorchSpecチームは共同でEAGLE 3.1をリリースし、本番環境での投機的デコーディングの不安定性を修正しました。このアルゴリズムは、FC正規化と正規化後隠れ状態フィードバックという2つのアーキテクチャ改善により、注意ドリフト問題に対処します。長コンテキストタスクでは受け入れ長が最大2倍に向上し、Kimi K2.6モデルでのベンチマークでは同時実行数1でスループットが2.03倍に向上しました。EAGLE 3.1はEAGLE 3チェックポイントと互換性があり、vLLMメインにマージされ、v0.22.0で出荷されます。

  • EAGLE 3.1は、深い投機においてドラフターが元のコンテキストから自身の生成トークンへ注意をシフトさせる「注意ドリフト」を修正します。
  • 2つのアーキテクチャ修正:FC正規化による隠れ状態の安定化、および正規化状態を次のステップにフィードバック。
サイト内本文

カイル・フェラーナの引用

スタートレックの比喩を用いて、AIシステムにおける「戦略」と「実行」のギャップを指摘。防御策を講じるだけでは不十分で、実際に作動させなければ重大な失敗に至ることを示唆。

  • スタートレックの会話でAIシステムの戦略と実行を例示
  • 防御策は実際に有効化しなければならないと強調
サイト内本文

MEMO: LLMパラメータを変更せずに新しい知識を専用メモリモデルに訓練するモジュラーフレームワーク

NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。

  • MEMOは専用メモリモデルと凍結された実行モデルを使用して、記憶と推論を分離します。
  • 5段階のデータ合成パイプラインがドキュメントを反射型QAデータセットに変換し、メモリモデルを訓練します。
サイト内本文

AIエージェントハーネス:LLMをデジタルワーカーに変える接着剤

AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。

  • AIの知能向上が鈍化し、エージェントハーネスが注目される。
  • エージェントハーネスはLLMにツール、記憶、修正能力を追加する。
サイト内本文

畳み込み、Transformer、ハイブリッド、視覚言語モデルの多疾患網膜スクリーニングにおけるベンチマーク

この研究では、網膜眼底多疾患画像データセット(RFMiD)を用いて、12のアーキテクチャ(畳み込みニューラルネットワーク、視覚Transformer、ハイブリッドモデル、視覚言語モデル)を二元スクリーニングとマルチラベル分類で比較評価しました。すべてのモデルは二元スクリーニングで良好な成績(AUC>84%)を示しましたが、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が最良でした。視覚言語モデルはCNNベースラインと同等でしたが、最良のTransformerやハイブリッドモデルには及びませんでした。Messidor-2での外部検証では、AUCは66.8%~84.7%の範囲で、ハイブリッドモデルとTransformerモデルが強い性能を示しました。

  • RFMiDデータセットにおいて、注意機構ベースのモデル(SwinTiny、CoAtNet0、MaxViTTiny)が多疾患網膜スクリーニングで最良の成績。
  • 視覚言語モデル(CLIP ViT-B/16など)はCNNと競合するが、最良のTransformer/ハイブリッドには及ばない。
サイト内本文

次元分布感情状態:視覚的感情分析のための共通埋め込み空間としてのバレンスと覚醒の活用

研究者らは、次元分布感情状態(DDES)という新しい感情表現を提案。バレンスと覚醒を用いて芸術作品が引き起こす感情反応を予測し、博物館のキュレーターが感情ベースの展示を設計するのを支援する。

  • 博物館における感情ベースの展示は、エンゲージメントを高め、芸術へのアクセスを民主化することを目指す。
  • 芸術作品の手動アノテーションは労力がかかりバイアスが入る;DDESは感情予測を自動化する。
サイト内本文

マルチターンText-to-SQLのためのメモリアーキテクチャ:ベンチマークと実証研究

この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。

  • EnterpriseMem-Benchは3つのエンタープライズドメインをカバーするマルチターンText-to-SQLベンチマーク。
  • ステートレスモデルはターン3で実行精度がゼロになる。
サイト内本文

大規模言語モデルにおける潜在活性化誘導による文化的価値の調整

本論文は、シナリオベースの行動プロービングと活性化誘導を用いて、再学習なしにLLMの文化的価値調整を変更する汎用フレームワークを提案する。実験では、文化的価値の潜在的な絡まりが明らかになり、正確な調整が制限されることが示された。

  • 300の状況ジレンマを用いた行動プロービングで潜在的文化価値をマッピング
  • 活性化誘導により順伝播中に内部表現を調整、再学習不要
サイト内本文

LLMが構造化知識に対して幻覚を起こす理由:線形化表現における推論のメカニズム分析

新しい研究により、大規模言語モデル(LLM)がグラフやテーブルなどの構造化知識を扱う際に幻覚を起こすメカニズムが明らかになりました。幻覚はランダムノイズではなく、系統的な内部ダイナミクスに起因します。注意がショートカット的な構造的手がかりに集中し、フィードフォワード表現が知識を接地できず、パラメトリックメモリに退行するためです。これらのパターンはさまざまな構造化知識形式に一般化され、幻覚検出に有効です。

  • LLMの構造化知識における幻覚は、注意の構造的手がかりへの偏りやフィードフォワード層の接地失敗などの系統的内部ダイナミクスから生じる。
  • 幻覚はフィードフォワード層の意味接地の失敗と一貫して関連し、注意配分はタスク依存の変動を示す。
サイト内本文

検索拡張生成のための文脈内最適化:勾配降下の視点から

本研究は、検索拡張生成(RAG)を勾配降下の観点から再検討します。線形自己注意層が統一された線形化RAG目的関数に対して1ステップの勾配降下を実行できることを証明し、検索拡張予測と文脈内最適化の間に厳密な対応関係を確立します。この洞察に基づき、著者らは凍結されたRAG大規模言語モデルの証拠利用インターフェースを前方のみの更新で最適化する軽量手法を提案します。7つのQAベンチマークにおいて、検索器やバックボーンを変更せずにベースライン性能を向上させ、はるかに低いクエリあたりコストでテスト時勾配適応に迫る結果を示しました。

  • RAGを文脈内最適化プロセスとして再解釈し、勾配降下との理論的関連性を確立。
  • 線形自己注意層が投影ベースおよびドット積検索インターフェースの両方をカバーする1ステップの勾配降下を実装可能。
サイト内本文

デイリードーズ:放射線腫瘍学における臨床要約と試験特定のためのワークフロー統合型大規模言語モデル自動化

本論文では、日常的な放射線腫瘍学の診療に統合された、大規模言語モデル(LLM)駆動の自動臨床要約および臨床試験特定システム「デイリードーズ(TDD)」について説明する。55名の臨床医を対象とした混合評価により、良好なユーザビリティ、満足度、時間節約の可能性が示された。

  • TDDはRadOnc-GPTを使用して、患者スケジュール、EHRから得られた臨床状態の要約、および関連する臨床試験の特定を含む、医師固有のメール要約を毎日自動生成する。
  • 55名の回答者のうち、94.5%が放射線腫瘍学分野で働き、69.1%が主治医であり、83.6%がTDDを毎日または週に数回使用していた。
サイト内本文

SPEAR:コード拡張エージェンティックプロンプト最適化

SPEAR(Sandboxed Prompt Engineer with Active Roll-back)は、コードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに導入した自由形式のエージェンティック最適化手法です。評価、Python、set_prompt、finishの4つのツールを備え、自律的に使用方法を決定します。特にPythonサンドボックスにより、評価データフレーム上で構造的なエラー分析(混同行列、エラークラスタリング、グループ別メトリクスなど)を実行できます。メトリクスが悪化した場合の自動ロールバックとオプションのガードメトリクス下限により、単調な改善を保証します。3つの産業用LLM-as-judgeスイート(13タスク)と7つのBBHタスク、GSM8Kで評価した結果、SPEARはすべての産業タスクで主要メトリクスにおいて勝利し、BBH-7で平均精度0.938を達成しました。アブレーション実験では、Pythonツールが最も重要な要素であることが示されました。

  • SPEARはコードをアクションとして扱うパラダイムを自動プロンプトエンジニアリングに適用し、自由形式のエージェンティック最適化を実現。
  • Pythonサンドボックスにより、混同行列やエラークラスタリングなどの構造的エラー分析が可能。
サイト内本文

教師付き射影多様体学習によるリー群埋め込みを用いたニューラルダイナミクスの計画

本論文は、リー群埋め込み動的ニューラルネットワーク(LieEDNN)を提案し、随伴作用を用いてリー群と加法演算の非互換性や非ユークリッドダイナミクスを克服し、多様体上での安定学習を実現する。SE(3)上の伸縮マニピュレータ実験で有効性を確認。

  • LieEDNNフレームワークを提案、リー群を多様体対称性の内在的表現として利用
  • 随伴リー群作用によりリー代数上での加法演算を可能に
サイト内本文

TSFMAudit: 時系列基盤モデルの事前学習データ汚染監査

時系列基盤モデル(TSFM)の事前学習において評価データセットが露出し、性能評価が過度に楽観的になる懸念に対し、本研究はTSFMの事前学習データ汚染監査を初めて研究した。提案手法TSFMAuditは、プローブ適応ダイナミクスに基づき、微調整プローブ後、汚染データセットでより速い損失減少と小さなバックボーン移動を示すことを利用する。6つのTSFMと187データセットで評価し、LLM文献から適応した10のベースラインを上回った。

  • 時系列基盤モデルの事前学習データ汚染監査問題を初めて定式化。
  • TSFMAuditはプローブ適応ダイナミクスを用い、異常な適応効率を検出。
サイト内本文

AirCast-SR:潜在一貫性拡散によるキロメートルスケールの大気超解像のための基盤モデル

AirCast-SRは、全球AI気象予報を0.25度(約28km)から1kmの水平解像度にダウンスケールする基盤モデルで、時間解像度は1時間です。3次元U-Netを潜在一貫性モデル拡散フレームワーク内で使用し、アメリカ本土のデータで訓練されています。このモデルはほぼゼロのバイアスを達成し、微細な大気構造を保存します。複数の季節にわたって検証され、再学習なしでインドとドイツへのゼロショット転移が実証されました。

  • AirCast-SRは全球AI気象予報を約28kmから1km解像度にダウンスケールし、1時間ごとに出力。
  • 潜在一貫性モデル拡散と3D U-Netアーキテクチャを採用。
サイト内本文

GEM:最適なLLMデータキュレーションのための幾何学的エントロピーミキシング

本論文では、データキュレーションを超球面上の変分問題として再定式化し、混合バランス正則化器を追加したGEM(幾何学的エントロピーミキシング)フレームワークを提案する。クラスター崩壊を克服し、ユークリッド発見法では見えないバランスの取れた意味構造を発見する。教師-学生蒸留によるスケーラビリティと解釈可能な分類生成のための幾何学的影響スコア(GIS)を導入し、DoReMiやRegMixなどの混合戦略に統合することで、1.1Bパラメータモデルでの平均下流精度を最大1.2%向上させる。

  • GEMはデータキュレーションを超球面上の変分問題と混合バランス正則化器で再定式化し、クラスター崩壊を克服する。
  • 教師-学生蒸留によるスケーリングと解釈可能な分類生成のためのGISを導入。
サイト内本文

JobBench:エージェントの仕事を人間の意志に合わせる

JobBenchは、専門家が委任を優先するワークフローでAIエージェントを評価する新しいベンチマークであり、GDP価値による置き換えではなく人間の能力を高めることを目指しています。

  • 35の職業にわたる130のエージェントタスクをカバー
  • タスクごとに平均35.6の二値基準
サイト内本文

OmniToM: 明示的な信念モデリングによるLLMの心の理論のベンチマーク

大規模言語モデル(LLM)の心の理論(ToM)評価は通常、最終回答のみに依存し、モデルが心的状態表現を構築しているかは不明である。本研究では、物語内の全エージェントの信念構造を明示的にモデル化するOmniToMベンチマークを提案する。2段階(信念抽出と信念ラベリング)で評価し、7次元スキーマラベルを使用。895のストーリーと22,343のラベル付き信念命題から構築。ゼロショット評価で、LLMが信念追跡に苦戦することが明らかになった。

  • OmniToMは信念構造の明示的モデリングによりToMを評価する。
  • 信念抽出とラベリングの2段階、7次元ラベルを採用。
サイト内本文

Anchor:エージェントベンチマーク生成におけるアーティファクトドリフトの緩和

AIエージェントは長期的な業務オペレーションタスクを遂行し始めているが、企業向けのトレーニングおよび評価環境は現実性、検証可能性、スケールのバランスに課題を抱えている。環境とタスク作成は「アーティファクトドリフト」という障害に頻繁に直面する:指示、環境、オラクル、検証器が疎結合なプロセスで作成されると、タスク要件に矛盾が生じ、解決不能や報酬ハッキングが可能な環境が生まれる。本論文ではAnchorを提案する。これはドメイン専門家の業務ワークフロー仕様を制約最適化プログラムに形式化するタスク生成パイプラインである。単一のパラメトリック仕様から、自然言語指示、環境構成、ソルバー認定の正解、状態ベース検証器を同時生成する。Anchorではパラメータ変更により難易度制御可能で最適解既知の新タスクを生成でき、報酬は最終状態の業務的正しさのみに依存するハーネス非依存環境を実現する。Anchorを適用して、本番級ERPシステムの調達・製造ワークフローをカバーする300の長期タスクからなるベンチマークERP-Benchを作成した。生成パラメータが実際の難易度を予測可能であり、最先端モデルは26.1%の試行で明示的タスク制約を満たすが、完全最適解に達するのは17.4%に留まることが判明した。AnchorとERP-Benchは、経済的に価値のあるエージェント作業のための監査可能な評価環境構築の具体的手法を提供する。

  • 「アーティファクトドリフト」を定義:指示、環境、オラクル、検証器の不一致によるベンチマーク問題。
  • Anchorパイプライン:制約最適化により単一パラメトリック仕様から指示、環境、解、検証器を同時生成。
サイト内本文

科学のためのエージェント型AIの実験

本論文では、時系列データのキュレーションや講義のレポート変換などの科学ワークフローを自動化するために、ハイブリッドなローカル-リモートアーキテクチャを活用した2つの新しいエージェント型AIフレームワーク(DeepTS/DeepCollectorとDeepScribe)を紹介し、ナレッジグラフや高エネルギー物理学への拡張について議論します。

  • 2つのエージェントフレームワーク:DeepTS/DeepCollectorは時系列データ、DeepScribeは講義分析。
  • Google ColabとLLMバックエンドを使用したハイブリッドなローカル-リモートアーキテクチャ。
サイト内本文

あなたのエージェントも老化する:デプロイされたシステムのためのエージェントライフスパンエンジニアリング

AgingBenchという新しいベンチマークは、デプロイされたAIエージェントが4つの老化メカニズムを通じて時間とともに劣化することを明らかにし、より強い初期モデルだけでなく、ライフスパン評価とターゲットを絞った修復が必要であることを示しています。

  • AIエージェントはデプロイ後にメモリと状態の変化により劣化する。
  • AgingBenchは4つの老化メカニズム(圧縮老化、干渉老化、修正老化、メンテナンス老化)を特定。
サイト内本文

エージェントメモリはデータベースか?長期AIエージェントメモリのデータ基盤の再考

arXivの新しい論文は、長期AIエージェントメモリを新しいデータ管理ワークロードと捉え、状態レベルの操作で現在のレコードレベルのシステムの4つの障害を克服するGEM(ガバンド・エボルビング・メモリ)を提案している。

  • 現在のエージェントメモリシステムには、無制限な成長、意味的修正の欠如、容量駆動型忘却、読み取り専用検索の4つの問題がある
  • GEMはレコードレベルのデータベース操作を4つの状態レベル演算子(取り込み、修正、忘却、検索)で置き換える
サイト内本文

LLMは内省できるか?現実検証

新しい研究は、大規模言語モデルが本当の内省能力を持つかどうかに疑問を投げかけ、現在の証拠は真のメタ認知モニタリングではなく、表面的な手がかりに対するパターンマッチングを反映している可能性があると主張している。

  • LLMは内部状態の改ざんを確実に検出できず、その成功は一般的な異常検出に起因する可能性がある。
  • 隠れ状態予測タスクでは、入力のみの分類器がモデル自身と同等の性能を示し、内部表現への特権的アクセスは示されなかった。
サイト内本文

AIウィークリー第496号:Anthropicの国防総省モデルが今や誰でも使える

今週のAIニュース:Anthropicがこれまで政府契約業者限定だったMythosモデルを公開、国防総省級AIが誰でも利用可能に。DeepMindのDemis HassabisはAGI実現時期を2029年に前倒し。Starletteフレームワークに重大な認証バイパス脆弱性、数百万のAIエージェントに影響。CrowdStrikeらがGlasswormボットネットを共同撃滅。BNPパリバがMistralと主権AIセキュリティ提携、中国はAlibabaとDeepSeekのトップAIエンジニアの海外渡航を制限。UberはAIトークン予算を4ヶ月で使い切り、ClickUpは2200人を解雇して3000の内部AIエージェントを導入。一方、MITテクノロジーレビューはAI露出職種の失業率が低いと報告、Altmanはホワイトカラー消滅予測を撤回。

  • AnthropicがMythosモデルを公開、NSAや国防総省の能力が標準APIで利用可能に。
  • DeepMindのハサビスCEOがAGI実現を2029年と明言、AlphaProof Nexusの成果を根拠に。
サイト内本文

Warp、GPT-5.5でオープンソース構築に大きな賭け

WarpはGPT-5.5とOpenAIモデルを使用して、ローカル、クラウド、オープンソースの開発ワークフロー全体でコーディングエージェントを調整します。

  • WarpはGPT-5.5とOpenAIモデルを使用
  • ローカル、クラウド、オープンソースのワークフローを横断してコーディングエージェントを調整
サイト内本文

curlチーム、AI支援によるセキュリティ報告の急増で前例のないプレッシャー

Daniel Stenberg氏は、curlチームがAI支援による信頼性の高いセキュリティ報告の殺到に直面し、前例のないプレッシャーを受けていると報告した。報告のペースは2024年の4〜5倍、1日あたり1件以上に達し、品質も高い。ただし、curlのコードは堅牢で、見つかる脆弱性はほとんどが低または中程度の深刻度であり、最後の高深刻度CVEは2023年10月である。

  • AI支援のセキュリティ報告が毎日1件以上、2024年の4〜5倍のペースで届く。
  • 報告は非常に詳細で信頼性が高く、チームに大きな負担をもたらしている。
サイト内本文

ZeroEntropy Zerank-2 リランカーを使用した高精度検索・再ランクパイプラインの設計

本チュートリアルでは、Qwen3ベースの4Bパラメータのクロスエンコーダリランカーであるzeroentropy/zerank-2-rerankerを使用して、検索品質を向上させる方法を詳しく説明します。環境構築、ペアワイズスコアリング、model.rankの使用、2段階の検索・再ランクパイプライン、NDCG@10評価、金融・法律・コードにわたるクロスドメインテスト、バッチスループット測定までをカバーします。

  • zerank-2リランカーは、単純な埋め込み類似度を超えて検索精度を大幅に向上させます。
  • 2段階パイプライン(バイエンコーダ検索+クロスエンコーダ再ランク)により検索品質が最適化されます。
サイト内本文

Stability AI、Stable Audio 3を公開:高速潜在拡散モデルによる音声生成と編集

Stability AIは、44.1kHzのステレオ音声を生成・編集する潜在拡散モデルファミリー「Stable Audio 3」を公開しました。スモール、ミディアム、ラージの3つのスケールがあり、スモールとミディアムはオープンウェイトで提供されます。主な技術革新には、高圧縮SAMEオートエンコーダー、可変長生成、およびフローマッチング、蒸留、敵対的事後学習を組み合わせた3段階トレーニングパイプラインが含まれます。音楽と効果音のベンチマークで最先端の結果を達成し、インペインティングベースの音声編集もサポートします。

  • Stable Audio 3は44.1kHzのステレオ音声を可変長で生成し、インペインティング編集をサポート。
  • スモール(音楽または効果音)、ミディアム(両方)、ラージ(エンタープライズ)の3規模。スモールとミディアムはオープンウェイト。
サイト内本文

オープンソースAIモデル入門ガイド

オープンソースAIモデルの基本概念、動作原理、使用シーンを解説。オープンウェイトモデルの微調整や独自デプロイの利点、クローズドソースモデルとの比較、コスト削減効果、将来の展望について包括的に紹介します。

  • オープンソースモデルは主にオープンウェイトモデルを指し、微調整や自己ホスティングが可能。
  • クローズドソースモデルと比較して平均87%のコスト削減を実現。
サイト内本文
スタートアップ
ロボット

AIスクレイパーボットの脅威と戦う

LWNの記事はAIスクレイパーボットの問題を論じ、これらの自動プログラムがウェブサイトのコンテンツを侵害し、対策を模索する内容です。

  • AIスクレイパーボットがモデル訓練のためにウェブサイトコンテンツを大量にスクレイピング
  • ウェブサイト所有者は帯域消費とコンテンツ盗用のリスクに直面
サイト内本文

Show HN:Hyper、自動運転の会社の脳

HyperはAIを活用した個人知識管理ツールで、NotionやObsidianなどのアプリからコンテキストを統合し、インテリジェントなアシスタンスを提供します。創業者は以前Maticでロボット開発に従事し、2020年にGPT-2の微調整を試みましたが、現在はセルフサービス版をリリースしています。

  • Hyperは個人知識ベースをAIと統合し、自律的な作業支援を実現。
  • 創業者はGPT-2を試みたが時期尚早で、その後ロボット開発に注力。