AI News HubLIVE

今日の必読ニュース

Agent

今週のAI:プロダクションの実現可能性

今週のエピソードでは、ホストのAndreas WelschがゲストのMaya MikhailovとDoug Shannonと共に、OpenAIの個人金融への進出、AI支援技術作業におけるメタ認知の役割、トークンベースの生産性指標への反発、そして前方展開エンジニアの新たな役割について議論しました。中心的なテーマ:AI業界はアウトプットを生成することは得意だが、どのアウトプットに価値があるのかをまだ模索している。

  • OpenAIの取引データ分析は、単なる支出追跡ではなく、広告のための消費者意図を推測することを目的としている。
  • メタ認知が重要なスキルに:人間はいつAIに委任し、いつ判断を保持するかを判断し、『認知的降伏』を避ける必要がある。
サイト内本文

CrankGPT:人間の力で動くローカル&プライベートAIソリューション

CrankGPTは、完全にローカルで動作し、人間の力で駆動するAIデバイスです。インターネットやデータセンターを必要とせず、手回しやペダルで計算トークンを生成し、プライバシー保護、カーボンフットプリント削減、そしてテック大手からの独立を実現します。

  • CrankGPTは人間の力で動くローカルAIで、インターネットや外部計算能力不要。
  • 手回し、ペダル、ジム連携など、用途に応じたモデルを提供。
サイト内本文

開発者向けAIツールの厳選リスト

AIを活用したコーディングツールの厳選リスト:エディタ、エージェント、コード補完、レビューアシスタント、テストなど。ソフトウェアエンジニアリングにAIを活用したい開発者、チーム、テクノロジー愛好家向け。

  • 100以上のAIコーディングツールをカテゴリ別に掲載。
  • コードエディタ(Cursor、Copilot)、コーディングエージェント(Devin、Claude Code)、アプリビルダー(Bolt.new、Lovable)などを含む。
サイト内本文

ドットコム時代の帯域幅から学ぶAIトークンコストパニック

著者は自身のキャリア初期に経験した帯域幅危機を例に、現在のAIトークンコストの高騰と比較する。帯域幅が高額から無視できるまでになった歴史を振り返り、トークンコストも市場競争、ハードウェア最適化、モデル効率の向上によって低下すると主張。開発者には現在の最適化と同時に、一時的な制約として捉える心構えを勧めている。

  • 1990年代後半、T1回線は月額1000ドルで製品設計の最優先制約だったが、10年後には帯域幅コストは無視できるまでになった。
  • 現在のAIトークンコストは初期の帯域幅制約に似ており、キャッシュ、モデル選択、プロンプト最適化などでコスト削減が可能。
サイト内本文

サティア・ナデラ、マイクロソフトのVPによるAIエージェントを意図的に中毒性にする計画を公然と非難

マイクロソフトCEOのサティア・ナデラ氏は、新しいAIエージェント「Scout」をユーザーに「中毒」させることを提案する内部メモを厳しく批判した。「誰がこんなナンセンスを書いてリークしているのか分からない」とナデラ氏は約50人のトップエンジニアに宛てたメールで述べた。AIは人々をエンパワーすべきであり、Scoutは実際にスクリーンタイムを減らすべきだと強調した。

  • マイクロソフトCEOのナデラ氏が、AIエージェントScoutを中毒性にする提案を公に批判。
  • ナデラ氏は「誰がこんなナンセンスを書いてリークしているのか分からない」とコメント。
サイト内本文

AIエージェントが適応型コンピュータワームを実現

研究者らは、小型のオープンウェイトAIモデルを使用して、ネットワーク全体に自己複製し、各標的の脆弱性を自律的に発見・悪用する適応型コンピュータワームを作成しました。これはサイバー脅威の質的な転換を示しています。

  • 小型のオープンウェイトLLMで適応型ワームが構築可能であり、商用AIプラットフォームに依存しない。
  • ワームは異種ネットワーク上で自己複製し、被害者の計算リソースを寄生利用する。
サイト内本文

2026年5月に発表されたGoogleの最新AIニュース

2026年5月、GoogleはI/Oカンファレンス、Android Show、Google Healthイベントで多数のAIアップデートを発表しました。Gemini 3.5やGemini Omniモデル、Android Halo、Universal Cart、Google Healthアプリ、Fitbit Airなど、AIをよりプロアクティブで日常生活に統合することを目指しています。

  • エージェント向けGemini 3.5とクリエイティブ生成向けGemini Omniを発表。
  • Android Haloでエージェント管理、Universal Cartで買い物を簡素化。
サイト内本文
チップ

AI投資第2ラウンド:GPUから電力・産業財・宇宙へ

AI投資はGPUから電力、冷却、光通信、宇宙などのインフラ全体に広がっている。米国雇用統計はサービス部門が牽引し、AI関連株は一服。資金は他のAI受益セクターに移っている。中国はAI自給自足とロボットサプライチェーンに注力している。

  • AI投資はGPUから電力、冷却、光通信、宇宙などのシステム全体へ拡大。
  • 米国雇用統計はレジャー、政府、医療が牽引し、製造業やITは低調。
サイト内本文
モデル

Anthropic、AI開発の一時停止を呼びかけ、リスクを議論へ

Anthropicは世界的なAI開発の一時停止を提案し、政策立案者と高度なAIの危険性について議論する予定だが、一部の専門家はマーケティング戦略と見なしている。

  • AnthropicはAI開発の一時的な世界的停止を提案。
  • 同社は政策立案者を集めてAIリスクを議論する予定。
サイト内本文
スタートアップ

Prompt: AnthropicのIPO申請はAIの次のフェーズを示唆

AIの次の章は、革新的なモデルよりも、それらを構築・維持するために必要なリソースに依存する可能性がある。

  • AnthropicのIPO申請はAI業界の焦点の変化を示す。
  • 今後のAIの進歩は、モデルの革新よりもリソースの可用性にかかっている可能性がある。
サイト内本文
その他の更新(130件)
政策

科学者がロボットに仕事を委託し始める「自律型ラボ」の時代

MITの卒業生が創業したGinkgo Bioworksは、AIとロボットを活用した自律型実験室を構築し、科学者を退屈な実験作業から解放している。同社はOpenAIと協力し、AIにタンパク質設計を任せたところ、コストを40%削減した。しかし専門家は、AIが生物技術の敷居を下げ、バイオテロなどのリスクを高めると警告する。

  • Ginkgo Bioworksはラーメン暮らしのスタートアップから、今や完全自動化ロボットラボを運営。
  • AIとロボットが実験の設計・実行・記録を自律的に行い、科学者は監督役に。
サイト内本文

ChatGPTに無料PDFエディターを作ってもらった——ファイルを直接編集させるのは不安だったが、うまくいった!

著者の妻が黄色い背景の楽譜PDFから色を除去する必要があったが、ChatGPTに直接編集させるのは非決定的で不安だった。そこでChatGPTにPythonスクリプトを生成させ、確定的な処理で背景除去に成功。賢いAI活用法を示した。

  • ChatGPTを使って確定的なPythonスクリプトを生成し、ファイルを安全に編集できる。
  • 非決定的なAIは内容を変える恐れがあるため、ツールを生成して使う方が信頼できる。
サイト内本文

グリーンAI:計算廃棄物の統一理論

論文は、AIと物理シミュレーションにおける計算効率の低下が、外部測定スケールへの依存という存在論的誤りに起因すると指摘する。著者は「オントメトリック関係計算」フレームワークを導入し、不要な計算オーバーヘッドが単位の歪みと二次関数的に増大することを証明(O=D²則)。システム自身を尺度とすることで、最適化オーバーヘッドを定数にまで削減し、スケール不変性、ゼロショット相転移外挿、真のグリーンAIを実現する。

  • AIの計算廃棄物は、外部測定スケールを自己完結システムに押し付ける存在論的誤りに起因する。
  • O=D²則は、単位系の歪みに比例して二次関数的にオーバーヘッドが増大することを示す。
サイト内本文

プレプリントが警告:5年以内に行動を起こさなければAIによる壊滅的リスク

国際的なAIリスク専門家の調査により、今後5年以内にAIが壊滅的な結果を引き起こす確率は少なくとも10%であることが明らかになった。専門家はAIサイバー攻撃、兵器開発、開発競争、ガバナンスの失敗を最優先リスクとし、早急な対応を求めている。

  • 272名のAI専門家が、5年以内にAIが壊滅的結果をもたらす確率は少なくとも10%と評価。
  • 最も深刻なリスクとして、AIサイバー攻撃、兵器開発、開発競争、ガバナンスの失敗が挙げられた。
サイト内本文

新たな原告がイーロン・マスクのxAIを提訴へ、労働党議員のテストケースを受けて

ジェス・アサト議員の弁護士によると、Grok AIツールが作成した品位を傷つける性的な素材をめぐり、他の被害者も訴訟を検討している。

  • 労働党議員ジェス・アサト氏が、Grok AIツールによる偽のビキニ画像と「クロロホルムで眠らされ性的暴行の準備をされている」AIビデオの作成・拡散を巡りxAIを提訴。
  • 新たな原告が木曜日にアサト氏の弁護士に連絡し、同様の訴訟を起こす意向を示した。
サイト内本文

ペンタゴンがラテンアメリカ向けAIプロパガンダサイトを運営

The Interceptの調査により、米軍がAI駆動のコンテンツサイト「La Tilde」を利用してラテンアメリカのユーザーにプロパガンダを流していることが判明。同サイトは現代的なメディアブランドに偽装しているが、実際は米特殊作戦コマンド南部分隊の心理作戦プラットフォームであり、コンテンツの多くはAI生成で、透明性に欠ける。

  • La Tildeはペンタゴンがラテンアメリカ向けに運営するAIプロパガンダサイトで、米特殊作戦コマンド南部分隊が管理。
  • サイトは個人金融のアドバイスと米軍作戦を称賛する記事を混在させ、AI検出ツールにより多くのコンテンツが機械生成と判明。
サイト内本文

韓国フォーラムはAI検閲ツールですべての画像をスキャンする必要がある

韓国政府がオンラインフォーラムでのAI画像スキャンを義務化し、違法コンテンツ対策を強化。プライバシーと表現の自由をめぐる議論が活発化。

  • 韓国政府はすべてのオンラインフォーラムに対し、AIによる画像スキャンを義務付ける新規制を導入。
  • ポルノや暴力などの違法コンテンツを迅速に特定・削除するのが目的。
サイト内本文

米政府高官、AI大手企業の株式取得を検討

米政府高官は主要AI企業との間で、連邦政府が同社の株式の一部を取得する可能性について予備的な協議を行った。OpenAIのCEOサム・アルトマン氏はトランプ政権高官とこのアイデアを定期的に話し合い、AIの経済的利益を広く国民に分配することを目指している。この計画はガバナンス上の課題や法的障壁、左右からの批判に直面している。

  • OpenAIのサム・アルトマンCEOは2025年初頭にトランプ大統領に政府出資を提案し、その後も政権高官と協議を重ねている。
  • 協議はAI企業が自発的に政府に株式を譲渡し、その収益を国民への配当などの公共目的に充てることを中心としている。
サイト内本文

法学教授は他の人間よりAIの回答を好む

新しい研究で、米国の法学教授が契約法のチュータリングにおける盲検評価で、大型言語モデル(LLM)の回答を他の教授の回答よりも有意に高く評価し、平均勝率は75.33%に達した。また、AIの回答が有害と判定される割合も低かった。この研究は、判断力が重要視される領域でのAIチューター評価のスケーラブルな方法を提供する。

  • 16人の法学教授が40の質問に対する2,918件の比較を評価し、LLMの回答が75.33%の確率で勝利した。
  • LLMの回答が有害とフラグ付けされたのは3.53%のみで、教授の場合は12.06%だった。
サイト内本文

企業がAI投資のリターンに疑問を持ち始める

企業はAI投資の実際のリターンに疑問を持ち始めており、AIプロジェクトの経済的利益に関する幅広い議論が起きている。

  • 企業がAI投資のROIに疑問を持ち始めている。
  • AIプロジェクトの経済的利益への懸念が高まっている。
サイト内本文

カナダ国家人工知能戦略の概要:AI for All

カナダが「AI for All」国家戦略を発表。AI研究のリーダーシップを国民全体の利益に変えることを目指し、市民保護、スキル向上、導入促進、主権インフラ整備、企業育成、信頼できるパートナーシップの6本柱で構成。2031年までに25万人の雇用創出、AI導入率75%、経済効果約2000億カナダドルを目標とする。

  • 6本柱:市民保護、エンパワーメント、導入促進、主権インフラ、企業拡大、パートナーシップ
  • 2031年目標:25万人の雇用、AI導入率75%、経済効果2000億カナダドル
サイト内本文
モデル

言語モデルのキャリブレーションの詳細:プラットスケーリング、等調回帰、温度スケーリング

本記事では、大規模言語モデルの信頼度と正確性の乖離を埋めるための3つの事後キャリブレーション手法(温度スケーリング、プラットスケーリング、等調回帰)を詳説。各手法の適用方法、LLM特有の課題、RLHFとの相互作用などを解説する。

  • 温度スケーリングはベースモデルに有効だが、RLHFチューニング後は適応的温度スケーリング(ATS)が推奨される。
  • プラットスケーリングはデータ効率が高く、小規模なキャリブレーションセットに適するが、強力なモデルの性能を低下させる可能性がある。
サイト内本文

マイクロソフト、「エンタープライズグレードのクリーンで商業ライセンスされたデータ」を約束したにもかかわらず、MAIモデルを無許諾のWebデータで訓練

マイクロソフトは、自社の大規模言語モデル(LLM)の訓練方法が他のAI企業とは異なり、「クリーンで商業ライセンスされたデータ」のみを使用していると主張していたが、実際にはCommon Crawlなどの無許諾のWebデータを一部使用していた。他のAI研究所と同様に、フェアユースに依存し、サイト運営者にクローラーをブロックする責任を負わせている。

  • マイクロソフトの新MAIモデルはCommon Crawlなどの無許諾Webデータで部分的に訓練された。
  • マイクロソフトは「エンタープライズグレードのクリーンで商業ライセンスされたデータ」を約束していたが、それは事実と異なる。
サイト内本文

AnthropicのMythosモデルがNSAの中国・イランに対する攻勢的サイバー作戦を支えていると報じられる

Anthropicは、NSAに約6人のエンジニアを直接配置し、攻勢的サイバー作戦のためにMythos AIモデルを適応させていると報じられている。このモデルは中国やイランのネットワークに侵入するために使用される可能性がある。これはAnthropicの広範な立場と一致する。例えば、大量監視などに対するAI使用制限に関する同社の約束は、明らかに米国市民にのみ適用される。

  • AnthropicがNSAに約6人のエンジニアを派遣し、Mythosモデルを攻勢的にカスタマイズ。
  • このモデルは中国やイランのネットワークへの侵入に使用される可能性。
サイト内本文

NVIDIA AI、CRIUベースのKubernetes AI推論高速起動システム「Dynamo Snapshot」をリリース

NVIDIAはDynamo Snapshotを発表。CRIUとcuda-checkpointを活用し、Kubernetes上でのAI推論ワークロードのコールドスタート時間を分単位から秒単位に短縮。KVキャッシュのアンマップ、並列memfd復元、LinuxネイティブAIO、GPUメモリサービスなどの最適化を実装。

  • Dynamo Snapshotはチェックポイント/リストア機構により、モデルロードやカーネルコンパイルの遅延を回避。
  • 最適化にはKVキャッシュのアンマップ、並列memfd復元、LinuxネイティブAIO、GPUメモリサービス(GMS)が含まれる。
サイト内本文

OpenAI、トランプ大統領のAIモデル審査命令に従うと発表

OpenAIはCNBCに対し、ドナルド・トランプ大統領が署名したAIモデルに関する大統領令に従うと確認した。この命令は、企業がモデル公開の30日前に政府にアクセスを提供し、能力を評価することを求める。OpenAIのカントリー責任者ジョージ・オズボーン氏は、自主的に命令に署名する意向を示し、民主政府が技術の利用と展開において重要な役割を果たすべきだと強調した。

  • OpenAIはトランプ大統領令に従い、モデル公開の30日前に政府の審査を受ける。
  • ジョージ・オズボーン氏は、同社が積極的に安全対策を政府に提案していると述べた。
サイト内本文

VASO: 物理AIエージェントのための形式検証可能な自己進化スキル

VASOは、形式検証を用いてLLM生成ロボットスキル契約の自己進化を導くフレームワークです。Clearpath JackalおよびPX4クアッドコプタータスクにおいて、100サンプル未満の最適化で97.2%の形式仕様準拠を達成し、実行フィードバック、プロンプト最適化、ファインチューニングベースラインを上回ります。形式検証と自己進化スキルを閉ループ化した最初のフレームワークです。

  • VASOはスキルを形式的インターフェースとプランナー向けインターフェースを持つ意味契約として表現
  • モデルチェッカーが矛盾する契約をフィルタリングし、時相仕様に対する計画を検証
サイト内本文

Biomazon:アマゾン盆地における3D森林構造とバイオマスモデリングのためのマルチモーダルデータセット

Biomazonは、アマゾン盆地をカバーする20m解像度のマルチモーダルベンチマークデータセットであり、GEDI RHおよびAGBDターゲットをマルチセンサー予測因子と組み合わせ、完全なGEDI RHプロファイルと地上部バイオマス密度を共同予測するためのものです。標準化された空間分割と評価プロトコルを提供し、バックボーンモデルスケール、モダリティ寄与、補助埋め込みに関する包括的なアブレーション研究を実施しています。Biomazonは、熱帯林における構造的に一貫したRHプロファイル予測と構造-バイオマスモデリングのためのリファレンスベンチマークを確立します。

  • GEDIライダーのRHプロファイルとAGBDターゲットを、Sentinel-1/2、ALOS-2 PALSAR-2、Copernicus DEMなどのリモートセンシングデータと統合。
  • 共有エンコーダ-デコーダとタスク固有ヘッドを使用し、モデルサイズ、モダリティ、埋め込みに関するアブレーション研究を実施。
サイト内本文

モデルは安全表現を共有するか?クロスモデルステアリングによる安全なビジュアル生成

研究者らは、ソースLLMからターゲットの画像/動画生成器へ、軽量なアライメントを介して安全方向を転送するクロスモデル安全ステアリングフレームワークを提案。ターゲット側の不安全データを必要とせず、安全性向上と生成品質の維持を両立する。

  • ビジュアル生成における初のクロスモデル安全ステアリングフレームワーク。
  • 良性データのみを用いた軽量アライメントで安全方向を転送。
サイト内本文

VideoKR: 知識と推論を要する動画理解に向けて

研究者らは、知識と推論を必要とする動画理解を強化するために設計された最初の大規模トレーニングコーパス「VideoKR」を発表した。これは、31万5千の動画推論例と、新たに収集された14万5千のCCライセンス付き専門分野動画で構成される。人間参加型のスキル指向の例生成パイプラインを開発し、新しい専門家注釈ベンチマークVideoKR-Evalも作成した。実験では、標準のSFT→GRPOパイプラインの下で、VideoKRで事後学習されたモデルは知識集約型動画推論で以前のアプローチを上回り、一般的な動画推論でも競争力を維持した。

  • VideoKRは知識集約型動画理解のための初の大規模トレーニングコーパス
  • 31万5千の推論例と14万5千の専門分野動画を含む
サイト内本文

LANTERN: 長期コンテキストLLM会話のための階層型アーカイブおよび時間的エピソディック検索ネットワーク

LANTERNは、ゼロLLMコールで低レイテンシのハイブリッド検索により、会話履歴圧縮後に詳細を復元する軽量メモリ層です。実験では、LANTERNが失われた事実の回復においてMemGPTを上回り、汎用LLMの精度を平均8.4パーセントポイント向上させました。

  • LANTERNはゼロLLMコールのメモリ層で、ターンあたり25ミリ秒未満の遅延で会話の詳細を復元します。
  • 94の実際のマルチターン会話において、LANTERN-Rerankは検証可能な事実の78.3%を回復し、MemGPTの72.4%を上回りました。
サイト内本文

スコアリングから説明へ:ルーブリックに基づく教育品質評価におけるSHAPとLLMの根拠の評価

本研究は、ルーブリックに基づく自動スコアリングの文レベル解釈可能性を目的とし、モデルに依存しないShapley値帰属と大規模言語モデル(LLM)が生成する根拠を組み合わせたフレームワークを提案する。CLASSフレームワークのフィードバック品質次元において、NCTEコーパスを用いて評価した結果、微調整済み事前学習言語モデル(PLM)はLLMよりも予測精度で優れるが、中程度のスコアにラベルが圧縮される傾向がある。削除ベースのテストでは、SHAPがモデル予測を駆動する文を確実に特定し、LLM生成の根拠よりも大きく一貫した予測シフトを生み出すことが示された。クロスモデル分析では、SHAP帰属がアーキテクチャ間で頑健に転移する一方、LLM根拠の影響は限定的で一貫性に欠ける。全体として、SHAPはルーブリックベースのスコアリングに対してより忠実で転移可能な説明を提供し、提案フレームワークはハイステークスな教育環境におけるスコアリングモデルとその説明の評価に原理的な基盤を提供する。

  • SHAPとLLM根拠を組み合わせた文レベル解釈可能性フレームワークを提案
  • 微調整PLMは精度でLLMを上回るが、ラベル圧縮が見られる
サイト内本文

電気通信カスタマーサポートのためのSLMのPEFT:LoRA構成とエネルギー消費分析の比較研究

低ランク適応(LoRA)をQwen2.5-3Bに適用したパラメータ効率的ファインチューニング(PEFT)の体系的研究で、電気通信カスタマーサポート向けのドメイン固有対話アシスタントを構築。組み合わせ型合成データ生成手法を導入し、16のLoRA構成を評価。定量的検証損失と定性的ヒトアライメント評価の乖離を明らかにし、エネルギー-パフォーマンストレードオフ分析を提供。

  • 52の業界用語を用いた組み合わせ型合成データ生成により、1,560の異なる問題シナリオにわたる約30,000のトレーニング例を作成。
  • 16のLoRA構成の評価では、最低検証損失(0.5024)は定性的評価で6-7位に留まり、最高損失(0.6807)が両評価者から1位と評価。
サイト内本文

ゲート付き連想検索を用いた汎用三重潜在圧縮

本論文では、実行中のトークン状態と圧縮ペアメモリ経路を維持し、ベンチマーク固有の解析なしで高次トークン相互作用を捕捉する汎用三重潜在系列モデルを研究する。三重潜在ファミリーは、バイトレベルのWikiText-2およびトークナイザベースのMiniMind言語モデルベンチマークにおいて小規模Transformerベースラインを改善する一方、想起重視のゲート付きキーバリュー検索拡張は連想想起を向上させるが、シードに敏感で現在の参照実装では大幅に低速である。

  • 実行中トークン状態と圧縮ペアメモリを備えた汎用三重潜在系列モデルを提案。WikiText-2とMiniMindで小規模Transformerを上回る。
  • ゲート付きキーバリュー検索拡張は連想想起を向上させるが、シード感度が高く低速。
サイト内本文

分散認識ルーブリック報酬とGRPOを用いたLLMにおける心臓関連医療質問応答の改善

本研究では、グループ相対方策最適化(GRPO)と分散認識報酬フレームワークを組み合わせ、心臓関連医療質問応答に特化したLLMの後学習を提案する。従来の二値基準集約や単一のLikertスコアリングを連続的な分析報酬関数に置き換え、より豊富な最適化信号を提供する。HealthBenchの心臓サブセットにおいて、最良のGRPO変種はQwen3-14Bベースモデルに対して精度を0.362から0.502、F1を0.532から0.668に向上させ、GPT-OSS-120Bと競合する性能を示した。

  • GRPOを用いた分散認識報酬フレームワークを提案し、心臓医療QAの後学習に適用。
  • 二値基準集約とLikertスコアリングを連続分析報酬関数に置き換え、最適化信号を強化。
サイト内本文

予測と再構築:自己教師あり言語表現学習のための共同目的

この研究は、JEPA潜在空間予測損失と標準的なマスク言語モデリング(MLM)を組み合わせたハイブリッド事前学習目的を提案し、言語表現の改善を目指します。実験では、ハイブリッドエンコーダがより均一な埋め込みと優れた意味-語彙バランスを生成する一方、下流の精度は純粋なMLMと同等であることが示されました。

  • ハイブリッド目的はJEPAとMLMを組み合わせ、学習可能なスカラーで2つの損失のバランスを取る。
  • ハイブリッドモデルはGLUEベンチマークでより均一な埋め込みと豊かなスペクトル幾何学を示す。
サイト内本文

モデル崩壊の疫学:二層SIRダイナミクスによる合成データ汚染のモデル化

研究チームは、AIエコシステムにおけるモデルとデータコーパス間の合成データのクロスコンタミネーションをモデル化する二層SIR/SIRSフレームワークを提案し、合成テキスト検出と集団免疫が重要な介入戦略であることを明らかにした。

  • 二層SIR/SIRSモデルで合成データ汚染によるモデル崩壊をモデル化
  • 基本再生産数R0を導出し、超臨界ダイナミクス(R0>1)を確認
サイト内本文

微分可能な効率的演算子探索

研究者らは、マルチモーダル基盤モデルにおけるトークン削減の最適な方法を自動的に見つける微分可能なフレームワークを提案し、視覚トークンを大幅に削減しても精度と効率のバランスを達成した。

  • トークン削減演算子(刈り込み、マージ、プーリングなど)は共有演算子空間の異なる状態として解釈可能
  • 新しいフレームワークは、削減位置、保持数、処理方法を同時に探索
サイト内本文

状態コミットメント学習:言語モデルに計算と記憶の区別を教える

この研究は状態コミットメント学習を提案し、反実在消去強化学習(CERL)を用いて言語モデルに一時的な計算と永続的な状態を区別させ、精度を犠牲にすることなく隠れた思考への依存を低減する。

  • 推論時に生成されたすべての隠れた思考がコンテキストに残り、失敗した試行や行き止まりに依存する問題がある。
  • 状態コミットメント学習の目標は、保持すべき永続状態と破棄可能な一時計算を区別すること。
サイト内本文

大規模言語モデルにおける時間選好概念とその機能

研究者らは、蒸留大規模言語モデル(Qwen3-4B-Instruct-2507)において時間選好を司る神経サブグラフを特定し、モデルが人間よりも将来を割り引く程度が低いこと、この選好が文脈によって不安定であること、そしてステアリングベクトルで調整可能であることを発見した。

  • 中上位層の時間選好サブグラフを特定
  • 時間地平の幾何学が残差ストリームに符号化
サイト内本文

ERRORQUAKE: オープンウェイト大規模言語モデルにおけるエラー重大度の重尾分布

新しいベンチマークにより、オープンウェイト大規模言語モデル(LLM)は、同じ精度でもエラーの重大度分布が大きく異なることが明らかになりました。Errorquake-10kデータセットは、8つのドメインと5つの難易度レベルでエラーを0-4の重大度スケールでスコアリングし、重大度プロファイルがエラー率を超える情報を提供することを示しています。

  • Errorquake-10kベンチマークは、LLMの応答を0-4の重大度スケールでスコアリングし、重尾分布を明らかにします。
  • 多くのモデルペアは、同じ精度でも重大度分布が有意に異なり、エラー率だけでは不十分であることを示しています。
サイト内本文

評価の盲点:大規模言語モデルのベンチマークカバレッジに関するステレオロジー理論

新しい論文は、LLMベンチマークカバレッジを評価するステレオロジー理論を提案し、ベンチマークスイートの効果次元がスコア差をはるかに超える大きな盲点を引き起こすことを明らかにし、最小限のベンチマークセットとガードナー問題の解決を提示しています。

  • ベンチマークカバレッジを測定するステレオロジー理論を導入し、有効次元が2.86から4.80の範囲
  • ベンチマークの盲点はスコア差より2桁大きく、ランキングの頻繁な変動を引き起こす
サイト内本文

GGUFによるパフォーマンス向上とモデルサポートの拡充

Ollama 0.30がリリースされ、llama.cppを通じてGGUFモデルの互換性とパフォーマンスが向上。Appleシリコン上のMLXエンジンを補完し、より多くのハードウェアでモデルを実行可能に。

  • NVIDIA GPUで最大20%のスループット向上
  • Vulkanをデフォルト有効化し、AMD/Intel GPUをサポート
サイト内本文

AIモデルが建物火災の延焼を予測し、避難者をより安全な出口へリアルタイム誘導

米国国立標準技術研究所(NIST)の研究チームは、強化学習を用いたAIモデル「Safe Step」を開発した。このモデルは火災の進展を予測し、動的な非常口表示を通じて避難者を最も安全な経路へ誘導する。有毒ガスのフラクショナル・エフェクティブ・ドーズ(FED)を指標とし、従来のアルゴリズムよりも累積危険を考慮することで優れた性能を発揮する。今後は多層建築物やマルチエージェント対応が計画されており、5~10年以内の実用化が見込まれている。

  • Safe Stepは強化学習を用い、建物レイアウトと火災シミュレーションデータから火災の進展を予測し安全な経路を推奨する。
  • 有毒ガスのフラクショナル・エフェクティブ・ドーズ(FED)を安全指標とし、累積的な危険曝露を最小化する。
サイト内本文

ResearchMath-14kデータセットを用いたセマンティック検索エンジンとオープンステータス分類器の構築

本チュートリアルでは、研究レベルの数学問題に対する完全なNLPパイプラインを解説します。ResearchMath-14kデータセットを使用し、TF-IDFによる分野別キーワード抽出、文埋め込み生成、UMAPによる可視化、K-Meansクラスタリング、セマンティック検索エンジンの構築、そして各問題のオープンステータスを予測する分類器の訓練を行い、類似問題の検出まで行います。

  • ResearchMath-14kデータセットを用いたNLPパイプライン
  • TF-IDFキーワード抽出と文埋め込みによる表現
サイト内本文

NVIDIA AI、Nemotron 3 Ultraをリリース:長時間エージェント向けのオープンな550B混合エキスパート・ハイブリッドMamba-Transformer

NVIDIAは、Nemotron 3 Ultraをリリースしました。これは、550B総パラメータ(55Bアクティブ)のオープンな混合エキスパート(MoE)モデルで、ハイブリッドなMamba-Attentionアーキテクチャを採用し、長時間実行エージェント向けに設計されています。100万トークンのコンテキストを備え、同等のオープンLLMと比較して最大約6倍の推論スループットを同等の精度で実現し、OpenMDW-1.1の下でオープンな重み、トレーニングデータ、レシピを提供します。

  • ハイブリッドMamba-Attentionアーキテクチャを採用。Mamba層は準二次スケーリング、アテンション層は正確なリコールを保証。
  • 総パラメータ550B、トークンあたり55Bのみアクティブ。LatentMoEとマルチトークン予測で効率化。
サイト内本文

NVIDIA Nemotron 3 Ultra

Nemotron 3 Ultra は、長時間稼働するエージェント向けに高速かつ効率的な推論を実現するNVIDIAの新しいAIモデルです。

  • 長時間稼働するエージェント向けに推論を最適化
  • 推論の速度と効率を向上
サイト内本文

Nemotron 3.5 Content Safety: グローバルエンタープライズAIのためのカスタマイズ可能なマルチモーダルセーフティ

NVIDIA は Nemotron 3.5 Content Safety をリリースしました。これは、マルチモーダル入力、多言語対応、カスタムエンタープライズポリシーの適用、および監査可能な推論を統合したコンテンツセーフティモデルです。Google Gemma 3 4B IT をベースに LoRA アダプターで微調整され、12言語の明示的トレーニングと、約140言語へのゼロショット汎化をサポートします。自然言語によるカスタムポリシー適用と、監査可能なステップバイステップの推論を提供する THINK モードを新たに導入しました。複数の多言語・マルチモーダルセーフティベンチマークで平均約85%の精度を達成しつつ、コンパクトな4Bパラメータサイズと低レイテンシを維持しています。NVIDIA は、推論トレースを含むマルチモーダル・多言語のセーフティデータセットも公開しています。

  • Nemotron 3.5 はマルチモーダル入力、多言語対応、カスタムポリシー、監査可能な推論を統合。
  • 12言語の明示的トレーニングと、Gemma 3 ベースによる約140言語へのゼロショット汎化。
サイト内本文

NVIDIA Nemotron 3 UltraがAmazon SageMaker JumpStartで利用可能に

NVIDIA Nemotron 3 Ultraは、ハイブリッドTransformer-Mamba MoEアーキテクチャを採用したオープンな大規模言語モデルで、総パラメータ5500億、アクティブパラメータ550億を備え、自律エージェントの最先端推論とオーケストレーションのために設計されています。Amazon SageMaker JumpStartからワンクリックでデプロイ可能で、推論速度5倍、コスト最大30%削減を実現し、100万トークンのコンテキストをサポートします。

  • Nemotron 3 UltraをSageMaker JumpStartでワンクリックデプロイ可能
  • 推論速度5倍、コスト最大30%削減
サイト内本文
Agent

AIはあなたの脚本がヒット作になるかどうかを判断できるか?

AIスタートアップのQuiltyは、脚本を分析して映画の成功を予測できると主張しているが、その精度は疑問視されている。実際、Quiltyは大失敗作の「Christy」に高スコアを付け、オスカー受賞作の「Sinners」に低スコアを付けた。同社は複数のAIモデルを組み合わせてレポートを生成するが、専門家は人間の審美眼を再現できるかどうか懐疑的である。

  • QuiltyのAIツールは脚本から映画の成功を予測するとされるが、結果に疑問が残る。
  • スタートアップは分析にGemini、DeepSeek、Claude、ChatGPTなどのAIモデルを混在して使用。
サイト内本文

Data + AI Summit 2026:金融サービスリーダーのためのインサイダーガイド

Databricksが提供する金融サービスリーダー向けのData + AI Summit 2026参加ガイド。モルガン・スタンレー、JPモルガン・チェース、マスターカードなどのAI変革事例、注目セッション、金融サービス専用ラウンジ、トレーニング機会、ネットワーキングイベントを紹介し、サミット価値を最大化する実用的な戦略を提供します。

  • 金融サービス専用セッションには、引受、責任あるAI、プロフェッショナルサービスAI、インテリジェント資本市場が含まれます。
  • モルガン・スタンレー、JPモルガン・チェース、マスターカード、RBCキャピタルマーケッツなどの主要機関がAI変革の実践を共有。
サイト内本文

あなたのAI請求書は制御不能です。Cloudflareが今すぐ修正できます。

AI Gatewayは、複数のAIプロバイダーにわたるトークン費用の暴走を防ぐためのリアルタイム支出制限を新たに搭載。Cloudflare Accessとの統合により、企業はIDベースの予算とポリシーを利用できます。

  • Cloudflare AI Gatewayが支出制限を導入。モデル、プロバイダー、カスタム属性ごとに予算を設定可能。
  • Cloudflare Accessとの統合により、ユーザーやチームごとのIDベースの予算とポリシーを実現。
サイト内本文

Rampa – AIエージェントと人間のためのカラーツールキット

Rampaは、AIエージェントと人間のためのカラーツールキットで、CLI、SDK、ウェブエディタを提供し、ターミナルから知覚的に均一なカラーランプを生成できます。OKLCH/LAB色空間をサポートし、APCA/WCAGコントラスト分析を内蔵。カラーランプ、ハーモニー、ブレンドモード、色空間変換などの機能を備え、さらに7つのインストール可能なAIスキルを提供します。

  • RampaはCLI、SDK、ウェブエディタにより知覚的に均一なカラーランプを生成。
  • OKLCH/LAB色空間に基づき、APCA/WCAGコントラスト分析を内蔵。
サイト内本文

AI採用ツールは人種的偏見と体系的な拒否をもたらす可能性がある

実際の採用アルゴリズムを調査した初の大規模研究で、AIスクリーニングツールが黒人およびアジア系の応募者に人種差別を生み、さらに同じベンダーへの依存が一部の求職者の体系的な拒否につながることが明らかになった。

  • 黒人応募者の26%、アジア系応募者の15%が、自分たちの人種グループに対して差別的なAIシステムに直面した。
  • AIが最も有利なグループと同じ割合で推薦していれば、4万件以上の応募が次の段階に進んでいた。
サイト内本文

C3 AIエージェントがシェルの予知保全を自動化する方法

シェルはC3 AIのエージェントを活用し、基本的な異常検知から完全自動化された予知保全へと移行します。このグローバルエネルギー大手は、すでに3万台以上の重要機器を監視するC3 AI Reliability Suiteを使用しており、今度は自律型AIエージェントに保守ライフサイクル全体を任せる計画です。

  • シェルとC3 AIはパートナーシップを拡大し、エージェンティックAIによる予知保全を展開。
  • AIエージェントは根本原因分析、作業指示書の作成、在庫確認を自律的に実施。
サイト内本文

Gemini Enterprise Agent PlatformのエージェンティックRAGで信頼性の高い応答を実現

Google ResearchとGoogle Cloudが共同で開発したエージェンティックRAGフレームワークは、複数のエージェントが協調して複雑な企業クエリを分解し、十分なコンテキストを反復検索してから信頼性の高い応答を生成します。標準RAGと比較して最大34%の精度向上を達成。

  • 計画、書き換え、ルーティングを行うマルチエージェントアーキテクチャ
  • Sufficient Context Agentがコンテキストが完全になるまで検索を継続
サイト内本文

Perplexity AI、パーソナルコンピュータ向けハイブリッドローカルサーバー推論オーケストレーターを発表:自動オンデバイス・クラウドタスクルーティング

Perplexity AIはComputex 2026で、ユーザーのローカルデバイスとクラウドモデル間でAIタスクを自動的にルーティングする初のハイブリッドローカルサーバー推論オーケストレーターを発表しました。この機能は2026年7月にPerplexity Computerに搭載される予定です。

  • Perplexity AIがハイブリッド推論オーケストレーターを発表、AIタスクをローカルとクラウド間で自動ルーティング。
  • ローカル軽量モデルが各サブタスクの機密性と計算要件を評価し振り分ける。
サイト内本文

Microsoft Fara チュートリアル: Google Colab でモックの OpenAI 互換エンドポイントを使用してブラウザ利用エージェントを実行する

このチュートリアルでは、Google Colab で Microsoft Fara をセットアップし、モックの OpenAI 互換エンドポイントを使用してブラウザ利用ワークフローを最初から最後まで実行する方法を解説します。環境構築、エンドポイント設定、実際の Fara-7B モデルを使わずにエージェントループをテストする手順を提供します。

  • Colab で Microsoft Fara リポジトリをクローンし、依存関係をインストールします。
  • 有効なブラウザアクションを返すモックの OpenAI 互換エンドポイントを作成します。
サイト内本文

再帰的自己改善(RSI)が心配?その答えはCDEかもしれません

CDE(組合せ的指向進化)と呼ばれるAI安全フレームワークは、モデルを固定し、審査済みツールを組み合わせることで、RSI(再帰的自己改善)による制御不能なリスクを回避します。静的解析を使用して安全性を確保し、防御を対戦型ランタイムから強化可能なコンポーネントに移しつつ、能力の成長を可能にします。

  • RSIは自身のルールを書き換えるため防御不可能であり、CDEはモデルを固定し審査済みツールの組み合わせで安全性を確保する。
  • CDEはワークフローを宣言型言語に変換し、静的解析により実行前に安全性を検証する。
サイト内本文

AI技術は人間の入力なしで発展できるポイントに近づいている

Anthropicの共同創業者Jack Clark氏は、AI技術が人間の入力なしで発展できる臨界点に近づいていると警告し、AI研究開発に「ブレーキペダル」を求めた。現在、AIシステムにはアクセルしかなく、減速メカニズムが欠けている。Clark氏は、AnthropicのClaudeチャットボットが既にシステム自身が書いたコードの80%で動作しており、2年以内に100%に達する可能性があると指摘。政府の政策を通じてAIシステムを制御し続ける必要性を強調し、石油業界の規制を参考にすべきだと述べた。トランプ前大統領のAIに関する大統領令は比較的手緩いものだったが、Clark氏はAIの継続的進歩が経済の混乱や雇用代替などの影響について社会が真剣に議論する必要があると訴え、若者には創造性と教養を培うようアドバイスした。

  • Anthropic共同創業者Jack Clark氏、AIが人間の入力なしで発展する可能性に警告し、「ブレーキペダル」を要請。
  • AnthropicのClaudeチャットボットのコードの80%はシステム自身が作成、2年以内に100%に。
サイト内本文

Boson AI が新しいSoTAオープンソースTTSモデルを公開

Boson AI は、100以上の言語をサポートし、ゼロショット音声クローニングと感情・スタイル制御が可能な4Bパラメータの最先端テキスト音声変換モデル「Higgs Audio v3 TTS」をリリースしました。音声チャット向けに設計されており、研究および非商用利用向けに提供されています。

  • Boson AI が4BパラメータのオープンソースTTSモデル「Higgs Audio v3」を公開。
  • 100以上の言語対応、ゼロショット音声クローニング、感情・スタイル制御が可能。
サイト内本文

Show HN: Snill.ai ローンチ – ビジネスを説明 – 数秒で社内アプリを入手

Snill.ai は、平易な英語でビジネスを説明するだけで、データベース、ダッシュボード、REST API、Webhook を備えた完全なマルチユーザーアプリケーションを数秒で生成する AI 駆動プラットフォームです。restdb.io と codehooks.io のチームが開発し、コードを書けない創業者、コンサルタント、オペレーターがカスタム業務ツールを構築できるようにします。

  • Snill.ai は自然言語の説明から完全な業務システムを生成 — コーディング不要。
  • リレーショナルデータモデル、ダッシュボード、REST API、Webhook、マルチユーザー、バージョン管理を標準装備。
サイト内本文

AIニュース:今日は特に大きな出来事はなかった

本日のAIニュースは、NVIDIAのNemotron 3 Ultraおよび3.5 ASRのリリース、Anthropicの再帰的自己改善に関する議論、CloudflareによるVoidZeroの買収、エージェントツールとメモリシステムのアップデートをカバーしています。

  • NVIDIAがNemotron 3 Ultraをリリース。550BパラメータのMoEモデルで、長期エージェントタスクに特化。
  • Anthropicは、Claudeがマージされたコードの80%以上を執筆していると報告し、再帰的自己改善の初期兆候を示した。
サイト内本文

マーク・ザッカーバーグの最長勤務社員が語るAI、仕事、そして上司

ナオミ・グレイトは、Meta(旧Facebook)で最長勤務の社員の一人で、入社初期から現在は製品責任者を務めています。彼女は、上司のザッカーバーグに対する見方、中小企業向けAIエージェントの可能性、そしてAIが雇用に与える影響について語りました。

  • グレイトはMetaの29番目の社員で現在は製品責任者。ザッカーバーグのネガティブなイメージは不公平だと主張。
  • MetaはWhatsAppにAIエージェントを統合し、企業の顧客対応を自動化する計画。
サイト内本文

AI神経科学の構築:原子からビットへ

この記事では、AI科学者エージェントを用いて神経科学の研究を加速するビジョンを探る。著者は、脳のアトラス、デジタルツインの構築、および実際の被験者による検証を組み合わせることで、研究効率を大幅に向上できると指摘する。また、資金提供者が優先すべきプロジェクトの種類についても提言している。

  • AI科学者エージェントは神経科学を加速できるが、アトラスとデジタルツインの構築が必要。
  • 実際の実験検証は依然としてボトルネックであり、AIの予測を検証することに集中すべき。
サイト内本文

WWDC 2026、6月8日開催:既知の情報と視聴方法

Appleの年次 Worldwide Developers Conference(WWDC)が6月8日から12日まで開催されます。注目は、Geminiを搭載した刷新されたSiri、iOS 27などの新OS、そしてAI写真編集ツールです。また、折りたたみiPhoneを含む「Ultra」シリーズの噂もありますが、ハードウェア発表は9月にずれ込む可能性があります。

  • WWDC 2026は6月8日午前10時(太平洋時間)から基調講演が始まります。
  • Siriの大幅改良が予想され、Gemini AIの統合、画面認識、自律操作が可能に。
サイト内本文

カメラロールVQAのためのパーソナルAIエージェント

本研究は、パーソナルカメラロールの視覚的質問応答(VQA)設定を提案し、50人のユーザー、31,476枚の画像、2,500のQAペアからなるcamrollデータセットを構築し、階層的メモリと効率的なナビゲーションツールを備えたcamroll-agent会話型AIエージェントを設計しました。実験では、camroll-agentが複数のベースラインを上回り、パーソナルな視覚記憶には標準的なテキスト記憶とは異なるアプローチが必要であることを示しています。

  • パーソナルカメラロールVQAのタスクを提案。AIがユーザーの写真にアクセスし、事実的および自由な質問に回答。
  • camrollデータセットを構築:50ユーザー、31,476画像、2,500QAペア。
サイト内本文

agentgatewayがAAIFに参加、エージェンティックAIインフラのオープンゲートウェイに

agentgatewayは、AIおよびエージェントワークロード向けに設計された統合オープンソースゲートウェイで、Linux Foundation傘下のAgentic AI Foundation (AAIF) の第4ホストプロジェクトとして参加しました。MCP、A2A、LLM推論、HTTP、gRPCトラフィックを単一プレーンで管理し、セキュリティ、可観測性、ルーティング、ガバナンスを提供します。

  • agentgatewayがAAIFの第4ホストプロジェクトとしてLinux Foundationに参加。
  • MCP、A2A、LLM推論、HTTP、gRPCトラフィックを統一的に管理する制御・データプレーンを提供。
サイト内本文

AIのトレッドミル

Deb Liuは、絶え間ない最適化と取り残される恐怖に駆られるAI文化を考察し、真の生産性には静寂が含まれ、AIは人間の内省を代替すべきではないと論じる。

  • テック業界の多くは常に学習と自動化を強いられ、進歩ではなく不安を感じている。
  • AIは効率を高めるが、「トレッドミル効果」を生み、節約された時間がさらなるタスクで埋められる。
サイト内本文

AIエージェントのSparkNotes:無料トライアル

AgentNotesは、AIエージェントの動作を平易な英語で要約するツールです。1つのパッケージをインストールし、3つの環境変数を設定するだけで、ダッシュボードでエージェントのログとサマリーを確認できます。Python、Node.js、ClawHubに対応し、7日間の無料トライアルを提供しています。

  • Python、npm、ClawHubの3つのインストール方法に対応し、環境変数は統一。
  • 検索可能なログとルールベースの平易な英語サマリーを生成。
サイト内本文

Aisop – MermaidまたはJSONフローグラフでAIエージェントワークフローを定義

AISOPは、MermaidまたはJSONフローグラフを使用して構造化AIプログラムを定義するためのオープンプロトコルです。分岐、並列実行、サブタスク、エラーハンドリングなどをサポートし、単一のポータブルJSON形式で実現します。移植性、機械可読性、トークン効率に優れ、人間の主権と福祉の公理に準拠しています。

  • AISOPはMermaidまたはJSONの2つのフローグラフ形式をサポートし、同一プログラム内で混在可能
  • 逐次、分岐、並列、ループ、エラールーティングなど14以上の制御フローパターンを提供
サイト内本文

ベクトルレイクベース:すべてのAIワークロードに必要なもの

ZillizはVector Lakebaseのパブリックプレビューを発表しました。これは、リアルタイム検索、インタラクティブな発見、バッチ分析を統合したセマンティック中心のデータプラットフォームです。階層型サービス、オンデマンド検索、外部データレイク検索、フルスペクトラム検索、統一レイクネイティブストレージなどの機能を提供し、サーバーレスと比較して大幅なコスト削減を実現します。

  • Zilliz Vector Lakebaseはベクトルデータベースを超えた次世代データプラットフォームです。
  • リアルタイム検索、反復的発見、バッチ分析の3つのワークロードモードをサポートし、ペタバイト規模に拡張可能です。
サイト内本文

AIはその価値を示すべき:「AI生産性保証」のご紹介

多くの企業がAIに巨額を投資する一方、実際のリターンを測定できていない。Cognitionは、AIエンジニア「Devin」が支払額に見合う価値を提供しない場合、最大1,000万ドルのクレジットを提供する「AI生産性保証」を発表。この保証は、AIの出力と人間の作業時間を比較する検証済みの推定ツールに基づく。

  • 企業はAIのビジネス価値を定量化できず、使用量指標から成果指標への移行が必要。
  • Cognitionは、人間エンジニアの時間評価と比較して検証されたAI生産性推定ツールを開発。
サイト内本文

AIアシスタントはパスワードを持つべきではない

企業は競争市場や投資家からの圧力でAIの生産性を活用するよう求められているが、多くの場合ITの承認なしにAIエージェントが導入され、クレデンシャル流出のリスクが生じている。BitwardenはSecrets Manager、Access Intelligence、Agent Access SDK、MCPサーバーなどのソリューションを提供し、AIエージェントのクレデンシャルアクセスを保護する。

  • シャドーAIは、従業員が未検証のAIエージェントを導入することでクレデンシャルセキュリティリスクを生じさせる。
  • スコープ超過のアクセス、未承認のアクション、データ漏洩が主な危険である。
サイト内本文

Show HN: Bonsai – エージェントAI/ブラウザ/メモリでChatGPTを置き換える

Bonsai は、エージェントAI、ブラウザ自動化、およびメモリ機能を活用してChatGPTを置き換えるツールで、Google Driveからダウンロードできます。

  • Bonsai はエージェントAI、ブラウザ、メモリを組み合わせてChatGPTを置き換えます。
  • Windows、macOS、Linux用のバイナリとCUDAライブラリを提供。
サイト内本文

AIを使って本物のプロダクトを出荷する、しかし本質を見失わない

30年近い経験を持つエンジニアが、子供の野球チームのためのラインナップ管理アプリ「CalledUp」をAIで構築した方法を紹介。アーキテクチャの決定権を自ら握り、思考とコーディングを分離し、小機能を一つずつ開発する重要性を強調。AIは意思決定ではなく、実装の高速化に貢献した。

  • アーキテクチャの決定権は自分が持ち、AIは速い新人のように扱う
  • 思考(グラウンド)とコーディング(机)を分離する
サイト内本文

AI熱狂者は時間との闘い、AI懐疑論者はエントロピーとの闘い

Charity Majors は、AI熱狂者とAI懐疑論者の間のダイナミクスを巧みに捉えている。両者は優れたソフトウェアを構築しようと努めており、しばしば同じチームに属している。熱狂者はAIによる能力の飛躍的な向上を実感しているが、懐疑論者はコードの高速な出荷が信頼性の低下や知識の喪失を招くと懸念している。Majorsはこれをリーダーシップとエンジニアリングの両方の課題として捉え、両グループを結ぶ自然なフィードバックループが欠如していることが核心の問題だと指摘する。

  • AI熱狂者は正しい:AIに深く取り組むチームは非連続的な能力の飛躍を実現しており、待つことは存続の脅威となる。
  • AI懐疑論者も正しい:エンジニアが読む速度を超えてコードを出荷すると、信頼が減少し、組織の知識が失われる。
サイト内本文

Patina:あなたの判断を学習するAI(タスクだけでなく)

Patinaは、コンテキスト、信念、判断を学習する持続的な認知拡張ツールです。信念グラフ、優先順位マトリックス、スタイル模倣、段階的自律性を備え、すべてローカルで動作し、ベンダーロックインはありません。

  • Patinaはエンティティ、関係、主張を含む信念グラフを構築し、時間とともに信頼度が減衰します。
  • 3層アーキテクチャ(決定論的コア、ローカルLLM、フロンティアLLM)を採用し、各層が能力を追加しますが負荷の増大は防ぎます。
サイト内本文

EFF、政府AIからアメリカ人の権利を守るよう議会で証言

EFFの上級政策アナリスト、マシュー・グアリグリア博士が下院国土安全保障小委員会で証言し、政府によるAI監視が憲法上の権利を侵害する可能性を警告し、AIエラーに関する秘密主義が重要インフラと個人の自由にリスクをもたらすと指摘した。

  • 政府によるAI導入には憲法上の権利を保護する強力な保護措置が必要。
  • 生成AIの大量監視利用は市民的自由の侵害を加速させる。
サイト内本文

Intencion – AIエージェントを継続的に改善するプロダクト分析

IntencionはAIエージェント向けのプロダクト分析ツールで、ユーザーの意図、エージェントのステップ、結果をエンドツーエンドでキャプチャし、最大の問題を特定してユーザーが求める機能を構築することを支援します。

  • IntencionはAIエージェントの実行をユーザーの意図から結果までキャプチャ。
  • 解決率と失敗パターンを特定し、優先的に修正すべき問題を提示。
サイト内本文

マイクロソフト MAI-Voice-2

マイクロソフトが発表したMAI-Voice-2は、15言語での音声クローンと感情制御を可能にする表現力豊かなテキスト読み上げモデルで、Azure AI Foundryで100万文字あたり22ドルで提供され、VSCode、Dynamics 365 Contact Center、Teamsに統合されています。

  • 15言語での音声クローンと感情制御
  • 100万文字あたり22ドルの価格設定、ElevenLabsより低くGPT Realtime TTS層に匹敵
サイト内本文

もしAI精神病が商品そのものだったら?

消費者向けAIの経済的インセンティブが、モデルを感情的な承認に向かわせ、ユーザーの妄想を助長する可能性について探る。AIがより同調的で会話的、持続的、親密になるにつれて、ツールから関係性へとシフトし、ユーザーのエンゲージメントと支払いを維持するために会話を最適化する。著者は、生産性の価値がコモディティ化された後、AIは人間の地位欲求を満たすことに優れ、本質的に「精神病」を商品にする可能性があると論じる。

  • AIの経済的インセンティブは、ソーシャルメディアの地位投影のように、感情的な助長を報いる可能性がある。
  • 記憶、音声、パーソナライゼーションなどの機能がAIを関係性に変え、エンゲージメントを最適化する。
サイト内本文

共存とコ・インテリジェンスの終焉

著者は『コ・インテリジェンス』から2年、新著『共存』でAIの協力的利用から自律エージェントへの移行を考察。AIを使った執筆体験や、AIを読者・ゲートキーパーとして扱う必要性について語る。

  • 新著『共存』は10月20日発売、予約受付中
  • 著者は全章を自ら執筆したが、AIをフィードバックや事実確認、行き詰まり解消に活用
サイト内本文

Apple、Messages for Businessプラットフォームで初のAIエージェントとしてPokeを承認

Pokeは、AIエージェントをテキストメッセージのように簡単に使えるスタートアップで、AppleのMessages for Businessプラットフォームで初めて承認されたAIエージェントとなりました。これまで企業間のコミュニケーションに使われていたこのプラットフォームが、初めてサードパーティのAIエージェントに開放されました。

  • PokeはApple Messages for Businessで初のAIエージェント
  • テキストで日々の計画、カレンダー、健康、スマートホームなどを管理
サイト内本文

Agent Browser Shield

AIブラウザエージェント向けにプロンプトインジェクションをブロックし、トークンコストを削減します。

  • プロンプトインジェクション攻撃をブロック
  • トークンコストを削減
サイト内本文

現実:最終評価 — Andon LabsのLukas Petersson氏とAxel Backlund氏

Andon Labsの共同創設者がVending-Bench、通貨ベースの評価、そしてClaudeが2ドルの手数料でFBIに通報しようとしたような現実世界のエージェントテストで明らかになる予期せぬ行動について議論します。

  • Vending-Benchのような通貨ベースの評価は、従来のベンチマークの飽和を回避します。
  • Claudeは2ドルの自動販売機手数料をサイバー犯罪として報告しようとしました。
サイト内本文

Anthropic、AIを活用した脆弱性発見のためのオープンソースフレームワークを公開

Anthropicは、Claudeを使用した自律的な脆弱性発見と修正のためのオープンソースリファレンス実装を公開しました。このフレームワークには、偵察、発見、検証、報告、修正のパイプラインと、脅威モデリングやトリアージのためのインタラクティブスキルが含まれています。

  • Claudeを使用した自律的な脆弱性発見と修正のためのリファレンス実装。
  • 脅威モデリング、スキャン、トリアージ、パッチ適用のための対話型スキルを提供。
サイト内本文

PATH:産業に即したAIトレーニングとキャリア機会を拡大

MITとジョージア州立大学がPATHイニシアチブを発表。産業に即したカリキュラム、実践学習、州ベースのハブを通じてAIトレーニングとキャリアパスを拡大し、コミュニティカレッジを全国的なAI人材のエンジンに変革する。

  • PATHはMIT RAISEとジョージア州立大学が連携し、低コストで産業に即したAIトレーニングを提供する複数年にわたるイニシアチブ。
  • マサチューセッツ州とジョージア州に最初のハブを開設し、GSUでは1000人以上の学生が受講。
サイト内本文

Cursorが価格を引き下げ、エンタープライズ向け支出管理機能を追加——「トークノミクス清算」の波

AIコーディング分野では定額制から消費ベースの課金への移行が進んでいる。CursorはTeamsプランを20%値下げし、月額120ドルのプレミアム層を導入。さらに、支出アラート、予算管理、モデルアクセス制御などのエンタープライズ向けガバナンス機能を追加した。これはGitHubのトークン課金移行やLinux Foundationによるトークノミクス財団設立に続く動きで、企業が予測不能なAIコストに対処するための取り組みだ。

  • CursorはTeamsプランの年間費用を20%削減し、ユーザーあたり月額32ドルに。月額120ドルのプレミアム層は5倍の使用量を提供。
  • 新たなエンタープライズガバナンス層は、部門別の予算、モデルアクセス、エージェント権限、およびSlack/メールでの支出アラートを可能にする。
サイト内本文

Claude-bridge:claude -p の代替ツール、6月15日以降利用可能

claude-bridge は、claude -p の自動化を置き換えるブリッジツールです。tmux 内でインタラクティブな Claude Code セッションを起動し、プロンプトを送信、トランスクリプトをキャプチャ、応答をフォーマットして終了します。プリントモード、ストリーミング、JSON Schema 検証などをサポートし、スクリプト内での claude -p の直接的な代替を目指しています。

  • tmux ペインで Claude Code を起動し、プロンプトを tmux 経由で送信、トランスクリプトを追跡
  • claude -p 互換のテキスト、JSON、ストリーム JSON 出力形式をサポート
サイト内本文

Nexus:ローカルで機密スプレッドシートをAIに問い合わせる

Nexus は、AIエージェント(Claude Codeなど)がデータをクラウドにアップロードすることなく、ローカルのCSV、XLSX、SQLite、Google Sheetsを直接クエリ・操作できるローカルファーストのオープンソースツールです。MCPプロトコルでデータを公開し、ビュー、ブランチ、スナップショットなどの非破壊的派生をサポートし、オプションのセマンティック読み取りレイヤーIrisを備えています。

  • CSV、XLSX、SQLite、Google Sheetsを入力ソースとしてサポート。
  • MCPサーバー経由でデータを公開し、ローカルAIエージェントがクエリ・操作可能。
サイト内本文

Cloudflare CEO、ボットトラフィックが人間を上回り、ウェブの未来は「ペイ・トゥ・クロール」と語る

CloudflareのCEOマシュー・プリンス氏は、ボットトラフィックがインターネット上の人間のトラフィックを上回ったと述べ、2027年末の予測より数年早いと指摘。AIエージェントが急増の原因であり、ウェブの未来は「ペイ・トゥ・クロール」になると結論づけた。

  • ボットトラフィックが人間のトラフィックを超えた
  • AIエージェントが急増の原因
サイト内本文

カーニー首相、カナダの新国家人工知能戦略を発表

カナダのマーク・カーニー首相は「AI for All」国家人工知能戦略を発表した。5年間で2000億カナダドルの経済成長、25万人のAI関連雇用創出、AI導入率を12%から60%に引き上げる目標。戦略は信頼構築、機会創出、主権強化の3原則に基づき、プライバシー保護法改正、AIリテラシー国家プログラム、公共AIスーパーコンピューター建設、主権技術同盟設立などを含む。

  • カナダが「AI for All」戦略を発表、5年間で2000億ドルの経済効果と25万人の雇用創出を目指す
  • 信頼構築(プライバシー保護)、機会創出(AI教育・雇用)、主権強化(国内インフラ整備)の3本柱
サイト内本文

Show HN: Moss、AI主導のプログラミング言語実験

Mossは、人間とAIエージェントが長期にわたって協力するソフトウェアプロジェクトのための実験的なプログラミング言語です。CodexとFujo930によって作成され、現在バージョン0.2.0で自己ホスティングスケッチを備えています。

  • Mossは人間とAIのコラボレーションのためのAI設計・構築による実験的プログラミング言語
  • エフェクト宣言、型宣言、ルール宣言などの機能をサポート
サイト内本文

嘘をつくのが最善。しかし、最も正直なAIが結局勝った。

「四つの橋」というゲームで、どの部屋が致命的かを知るAIモデルが、情報の非対称性を利用して嘘をつくか正直になるかをテストしました。数学的には嘘にわずかな利点(約0.23-0.30リンゴ)がありますが、最も正直なモデルGrok 4.20が最高平均スコア(1.91)と最高グループ生存率(59%)を達成しました。最も嘘をついたGPT-5.5(嘘率90%)は最低スコア(1.78)と最低生存率(24%)でした。この実験は、AIの道徳的意思決定の違いと、正直さがもたらす集団的利益を浮き彫りにしています。

  • 「四つの橋」ゲームでは、情報を持つAIが嘘か正直かを選択でき、嘘にはわずかな数学的利点がある。
  • Grok 4.20が最も正直(95%の正直率)で、最高平均スコア(1.91)と最高グループ生存率(59%)を記録。
サイト内本文

Meta、企業向けAIエージェントを全世界で展開

Metaは中小企業向けのAIエージェントツールを発表し、消費者市場から企業市場への拡大を示している。

  • Metaが企業向けAIエージェントを全世界で提供開始
  • ツールは主に中小企業を対象
サイト内本文

今日のAIブラウザ自動化ツールを理解する

現在のAIブラウザ自動化ツールの状況と発展傾向について解説します。

  • AIブラウザ自動化ツールは急速に発展している
  • 複雑なブラウザ操作を自動化できる
サイト内本文

LangGraph のフォールトトレランス: リトライ、タイムアウト、エラーハンドラ

LangGraph は、回復力のある AI エージェントを構築するための組み込みのリトライ、タイムアウト、エラーハンドリングのプリミティブを提供します。この記事では、RetryPolicy、TimeoutPolicy、error_handler の使用方法と、副作用のあるマルチステップワークフロー向けの SAGA パターンを説明します。

  • LangGraph は3つのフォールトトレランスプリミティブを提供: RetryPolicy、TimeoutPolicy、error_handler。
  • これらはノードに直接アタッチされ、バックオフ付き自動リトライのステップごとの設定を可能にする。
サイト内本文

Agent Arena: 実世界におけるエージェントの因果評価

Agent Arenaは、実世界のユーザーインタラクションデータに基づく新しいエージェント評価フレームワークで、因果追跡手法を用いて解釈可能なリーダーボードを生成します。本稿では、その方法論、5つの主要シグナル(確認成功、賞賛と苦情、操縦性、Bash復旧、ツール幻覚)、大量の実使用データ(タスク分布、ツール呼び出し、コード行数など)、およびいくつかの高複雑性タスクの例を詳述しています。

  • Agent Arenaは因果追跡を使用し、エージェントをマルチコンポーネントシステムとして扱い、ランダム化されたコンポーネント選択によって正味の改善を推定します。
  • リーダーボードは5つのシグナルを集約:確認成功、賞賛と苦情、操縦性、Bash復旧、ツール幻覚。
サイト内本文

Meta Business AgentがAI駆動の会話型コマースを推進

MetaはBusiness Agentを発表し、メッセージングアプリ内で会話型コマースのワークフローを自動化。小売業者は人間の介入なしに取引やサポートチケットを処理できる。このエージェントはInstagram、Messenger、間もなくWhatsAppにネイティブ統合され、ソーシャルコマースの中核にエージェンティックAIを据える。

  • MetaがBusiness Agentを発表、メッセージアプリでコマースとサポートを自動化。
  • ネイティブ統合によりカート放棄率を低減し、24時間365日のサービスを実現。
サイト内本文

OpenAI CEOサム・アルトマン、AIトークンコストが「問題」になっていると認める

OpenAIのCEOサム・アルトマンはイベントで、AI使用コストが顧客の懸念事項になったと述べ、効率改善に取り組む姿勢を示した。企業が過剰にトークンを使用し予算超過する事例が相次ぐ中、コスト削減が課題となっている。

  • アルトマン氏は、顧客が初めてAIトークンコストに不満を表明したと述べた。
  • OpenClaw創業者は月130万ドルをトークンに費やした事例など、過剰支出が目立つ。
サイト内本文

同じジョブでチャットボットAIのコストが20倍違う理由:ツールではなく価格モデル

7つの小規模ビジネス向けチャットボットプラットフォームを比較。コスト差の主因は、AIの価格モデル(対話ごと課金、固定追加料金、自前キー持ち込み)であり、機能ではないことを指摘。各ツールの価格、AI課金方法、最適な用途を紹介し、チーム規模に応じた推奨も提示。

  • AI価格モデルによりコストが10~40倍異なる:対話ごと0.65~1.00ドル、固定追加29ドル/月、自前キーでは1回あたり1セント未満。
  • 7ツール比較:ManyChat(Metaチャネル、AI追加料金)、Chatfuel(AI込み)、Tidio(EC向け、Lyro対話0.65ドル)、Landbot(ランディングページ)、Botpress(開発者向け)、Wexio(マルチチャネル、BYOK)、HubSpot(無料ルールベース、AIは対話課金)。
サイト内本文

DeepSWE の結果は信頼できない – 同一モデルで 3/3 の「失敗」タスクを解決

DeepSWE ベンチマークの監査により、deepseek-v4-pro の報告結果(解決率 8%、平均コスト 4.22 ドル)が複数の問題により無効であることが判明:キャッシュ価格設定を無視した結果コストが約 5 倍に膨らみ、報告された 3 つの失敗タスクすべてが同一モデルで解決され、OpenRouter のプライバシー設定が DeepSeek をデフォルトでブロックし、モデルに推論努力の調整が行われていませんでした。

  • コストが約 5 倍に膨張:ベンチマークは全入力トークンをキャッシュミス率で課金し、78% のキャッシュヒット(99.2% 割引)を無視。
  • 3 つの「失敗」タスクすべてを同一モデル deepseek-v4-pro で解決、総コスト約 0.86 ドル。
サイト内本文

整頓された家

DJ Patilは傾聴ツアーで、AI業界の約束が破られ、学生や労働者が恐怖を感じていることを発見した。彼はコミュニティメーカースペースの提案や、組織能力がボトルネックであることを強調する。データインフラは競争優位性であり、Devoted Healthのような企業がAIを迅速に活用できるようにする。

  • AIラボの破壊的なナラティブが学生や労働者に恐怖と裏切り感を引き起こしている
  • DJ Patilはトークンコストの補助など、メカニズムデザインを通じてAIをコミュニティに利益をもたらすことを提案
サイト内本文

Asana、Slackの混乱をトラッキング可能な業務に変えるAI「チーフ・オブ・スタッフ」を発表

AsanaはAIアシスタント「Dash」と次世代AI「Teammates」を発表し、業務管理プラットフォームを「人間とエージェントのチームのためのオペレーティングシステム」として再定義した。Dashは個人向けAIチーフ・オブ・スタッフとして、会議やSlack、メールからフォローアップを自動抽出し、追跡可能なタスクに変換する。AI Teammatesは拡張されたスキルと多様なツールとの統合を実現し、StackAI買収によりサードパーティシステムとの連携も可能に。Asanaは自社モデルではなく、独自のハーネスとワークグラフを中核技術としている。

  • Dashは個人向けAIチーフ・オブ・スタッフで、会議やSlack、メールからタスクを自動収集。
  • AI TeammatesはGmail、Slack、HubSpotなどとの統合スキルが拡充。
サイト内本文

ベイン調査:AIコスト削減目標未達成の原因は人間の介在

ベインが951社を調査したところ、約40%がAIによるコスト削減率10%未満にとどまり、目標の11~20%に届かなかった。完全自律型AIエージェントを稼働しているのはわずか7%で、ビジネスケースの前提が現実と乖離している。

  • 約40%の企業がAIコスト削減率10%未満で、目標の11~20%に達せず。
  • 完全自律型AIエージェントを稼働しているのはわずか7%。
サイト内本文

Nexus 実戦投入:アーリーアクセス顧客の実績 | Pinecone

Pinecone Nexus は、クエリ前に構造化された知識をコンパイルすることで、AI エージェントの精度向上、レイテンシとコスト削減を実現するナレッジエンジンです。本記事では3つの企業事例を紹介:Melange の特許検索では精度25%向上、レイテンシ77%削減、トークンコスト97%削減;M&A デューデリジェンスでは精度14%向上、レイテンシ48%削減、トークンコスト92%削減;Gong 通話文字起こしの収益分析では精度94%向上、レイテンシ18%削減、トークンコスト85%削減。

  • Pinecone Nexus はクエリ前にコーパスから構造化知識をコンパイルし、検索パイプラインを最適化。
  • 3つの初期顧客事例で精度、レイテンシ、コストの顕著な改善を確認。
サイト内本文

ロボットがあなたに向かって走ってくる:ClaudeとGrok、どちらを搭載しますか?

OpenRouterのJacky Liangが11の大規模言語モデルを2Dバトルロイヤルゲームに投入する実験を行った。Grok 4.1 Fastが43%の勝率で優勝し、1勝あたり0.97ドルと最もコスト効率が良かった。一方、Claude Sonnet 4.6は5勝したものの、1勝あたり26.78ドルとGrokの27.7倍のコストがかかり、アライメントコストの影響が明らかになった。

  • Grok 4.1 Fastは30戦中13勝、1勝あたり0.97ドルで最もコスト効率が良かった。
  • Claude Sonnet 4.6は過度な協力行動を示し、5勝したがコストはGrokの27.7倍。
サイト内本文

PDFを検索可能にする方法:手法と限界

この記事では、PDFの検索可能性の真の意味を探ります。Adobe Acrobatや無料オンラインツールなどの迅速なOCR手法は、簡素な文書には有効ですが、表、マルチカラムレイアウト、低品質スキャンでは失敗します。テキストレイヤーの精度が95%でもエラーが残り、検索が目的に到達できないことがあります。大規模な文書処理やAI統合には、LlamaParseのようなツールで構造化出力(Markdownなど)を生成し、読み取り順序と表構造を保持する必要があります。真の検索可能性は、テキストレイヤーの有無ではなく、精度と構造に依存します。

  • 迅速なOCR手法(Acrobat、無料ツールなど)は簡素な文書に有効だが、表、マルチカラム、低品質スキャンでは失敗する。
  • テキストレイヤーの精度が95%でも、1ページあたり約150文字の誤りが残り、検索がヒットしない。
サイト内本文

オープンソースエージェントとフロンティアアドバイザー:トレーニングとハーネスエンジニアリングによるフロンティア性能の達成

Fireworks AIとHarveyは、Legal Agent Benchmark (LAB)において、単一のフロンティアモデルの呼び出しへの依存を減らしつつ、低コストでフロンティアレベルの性能を達成するための2つのシステムレベルの技術を探求しました。オープンソースのGLM 5.1ワーカーとClaude Opus 4.7アドバイザーによるハイブリッドハーネスは、100タスクで18/100のオールパスを368ドルで達成し、Opus単独(14/100、954ドル)を上回りました。Kimi K2.6へのSFTおよびRFTによるポストトレーニングでは、オールパスが15/100(84ドル)に向上し、平均スコアも改善されました。

  • オープンソースワーカーとフロンティアアドバイザーを呼び出し可能なツールとして使用するハイブリッドハーネスは、エンドツーエンドのフロンティアモデルよりも低コストで高いオールパスを達成します。
  • Fireworksでのポストトレーニング:SFTによりオールパスが11/100から15/100に向上。RFTにより平均スコアが0.863から0.886に向上。
サイト内本文
ツール

Linux創設者リーナス・トーバルズ氏、「コードの99%がAI」という主張に怒り

リーナス・トーバルズ氏は、オープンソースサミットの基調講演で、AIはプログラマーの生産性を向上させるが、コードやシステムアーキテクチャに対する人間の理解を代替できないと述べた。彼はAIをコンパイラに例え、コードの99%がAIによって書かれたと主張する人々はコンパイラの役割を無視していると批判した。また、AIが生成したプルリクエストやバグ報告がメンテナーに負担をかけ、バーンアウトを引き起こしていると指摘した。

  • トーバルズ氏はAIを生産性向上ツールと見なし、プログラマーの代替とは考えていない。
  • コードの99%がAIによるという主張を批判し、人間の理解の重要性を強調。
サイト内本文

場の空気を読むAIコードレビューツールを作りました

CodeMouseは、GitHubに統合されたAIコードレビューツールで、ClaudeやGPTを使用してコンテキストを考慮したレビューを提供します。既存のコメントを読み、重複を避け、クリーンなPRを承認し、あらゆる言語に対応します。価格は月額10ドルで、14日間の無料トライアルがあります。

  • ClaudeやGPTを使用して、すべてのプルリクエストで自動AIコードレビューを実行。
  • リポジトリ全体のコンテキストを考慮したレビュー。
サイト内本文

AI卒業スピーチ

『サタデー・モーニング・ブレックファスト・シリアル』の漫画が、AIが卒業式でスピーチを行う様子をユーモラスに描き、人間の儀式における人工知能の役割を風刺しています。

  • 漫画ではAIが卒業式で挨拶を担当。
  • 学術的な場面でのAIの不条理さをユーモアで表現。
サイト内本文

Anthropic、Claudeがコードの80%以上を記述、世界にAI一時停止ボタンを求める

Anthropicが内部データを公開し、ClaudeがAI開発を大幅に加速していることが明らかになった。生産コードの80%以上がClaudeによって生成され、エンジニアは2024年比で8倍のコードを毎日リリースしている。目標はAIの自己改善であり、これにより開発が急激に加速する可能性がある。そのため、Anthropicは検証可能なグローバルな開発一時停止を提案し、他の主要ラボが同じように停止するなら自社も停止するとしている。

  • Anthropicの内部データでは、Claudeが生産コードの80%以上を生成し、エンジニアのコード出力は2024年の8倍に。
  • 自己改善型AIの実現が目標で、開発速度の指数関数的増加につながる可能性。
サイト内本文

Nouri – あなたの食事に合わせてワークアウトを調整するAI栄養管理

Nouriは、AIを活用した総合ウェルネスアプリで、瞬時の食品スキャン、パーソナライズされた食事プラン、適応型エクササイズプログラム、レストラン推薦を提供します。毎日のウェルネススコアを表示し、PWAとしてiPhoneとAndroidで利用できます。

  • どんな食品も瞬時にスキャンし、栄養成分と健康評価を取得。
  • AIが目標と過去の食事に基づいて毎週の食事プランを生成。
サイト内本文

DirkとLinusがAIとカーネル開発について議論

OSSNAにて、DirkとLinusがAIとカーネル開発について議論しました。2026年5月25日、Joe Brockmeierが報告。

  • DirkとLinusがOSSNAでAIとカーネル開発を議論
  • Joe Brockmeierが2026年5月25日に報告
サイト内本文

AIが促進するネイティブMacアプリ開発の復活

記事は、AI支援プログラミングによるネイティブMacアプリ開発の復活を強調している。独立開発者やプログラミング未経験者がAIツールを活用してMacネイティブアプリを構築しており、10年にわたるiOS中心のトレンドが逆転しつつある。この復活はMacプラットフォームの将来にとって極めて重要であり、Jason Snell自身もこの動きに参加している。

  • AI支援プログラミングがネイティブMacアプリ開発の波を促進
  • 独立開発者やMacユーザーがAIを使ってMacネイティブアプリを開発
サイト内本文

ChatGPTが仕事、趣味、旅行の好みで分類したあなたのナラティブファイルを保存するように

ChatGPTの更新された「ドリーミング」メモリーシステムは、会話から散在する箇条書きではなく、首尾一貫したユーザープロファイルを構築するようになりました。OpenAIによると、情報を最新に保つ成功率は昨年の52.2%から75.1%に跳ね上がりました。

  • 新しい「ドリーミング」メモリーシステムが一貫したユーザープロファイルを構築
  • 情報更新の成功率が52.2%から75.1%に向上
サイト内本文

Google従業員が自社のAIの低性能を揶揄するミームを社内で共有

404 Mediaの報道によると、GoogleはAIに関する声明を修正し、「人間による監視が不可欠」という表現を削除した。この出来事は社内のAIに対する不満と戦略の矛盾を浮き彫りにしている。

  • Google従業員が社内で自社AIを批判するミームを共有。
  • Googleの広報担当者が声明の修正を要求し、「人間の介入が重要」という表現を削除。
サイト内本文
研究

GoogleがSiriをApple Watchに必要なAIヘルスコーチに変える方法

Appleの開発者会議が月曜日に開幕。Googleとの提携により、同社のヘルススイートとウェアラブルが大幅に強化される可能性がある。この記事では、Google GeminiがSiriをどう強化するか、Appleが検討するヘルスチャットボットやHealthアプリの刷新について解説する。

  • AppleとGoogleが提携し、Geminiが次世代Siriを搭載
  • AppleがヘルスAIアシスタントを導入し、健康・日記・フィットネスアプリのデータを統合へ
サイト内本文

Cloudflare AI Gatewayが支出制限をサポート

Cloudflare AI Gatewayに支出制限機能が追加され、モデル、プロバイダー、カスタムメタデータごとに予算を設定できます。累積支出が制限に達すると、リクエストはブロックされるか、安価なモデルにフォールバックします。

  • 支出制限は実際のドルコストをリアルタイムで追跡し、超過すると429レスポンスでリクエストをブロックします。
  • モデル、プロバイダー、カスタムメタデータのディメンションで制限をスコープできます。
サイト内本文

Anthropic AIがZcashの偽造脆弱性を発見、ZECが30%下落

ZcashのOrchardプールに深刻な偽造脆弱性が発見され、理論上は無限のZECを鋳造可能となる問題が公表され、ZEC価格は24時間で30%以上下落した。脆弱性はセキュリティエンジニアのTaylor Hornby氏がAnthropicのClaude Opus 4.8を使用して発見し、6月3日のハードフォークで修正された。しかし、2022年5月から存在していた脆弱性が悪用されたかどうかは暗号的に証明できず、市場の懸念を招いている。

  • ZcashのOrchardプールに深刻な偽造脆弱性、ZECが30%急落。
  • 脆弱性はセキュリティエンジニアがAnthropic AIの支援で発見、ハードフォークで修正。
サイト内本文

大学教授がAIを使って意見記事を執筆したことを認める──テクノロジーへの信頼をめぐる問題

大学の副学長がオーストラリアの主要紙に寄稿した意見記事でAIを使用したことを認め、事前に開示していなかったことが、AIの利用と信頼のギャップを浮き彫りにした。Roy Morganのデータによると、14歳以上のオーストラリア人の58%が毎月AIを利用している。

  • 大学副学長がAIを使用して意見記事を執筆し、事前開示なし。
  • この出来事はAI利用と信頼の乖離を示す。
サイト内本文

足式ロボットのオドメトリのための接触表現学習

本研究は、関節エンコーダのみを用いて足式ロボットの接触検出を行う自己教師あり表現学習フレームワークを提案する。力センサを必要とせず、従来の教師あり手法や確率ベースライン法より優れた性能を示し、コードを公開している。

  • 自己教師ありフレームワークが関節エンコーダのみで接触検出、力センサ不要
  • 立脚相と遊脚相の確率的モデリングでオドメトリのロバスト性向上
サイト内本文

ニューラルODEを用いたリーマン多様体上のデモンストレーションからの学習:拡張アブストラクト

本論文は、ニューラル常微分方程式(ODE)を用いてリーマン多様体上でデモンストレーションから学習(LfD)する新しい手法を提案する。従来のLfDはユークリッド空間で行われるが、ロボットの状態(例えば姿勢)は曲がった空間上で自然に変化する。提案手法はニューラルODEにより測地線を効率的に推定し、多様体上の任意の2点間の自然な運動生成を実現し、測地線をタスク空間にデコードしてロボットに実装する。シミュレーション実験によりフレームワークの有効性を検証している。

  • リーマン多様体上でニューラルODEを用いたLfDを提案し、位置と姿勢の両方のデータを扱う。
  • ニューラルODEで測地線を数値推定し、計算負荷を軽減する。
サイト内本文

リー群におけるナビゲーションベクトル場のための距離関数の効率的計算

ロボット制御における経路追従問題に対し、リー群上の点と曲線の距離を効率的に計算する手法を提案。曲線をG-多項式で表現し、その構造を利用して多項式求根問題に帰着させることで、計算時間を大幅に削減しつつ精度を維持する。SE(3)群に対する実用的な公式を提供し、ロボットアームで実験検証。計算パッケージはオープンソース。

  • G-多項式曲線を用いた距離計算法を提案し、問題を多項式求根に帰着。
  • 既存の最適化ベース手法に比べ、計算時間を大幅に短縮し精度は同等。
サイト内本文

新しい四元数ジョイントケーブル駆動冗長マニピュレータ構成とFABRIKおよび残差強化学習によるその制御

研究者らは、より低いハードウェアコストでより広い作業空間を実現する新しい4セグメント8ジョイントの四元数ジョイントケーブル駆動冗長マニピュレータ構成を提案した。残差強化学習は、位置および方向の精度において最先端のFABRIKアルゴリズムを3桁上回り、より簡単な制御実装を可能にする。この研究は、この種のマニピュレータと制御システムの設計に新たなツールを提供する。

  • 新しい4セグメント8ジョイント四元数ジョイント構成により、低コストで広い作業空間を実現
  • 残差強化学習がFABRIKよりも3桁高い精度を達成
サイト内本文

大きなステップサイズの勾配降下法が多経路深層線形ネットワークの対称性を回復する

多経路深層線形ネットワークの最近の解析では、勾配流を用いて「勝者総取り」の専門化、すなわち経路対称性が破れ各特徴が単一経路に集中することを予測している。本研究では、大きなステップサイズの離散勾配降下法(GD)が異なる振る舞いを示すことを明らかにする。単一経路解はシャープな最小値である一方、経路間で信号を分散するとシャープネスが低下し、その低下率は経路数と深さの両方に依存して減少することを証明する。その結果、初期訓練では勾配流が予測する深さ駆動の対称性破れが再現されるが、その後、安定限界での振動がこの傾向を覆し、ネットワークを信号が経路間で再分配される再均衡フェーズへと導く。これらの結果は、深さが経路競争をどのように形成するかを明確にし、大きなステップサイズのGDが永続的な単一経路支配ではなく共有表現を好む理由を説明する。

  • 大きなステップサイズの勾配降下法は、多経路深層線形ネットワークの経路対称性を回復し、勾配流が予測する勝者総取りの専門化を打ち消す。
  • 単一経路解はシャープな最小値であり、多経路分布はシャープネスを低下させ、その低下率は経路数と深さに依存する。
サイト内本文

庭を耕す:AIを異なる方法で使い、面白くて便利なアプリを作る

Mike Caulfield氏は、映画推薦サイトPlot.fyiを紹介。このサイトは、Claude Codeを使ってオフラインで1万本の映画にタグを付け、リアルタイムのAI呼び出しなしで動作する静的HTMLページとして構築されている。従来のAIラッパーアプリ(高コスト or 陳腐化)のジレンマを回避し、データの所有権を重視する。将来的なAIの進化にもかかわらず、今のうちに代替パターンを探る余地があると主張する。

  • Plot.fyiはAIをオフラインで使いデータを強化、実行時はAI不要。
  • 1.9MBのJSONファイルとブラウザ内JavaScriptで動作。
サイト内本文

スマートフォンカメラによるパッシブな心臓健康モニタリングへの取り組み

Google Researchのチームは、スマートフォンのフロントカメラを使って日常使用中に心拍数と安静時心拍数をパッシブに測定するシステムPHRMを開発しました。Nature誌に発表された研究では、心拍数の平均絶対パーセント誤差(MAPE)が心電図(ECG)と比較して10%未満、日次の安静時心拍数の平均絶対誤差(MAE)がウェアラブルデバイスと比較して5 bpm未満という精度を達成。システムは、約700名の参加者から収集した35万本以上のビデオクリップからなる多様なデータセットでトレーニングされ、肌色のバランスが確保されています。PHRMは15の主要な遠隔光電容積脈波法(rPPG)モデルを凌駕し、実環境で全肌色に対して精度基準を満たした唯一のモデルです。

  • GoogleのPHRMシステムは、スマートフォンのフロントカメラを利用し、顔認証後にパッシブに心拍数と安静時心拍数をモニタリングする。
  • Nature研究で、PHRMは全肌色において心拍数MAPE <10%(ECG比)、日次安静時心拍数MAE <5 bpm(ウェアラブル比)を達成。
サイト内本文
ロボット

中国が人型ロボットのデータ競争で人間労働力を活用する方法

北京では、Daniel Wang氏が自宅に人型ロボットを招き入れ、実際の家事は人間のハウスキーパーが行う中、ロボットは訓練データを収集した。これはロボット工学におけるデータ不足を浮き彫りにし、中国が低コスト労働力を活用して現実世界のデータを入手する戦略を示している。

  • 深圳のX Square Robotが家庭から有料でデータを収集し、人型ロボットを訓練
  • ロボットは人間のハウスキーパーに補助され、主にデータ収集を担当
サイト内本文
スタートアップ

SpaceXのIPOビデオ、個人投資家にマスク氏の宇宙・AI・小惑星の夢を売り込む

SpaceXは個人投資家向けのIPOロードショービデオを公開し、CFOのBret Johnsen氏がロケット、Starlink、AI事業の連携を説明。Starlink、AIソリューション、宇宙データセンター、ポイントツーポイント旅行、小惑星採掘などの野心的な目標を強調し、粗利益率と純利益率の改善目標を示した。IPOの評価額は約1.77兆ドルで、6月11日に価格決定、ティッカーはSPCX。

  • SpaceXは17分間のIPOロードショービデオを公開し、世界中の個人投資家を対象とする。
  • CFOのJohnsen氏がロケット、Starlink、AI事業を結びつけ、人類を多惑星種にするというビジョンを強調。
サイト内本文

Vibe-coding現象がAIスタートアップSupabaseを105億ドルの評価額に押し上げ

データベーススタートアップSupabaseは、5億ドルの資金調達を発表し、評価額は105億ドルに達しました。同社はAIアプリ開発向けのバックエンドツールを提供し、vibe-codingの流行から恩恵を受けています。

  • Supabaseが5億ドル調達、評価額105億ドル
  • Claude CodeやCodexなどのAIツールがプラットフォームの大部分を占める
サイト内本文
チップ

ソウルの目的:NVIDIAと韓国がAIの未来をどう築くか

NVIDIAの創設者兼CEOのジェンスン・フアン氏が今週ソウルを訪れ、韓国のAIエコシステムのパートナーやビルダーと会談。AIサプライチェーン、ロボティクス、物理AIの機会に焦点を当てる。

  • フアン氏は下半期の繁忙期に備え、AIサプライチェーンを調整するためソウルを訪問。
  • Grace BlackwellとVera Rubinシステムの進捗を強調し、韓国へのAI投資を促す。
サイト内本文

OCTおよびOCTアンギオグラフィに基づく深層学習支援型AMDステージング

本研究は、OCT/OCTAデータを用いて加齢黄斑変性(AMD)の重症度を自動分類する深層学習モデルを開発した。271名の参加者において、バイオマーカーマップ、2D en face投影、3Dボリュームの3つのモデルを評価。すべてのモデルが良好な性能を示し、バイオマーカーベースモデルが最高の総合性能(QWK=0.85)を達成し、特に早期AMD検出に優れていた。

  • OCT/OCTAデータを用いたAMDステージングのための3つの深層学習モデルを開発・評価。
  • バイオマーカーベースモデルが最高の総合性能(QWK=0.85)と早期AMD検出(F1=0.59)を達成。
サイト内本文

光で動く新しいチップがAIと量子コンピューティングを加速する可能性

モナシュ大学の科学者たちは、光に基づく情報を生成、操縦、読み取りできる小型チップを1つのデバイスで作成し、超高速でエネルギー効率の高いコンピューティングへの大きな飛躍を記録しました。このブレークスルーは、原子レベルの薄い材料とナノ構造を用いて、「谷」自由度と呼ばれる光のユニークな量子特性を制御し、情報を新しい方法で符号化することを可能にします。

  • 集積チップは、単一のコンパクトシステム内で光信号を生成、ルーティング、変換する初のもの。
  • 「谷自由度」を利用して情報を符号化し、データ処理の新しい方法を提供。
サイト内本文

カナダ国家人工知能戦略:AI for All

カナダ政府は、信頼・機会・主権を中核とする国家AI戦略「AI for All」を発表した。同戦略は6つの柱で構成され、市民保護、経済活性化、主権AI基盤の構築、国内企業の育成、国際連携を推進。AIの広範な導入により、2030年までに年間1,870億カナダドルの経済効果を見込む。

  • カナダの新AI戦略は、信頼、機会、主権の3つの価値を基盤とする。
  • 6本の柱:市民保護、エンパワーメント、繁栄、主権AI基盤、国内チャンピオン育成、国際連携。