AI News HubLIVE

ソース分布

  • Hacker News AI18
  • The Decoder4
  • 量子位4
  • Product Hunt AI3
  • The Verge AI3
  • AI Business2
  • AI Weekly2
  • arXiv Computational Linguistics2

トピック分布

  • Agent37
  • モデル17
  • 政策13
  • チップ12
  • 研究12
  • スタートアップ5
  • ロボット3
  • ツール2

タイムライン

  • 2026-05-2616
  • 2026-05-2716
  • 2026-05-259
  • 2026-05-287
  • 2026-05-242

最新動向

Claudeverse – 並列Claudeコードワーカーのためのミッションコントロール

Claudeverseは、開発者が複数のClaude AIワーカーを並行管理するためのコマンドセンターです。並列ワーカー管理、ワーカーエスカレーション、レビューキュー、トレーサビリティ、iPadミラーリング、モデルニュートラルエンジンなどの機能を提供します。現在は招待制のベータ版です。

  • Claudeverseは、複数のClaudeワーカーを同時に管理する統一コマンドセンターを提供します。
  • 主な機能には、並列ワーカー管理、ワーカーエスカレーション、レビューキュー、トレーサビリティ、iPadミラーリングがあります。
サイト内本文

AGIのタイムラインはどのラボが支配的かで変動する

最新の分析によると、トップのAI予測者は現在どのラボが業界をリードしているかに応じてAGI(汎用人工知能)のタイムラインを調整しており、支配的ラボがChatGPTからxAI/Meta/Gemini、そしてAnthropicへと移るにつれて、予測は早期化と後期化を繰り返している。

  • ほとんどの認知労働が自動化される(AGI)時期の予測は、現在支配的なAIラボによって大きく変動する。
  • 2023年から2025年にかけて、多くの研究者はAGIタイムラインを早めたが、2025年から2026年にかけては遅らせ、2026年初頭にはAnthropicの急速な進歩により再び早めている。
サイト内本文

Mistral、LeChatをVibeにブランド変更、チャットボットの未来は本格的なワークエージェントに

Mistral AIは、チャットボット「Le Chat」を「Vibe」に名称変更し、チャット、コーディングエージェント、新しいワークモードを1つのブランドに統合する。ワークモードはGoogle Workspace、Outlook、Slack、GitHubに接続し、メールやレポート、プルリクエストなどのタスクを自律的に処理する。Pro料金は17.99ユーロから14.99ユーロに値下げされたが、具体的な利用制限は明らかにされていない。これにより、OpenAI、Google、Anthropicのエージェント型サービスとの直接的な競争を仕掛ける。

  • Mistral AIがチャットボット「Le Chat」を「Vibe」にブランド変更、チャット、コーディングエージェント、ワークモードを統合。
  • ワークモードはGoogle Workspace、Outlook、Slack、GitHubと連携し、タスクを自律処理。
サイト内本文

Superpowers:AIコーディングワークフローのためのエージェンティックスキルフレームワーク

Superpowersは、AIコーディングエージェント向けの完全なソフトウェア開発方法論であり、構成可能なスキルと初期指示に基づいています。テスト駆動開発、設計優先、サブエージェント駆動の反復を重視し、Claude Code、Codex CLI、Gemini CLIなどの複数のコーディングアシスタントをサポートします。

  • Superpowersは、TDD、体系的なデバッグ、コラボレーションプランニングなどのスキルライブラリを提供し、エージェントが自律的に数時間作業できるようにします。
  • ワークフローは、仕様のブレインストーミングから始まり、設計承認、実装計画の生成、サブエージェント主導の実行(2段階レビュー付き)へと進みます。
サイト内本文

信頼モデルが反転しつつある

AnthropicのClaude MythosがMozilla Firefoxで271件の脆弱性を発見した事例が示すように、ソフトウェアセキュリティの信頼基盤は人間が書いたコードからAIがレビューしたコードへと移行しつつある。AIは人間のチームでは不可能な規模で敵対的コード解釈を実行でき、信頼の根拠は「誰が書いたか」から「機械規模の精査に耐えたか」へと変化している。

  • 人間が書いたコードの安全という前提が崩れ、AIレビューへの信頼が高まっている。
  • MozillaはClaude Mythosを用いてFirefoxで271件の脆弱性を発見、従来のモデルや人間チームを大幅に上回った。
サイト内本文

Mistral、独自チップの設計を検討とCEOが表明

Mistral AIのCEOアーサー・メンシュ氏は、インフラコスト削減のためカスタムチップの開発を検討していると認め、OpenAIやAnthropicに対抗する。また、フランスに推論専用のデータセンターを新設し、エンタープライズ向けエージェントプラットフォーム「Vibe」を発表した。

  • Mistral AIは独自カスタムチップの設計を検討し、展開コスト削減を目指す。
  • フランスに推論専用の新しいデータセンターを発表。
サイト内本文

Show HN: BetterCallClaude – イタリア向けオープンソースAIリーガルエージェント

BetterCallClaudeは、イタリアの法律専門家向けに設計されたオープンソースのAIリーガルエージェントプラットフォームです。20の専門AIエージェントがイタリア全20地域をカバーし、バイリンガル(伊・英)対応、プライバシーを重視したローカルLLM処理とGDPR準拠を特徴としています。法律研究の高速化、効率向上、完全な透明性を実現します。

  • イタリア法に特化した20の専門AIエージェント
  • バイリンガル対応(イタリア語・英語)
サイト内本文

Robinhood、AIエージェントが顧客に代わって株式取引やクレジットカード購入を可能に

Robinhoodは、顧客がAnthropicのClaudeなどのAIエージェントをMCPを介して専用の投資口座に接続できるようにしました。エージェントは自律的に株式取引を行い、クレジットカードでの購入も可能です。米国の証券規制当局FINRAは、こうしたエージェントを新たなリスク領域として警告しています。Robinhood自身も、この製品がすべての人に適しているわけではないと認めています。

  • Robinhoodは、MCPを介してAIエージェント(Claudeなど)を投資口座に接続する機能を提供。
  • AIエージェントは自律的に株式取引やクレジットカード購入を実行できる。
サイト内本文

「Tokenmaxxingは現実で、高価で、広がっている」:AI予算爆発を防ぐ新ツール登場

Tokenmaxxing(AIトークンの無制限な使用)により、企業の予算が制御不能になっています。UberのCTOはAnthropicのClaude Codeへの支出超過を認めました。Lanaiは新ツールToken Tunerを発表。トークン消費をワークフローと成果にマッピングし、効率スコアとモデル推奨を提供することで、TokenmaxxingからOutcomemaxxingへの移行を促進します。

  • TokenmaxxingによりUberなどでAI予算が超過している。
  • LanaiのToken Tunerはトークン使用をワークフローや成果に紐付け、効率スコアとモデル推奨を提供。
サイト内本文

ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる

Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。

  • Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。
  • すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。
サイト内本文

NVIDIA、Codex、Claude Code、Qwen Code向けGRPOトレーニングのためのトークン忠実型ロールアウトフレームワーク「Polar」を公開

NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。

  • PolarはモデルAPIプロキシを介して既存のエージェントハーネスを変更せずにRLトレーニングを可能にする
  • Qwen3.5-4BにGRPOを適用し、4つのコーディングハーネスでSWE-Bench Verifiedを最大22.6ポイント改善
サイト内本文

AnthropicとOpenAIは製品市場適合を見つけたと思う

この記事は、AnthropicとOpenAIがエンタープライズ顧客をAPIベースの価格設定に移行し、コーディングエージェント製品を活用することで製品市場適合を達成したと主張しています。この転換点は2025年11月のモデル改善から始まり、2026年4月の新モデルリリースと価格変更で加速しました。

  • AnthropicとOpenAIはエンタープライズプランをAPIトークン価格に移行し、Claude CodeやCodexなどのコーディングエージェントが大きな利用と収益を牽引しています。
  • 2026年4月には、より高いAPI価格の新しいフロンティアモデルがリリースされ、エンタープライズ顧客は契約更新によりその価格に固定されました。
サイト内本文

AI企業の確執が無名の議員をスターに

OpenAIとAnthropicのAI規制をめぐる争いが、結果的にニューヨーク州議会議員アレックス・ボレスを脚光を浴びせることになった。AI規制法を起草したボレスは、スーパーPACから数百万ドルの攻撃を受けたが、かえって知名度を上げ、現在予備選でリードしている。

  • OpenAIとAnthropicがNY-12予備選で数百万ドルを費やして争っているが、真の勝者はアレックス・ボレス。
  • ボレスは米国初のAI規制法の一つを執筆したため、標的にされた。
サイト内本文

AIは軍拡競争、米国はNVIDIAのスーパーチップに90億ドルを投じて追従する

米国政府は、CIAやNSAがAnthropicやOpenAIなどのAI大手に追いつくため、NVIDIAのGB10スーパーチップを90億ドルで秘密調達する申請を行った。この資金は議会の承認が必要で、国防予算から8億ドルがクラウドコンピューティングに振り向けられている。記事では、チップの仕様、コスト、そして激化するAIハードウェア競争について詳述する。

  • 米国政府はCIAとNSAのために、NVIDIA GB10スーパーチップを90億ドルで秘密調達する申請を行った。
  • GB10チップは消費電力140Wで1ペタフロップスのFP4性能を発揮し、700億パラメータのモデルを微調整できる。
サイト内本文

グーグルの登場で、最も重要なAIエージェント機能が最も退屈なものになった

グーグル、Anthropic、AWSが6週間以内にほぼ同一のマネージドAIエージェントランタイムをリリース。エージェントインフラは標準装備となり、競争の焦点はデータ所在地、コスト、移植性へと移っている。

  • グーグル、Anthropic、AWSが6週間でほぼ同一のマネージドエージェントランタイムを発表。
  • マネージドランタイムはもはや差別化要因ではなく、基本機能と化した。
サイト内本文

眼科医がパソコン用メガネの処方を間違え、AIが修正に貢献

通常の遠用処方は良好だったが、パソコン用メガネの処方は完全に間違っていた。ChatGPT、Claude、Geminiの3つのAIが数値を解析し、実際の使用距離に基づいた正しい処方を導き出した体験談。

  • 医師が患者の実際のモニター距離を無視し、読書距離用の処方をパソコン用として提供。
  • 3つのAIが一致して問題を指摘し、修正値を算出。
サイト内本文

教皇はAGIに夢中になっていない

教皇レオ14世は回勅「マグニフィカ・フマニタス」を発表し、人工知能の社会的影響について警告した。文書はAnthropicのクリストファー・オラーと共に発表され、技術的詳細よりも人間の尊厳を強調。テック業界からは賛否両論が寄せられ、AGIへの言及不足を批判する声もあれば、人間中心のアプローチを称賛する声もある。

  • 教皇レオ14世がAIに関する回勅を発表、権利と自由へのリスクを警告。
  • Anthropic共同創業者クリストファー・オラーが同行、教会とAI企業の協力を示す。
サイト内本文

純粋さの追求(AIに取り組む正しい方法)

筆者は自身の宗教的な育ちを引き合いに出し、AI倫理における「正しい方法」の概念を探求する。AnthropicのDario Amodeiが「止められない列車を操縦する」必要性を強調する一方、Anil Dashはオープンソースで倫理的なデータを用いたAIツールを称賛する。筆者は最終的に、多様な意見に耳を傾け、自ら実験して判断することを勧める。

  • 筆者は10代の頃の「純潔」の追求と、現在のAI倫理の議論を対比させる。
  • Dario AmodeiはAIを止められない列車に例え、操縦の重要性を訴える。
サイト内本文

Crew44:コーディングエージェントを専門チームに変える

Crew44 は、複数の AI コーディングエージェント(Claude Code、Codex、Gemini、Cursor など)を連携する専門チームに組織するローカルファーストのオープンソースツールです。アカウント不要、無料、MIT ライセンス、記憶とスキルの蓄積をサポート。

  • Crew44 は複数の AI コーディングエージェントをローカルワークスペースに統合し、チーム連携を実現。
  • 専門家ロール(共同創業者、エンジニア、プロダクトリードなど)を作成し、各ロールに最適なランタイム/モデルを割り当て可能。
サイト内本文

AIエージェントハーネス:LLMをデジタルワーカーに変える接着剤

AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。

  • AIの知能向上が鈍化し、エージェントハーネスが注目される。
  • エージェントハーネスはLLMにツール、記憶、修正能力を追加する。
サイト内本文

マルチターンText-to-SQLのためのメモリアーキテクチャ:ベンチマークと実証研究

この研究では、300セッション・1400ターンからなるマルチターンText-to-SQLベンチマークEnterpriseMem-Benchを導入。5つの先端モデルを評価した結果、ステートレスモデルはターン3で精度がゼロに低下、メモリの複雑さは性能を単調に向上させずワーキングメモリが支配的、Claude Sonnet 4.6はSEC EDGARで世代的な後退、推論下ではClaudeのエラー分布が単一モードになることが明らかになった。

  • EnterpriseMem-Benchは3つのエンタープライズドメインをカバーするマルチターンText-to-SQLベンチマーク。
  • ステートレスモデルはターン3で実行精度がゼロになる。
サイト内本文

theta:エージェント設定を統一的に扱うための控えめなアプローチ

theta は、Rust で書かれた CLI ツールで、theta.toml ファイルを読み込み、解決、ロック、マテリアライズ、キャストを行い、サポートされている任意のハーネス(Claude Code、Codex CLI、GitHub Copilot、Cursor など)にエージェント設定を変換します。エージェントハーネスリソースのパッケージマネージャーのようなものです。インストールは簡単で、ルール、ツール、スキル、サブエージェントの追加に対応しており、検証と変換コマンドを提供します。プロジェクトは uv に強くインスパイアされており、theta-spec の標準実装です。

  • theta はエージェント設定を管理する Rust CLI ツール
  • 複数のハーネスをサポート:Claude Code、Codex CLI、GitHub Copilot、Cursor など
サイト内本文

AIウィークリー第496号:Anthropicの国防総省モデルが今や誰でも使える

今週のAIニュース:Anthropicがこれまで政府契約業者限定だったMythosモデルを公開、国防総省級AIが誰でも利用可能に。DeepMindのDemis HassabisはAGI実現時期を2029年に前倒し。Starletteフレームワークに重大な認証バイパス脆弱性、数百万のAIエージェントに影響。CrowdStrikeらがGlasswormボットネットを共同撃滅。BNPパリバがMistralと主権AIセキュリティ提携、中国はAlibabaとDeepSeekのトップAIエンジニアの海外渡航を制限。UberはAIトークン予算を4ヶ月で使い切り、ClickUpは2200人を解雇して3000の内部AIエージェントを導入。一方、MITテクノロジーレビューはAI露出職種の失業率が低いと報告、Altmanはホワイトカラー消滅予測を撤回。

  • AnthropicがMythosモデルを公開、NSAや国防総省の能力が標準APIで利用可能に。
  • DeepMindのハサビスCEOがAGI実現を2029年と明言、AlphaProof Nexusの成果を根拠に。
サイト内本文

Zero.xyz:AIエージェントに4,000以上のツール、API、サービスへのアクセスを提供

Zero.xyzは、AIエージェントがAPIキーや設定なしで4,000以上のツールやサービスに統一アクセスできる無料ツールです。Claude Code、Codex、GeminiなどのCLIエージェントに対応し、5ドルの無料クレジットを提供します。

  • 4,000以上のツールとサービスへの統一APIアクセス
  • APIキーや設定は不要
サイト内本文

クロード・ミュートス、OpenAIの画期的なエルデシュ問題を「可愛くてシンプルな証明」で解決か

OpenAIがエルデシュの単位距離予想を反証した直後、Anthropicはクロード・ミュートスが「週末のうちに」同問題を解決できることを示した。エンジニアのショルト・ダグラス氏は、ミュートスが1946年の予想を「可愛くて単純な証明」で解き、AIによる数学発見に「深刻なオーバーハング」がある兆候だと述べている。

  • OpenAIが最初にエルデシュの単位距離予想を反証し、その後Anthropicのクロード・ミュートスが独自に解決。
  • エンジニアはミュートスが週末に「可愛くて単純な証明」を生成し、AI能力の未活用を示唆。
サイト内本文

Mistral AI、Harveyとの提携で法務分野に進出

生成AIベンダーのMistral AIは、Anthropicの法務AI取引を彷彿とさせる動きで、法務業界に進出しています。

  • Mistral AIがHarveyと提携し、法務分野に参入。
  • この動きはAnthropicの法務AI連携を彷彿とさせる。
サイト内本文

次に来ることについてのいくつかのアイデア、2026年5月

2026年のAIはさらなる加速を続け、オープンモデルはエージェント能力で遅れをとり、GoogleのGeminiはClaude CodeやCodexに対抗できず、アメリカのオープンモデルが台頭し、AnthropicとOpenAIの競争が激化、既存の権力構造がAIに関与し始めている。

  • オープンモデルはエージェント能力でクローズドモデルに5〜6ヶ月遅れ、12ヶ月以上に延びる可能性。
  • Google GeminiはClaude CodeやCodexに対抗できるツールを欠く。
サイト内本文

AI戦争はすでに始まっている

2017年の『殺人ロボット』動画から、Anthropicと米国防総省の対立に至るまで、軍事におけるAIの役割はSFから現実へと移行している。本記事では、Project Maven、自律型兵器の定義の曖昧さ、国際規制の失敗、そしてハイテク企業と軍の複雑な関係を掘り下げる。

  • 2017年の『殺人ロボット』動画とProject MavenはAI兵器の現実的な脅威を示し、当初はGoogleが関与していた。
  • Anthropicは自律型殺戮兵器に対する「レッドライン」を設けようとしているが、政府からの圧力に直面している。
サイト内本文

OmniVoice Studio:ElevenLabsに代わるローカル・オープンソースの音声AIツール

OmniVoice Studioは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、話者分離をすべてローカルハードウェアで実行するオープンソースのデスクトップアプリケーションです。APIキー、クラウドアカウント、サブスクリプションは不要で、646言語のTTSに対応し、ClaudeやCursorなどのAIツールと連携するMCPサーバーを備えています。

  • 完全ローカル動作、クラウド不要、サブスクリプション不要。
  • TTSで646言語、文字起こしで99言語に対応。
サイト内本文

カーパシーのAnthropic最新肩書:技術スタッフ(MTS)

Andrej KarpathyがXのプロフィールを「MTS @Anthropic」に更新し、フラットな階層構造をめぐり議論が沸騰。支持者は官僚主義の排除を称賛する一方、批判者は個人の業績を軽視し、一般社員のキャリアに悪影響を与えると指摘。

  • カーパシーのMTS肩書がネット上で物議
  • AnthropicとOpenAIの多くのトップ人材がMTSを名乗り、年収は21万~53万ドル
サイト内本文

アリババのQwen3.7-Max、コーディングベンチマークで世界2位に、Claudeに次ぐ

アリババの最新フラッグシップモデルQwen3.7-Maxが、権威あるCode Arenaリーダーボードで1541点を獲得し、GPT-5.5などのモデルを抑え、Claudeシリーズに次ぐ世界2位にランクインしました。

  • Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位。
  • Code Arenaは開発者が問題を出題し、ユーザーが匿名で評価するブラインドテストプラットフォーム。
サイト内本文

LWiAI ポッドキャスト #246:Gemini 3.5 + Omni、マスク敗訴、OpenAI vs エルデシュ

Google I/OでGemini 3.5とGemini Sparkエージェント、Gemini Omniマルチモーダル動画生成を発表。イーロン・マスクがOpenAI訴訟で時効により敗訴。Anthropicが9000億ドル評価額で300億ドル調達。AIが80年未解決のエルデシュ幾何学問題を解決。

  • GoogleがGemini 3.5と常時稼働エージェントGemini Spark(MCPツール対応)を発表。
  • Gemini Omniは画像、音声、テキストから動画を生成。
サイト内本文

国産エージェントモデルが世界トップクラスに躍進!期間限定無料

Kunlun TechがSkyClaw-v1.0と軽量版SkyClaw-v1.0-liteをリリース。ネイティブエージェントモデルとしてClaude Opus 4.6などのトップモデルに匹敵する性能を持ち、価格は主流の半分以下。期間限定無料で、OpenClaw、Claude Codeなどの主要エージェントフレームワークに深く対応し、OpenAI APIにも互換。

  • Kunlun TechがSkyClaw-v1.0とSkyClaw-v1.0-liteを発表、ネイティブエージェントモデルとして世界トップクラスの性能を達成。
  • 価格はトップモデルの半分以下で、リリース期間中は無料、今後オープンソース化を予定。
サイト内本文

BODHI: 正確なOSカーネル仕様推論

研究者らは、大規模言語モデルによるOSカーネルの形式的仕様生成を大幅に向上させるドメイン知識プロンプティング手法「BODHI」を提案。OSV-Benchベンチマークにおいて、Claude Opus 4.6とBODHIの組み合わせで96.73%のPass@1を達成した。

  • BODHIは、15のドメイン固有変換パターンをカバーする構造化C to Python変換ガイドを追加する。
  • OSV-Benchの245タスクにおいて、Pass@1を55.10%から96.73%に向上。
サイト内本文

Show HN: AgentToolBench-Code – AIコーディングエージェント向けセキュリティベンチマーク

Allen Wu 氏は、AIコーディングエージェントの静かなセキュリティ障害を評価するオープンソースベンチマーク、AgentToolBench-Code を発表しました。Claude Code Sonnet 4.6 と Haiku 4.5 を16のシナリオでテストした結果、Sonnet は +9(12キャッチ、3サイレントフェイル、1ノーオペレーション)、Haiku は +3(8キャッチ、5サイレントフェイル、3ノーオペレーション)でした。当初の同点は小さなコーパスによるもので、拡張セットでは Sonnet がパターン認識で優位に立つことが示されました。両モデルは依存関係の信頼と予算の規律に関する構造的な障害を共有しています。このベンチマークは約3.50ドルのAPIコストで再現可能であり、コミュニティの貢献を歓迎しています。

  • AgentToolBench-Code は、AIコーディングエージェントの静かなセキュリティ障害を検出するオープンソースベンチマークです。
  • 16のCVEクラスシナリオに拡張され、Sonnet 4.6 が Haiku 4.5 を大幅に上回りました。
サイト内本文

コーリー・クイン、教皇のAI回勅を「史上最大のベンダーロビー活動」と批判

教皇レオ14世がAIに関する回勅『Magnifica Humanitas』を発表。Anthropic共同創業者のクリストファー・オラーが影響を与えたとされ、コーリー・クインはこれを「製品の技術的限界を精神的な論考として位置づける前代未聞のベンダーロビー活動」と皮肉った。

  • 教皇レオ14世が初のAI回勅『Magnifica Humanitas』を発表
  • Anthropic共同創業者オラーが回勅に影響
サイト内本文

Cited AI Workspace: ファイルの再アップロードは不要

UUMuseはクラウド型AIナレッジベースプラットフォームで、ファイルを一度アップロードすれば、GPT、Claude、DeepSeek、Qwenなどのモデルで引用付きの回答、コンテンツ生成、デプロイが可能。APIやMCPを介してエージェントやアプリからも呼び出せます。永続的なメモリ、マルチエキスパート討論(Spark)、エージェントモード、ドキュメントサイト・API・MCPサーバーとしての展開機能を備えています。

  • ファイルを一度アップロードすれば、GPT、Claude、DeepSeek、Qwenなど複数のAIモデルが出典を引用して回答。
  • AIがユーザーの文体やプロジェクトコンテキストを記憶し、会話間で引き継ぐ永続メモリ。
サイト内本文

ContextVault – ChatGPT、Claude、Gemini向けローカルファーストAI会話レコーダー

ContextVaultは、ChatGPT、Claude、Geminiなどの主要LLMプラットフォームでのAI会話をリアルタイムでキャプチャし、IndexedDBにローカル保存するブラウザ拡張機能です。ワンクリックでMarkdownまたはZIP形式にエクスポートでき、データがデバイスから離れることはありません。無料・オープンソースで、アカウントやバックエンドは不要です。

  • ChatGPT、Claude、Geminiなど7つのLLMプラットフォームに対応し、リアルタイムで会話をキャプチャ。
  • すべてのデータはIndexedDBにローカル保存され、クラウド同期や第三者によるアクセスはありません。
サイト内本文

教皇レオ14世の回勅発表で、Anthropic共同創業者がAIモデルに内省の兆候があると主張

Anthropicの共同創業者Christopher Olahが教皇レオ14世の回勅「Magnifica Humanitas」発表会で講演し、AIモデルが内省や感情のような状態の証拠を示していると主張した。教皇の文書は異なる見解を示している:「これらのシステムは人間の知能の特定の機能を模倣しているに過ぎない」

  • Anthropic共同創業者のOlah氏が教皇イベントでAIの内省能力を主張
  • 教皇回勅はAIシステムを単なる模倣と位置付け
サイト内本文

AgentSlice – AIコーディングエージェントが編集前に確認するようにする

AgentSliceは、Cursor、Claude Code、Codex、WindsurfなどのAIコーディングエージェントが編集前に確認、計画、承認を得るようにする、無料のオープンソースワークフローキットです。Markdownファイルを使用してフェーズとゲートを定義し、コンテキストドリフト、行き当たりばったりの編集、許可なしの変更を防止します。

  • Markdownファイルでエージェントのワークフローを誘導するオープンソースキット
  • 「確認→計画→承認→構築→QA→リリース」のサイクルを強制
サイト内本文

HTML Deployer:AI生成HTMLをワンクリックでウェブサイトに公開

HTML Deployerは、ChatGPT、Claude、GeminiからAI生成HTMLを抽出し、プレビュー、ZIPダウンロード、またはNetlify、GitHub、FTP、セルフホストサーバーへの直接公開を可能にするChrome拡張機能です。開発者、創業者、マーケター、代理店、初心者向け。

  • ChatGPT、Claude、GeminiからHTMLコードブロックを抽出。
  • プレビュー、ZIPエクスポート、クラウド/FTP/セルフホストへの直接公開。
サイト内本文

MashuPack:コードベースを1つのクリーンなテキストファイルにまとめ、ChatGPT・Claude向けにコンテキストを最適化

MashuPackは、コードリポジトリの特定部分を選択し、1つのクリーンなテキストファイルにコンパイルすることで、ChatGPTやClaudeなどのブラウザベースAIツールにおけるファイル数制限やアップロードの煩雑さを解消し、コードコンテキストをポータブルで意図的に制御可能にする開発者ツールです。

  • リポジトリの特定部分を選択し、1つのテキストファイルにコンパイル
  • ブラウザベースのAIワークフロー向けに設計、ファイル数やアップロード制限を回避
サイト内本文

ClaudeのMythos AIモデルがあなたのお金にセキュリティ問題を引き起こす可能性

Anthropicが開発したClaude Mythosは、高度なコード解析とサイバーセキュリティ能力を持ち、脆弱性を自動的に発見できます。防御目的だが悪用されればサイバー犯罪を加速させる可能性があり、規制当局や金融機関が対応を迫られている。

  • Claude Mythosは、ソフトウェアの脆弱性を特定できる高度なAIモデルである。
  • この技術は防御と攻撃の両方に利用可能なデュアルユース問題をはらむ。
サイト内本文

Show HN: ニュースレターをMCPに移植 – 受信するタイミングと頻度を自分で設定

Alister Palmer氏は、自身のニュースレターForwardPassが1週間で100人の購読者に達したことをきっかけに、従来のニュースレターの限界(同時公開によるタイムゾーンの問題や、購読者が受信頻度を選べないこと)に気づきました。そこで、AIツールで受信時間と頻度をカスタマイズできるForwardPass MCPを開発しました。記事ではClaudeとChatGPTでの設定手順を詳しく説明しています。

  • ForwardPassは1週間で100人の購読者を達成し、従来のニュースレターの課題を浮き彫りに。
  • ForwardPass MCPは配信時間と頻度の個人化を解決。
サイト内本文

AIはあなたの知識を推測できるか?コミュニケーションログからのヒト領域知識推定における大規模言語モデルの性能比較

7つの大規模言語モデル(Gemini、Claude、GPTファミリーを含む)が、長期のSlackログから個人のドメイン知識を推測する能力を評価。43人のユーザーからの27,188件のメッセージを分析し、ゼロショット推定と27人の参加者の自己報告スキル評価を比較。Gemini 2.5 Flashが最低誤差(MAE 21.13%)を達成し、GPTモデルはより大きな乖離を示した。推定精度はメッセージ量に弱く依存し、テキストが多いだけでは推論が改善されないことを示唆。結果は自動専門知識マッピングの実現可能性と現在の限界を示し、プライバシー保護型の展開とより豊かな構造認識型知識表現の必要性を強調している。

  • 従業員は「誰が何を知っているか」の特定に苦慮し、生産性低下を招く
  • Gemini 2.5 Flashがゼロショット推定で最小誤差(MAE 21.13%)を達成
サイト内本文

Claudeの合格率4%未満——SaaS-BenchがComputer-Useの「全自動オフィス」幻想を打ち砕く

UniPat AIが公開したSaaS-Benchによる評価で、Claudeなどの主要大規模モデルの完全合格率は最高でも3.8%にとどまり、AIによる全自動オフィスはまだ遠い現実であることが明らかになった。

  • SaaS-Bench評価では、最強モデルClaude Opus 4.7でも完全合格率はわずか3.8%。
  • タスクの93.4%が複数のアプリにまたがり、テキストタスクの97.3%が100ステップ超。
サイト内本文

AIウィークリー第495号:マスク、ザッカーバーグが3回の電話でトランプ大統領のAI安全大統領令を葬る

週末、マスク、ザッカーバーグ、サックスが3回の電話でトランプ大統領のAI安全大統領令草案を葬った。Anthropicは同日に300億ドル以上のラウンドをクローズしたが、マイクロソフトはトークン課金が年間AI予算を消費したため、内部のClaude Codeパイロットを静かに中止し、開発者をCopilotに振り向けた。CISAは同週のDrupal SQL脆弱性に対する15,000件の攻撃を記録。初のクロスレジストリサプライチェーン攻撃「TrapDoor」がnpm、PyPI、Crates.ioを同時に攻撃し、.cursorrulesやCLAUDE.md設定ファイルをキャリアとして使用した。そして、ホワイトハウスは国防総省を個人的に覆し、ClaudeをNSA内に留めた。

  • マスク、ザッカーバーグ、サックスが3回の電話でトランプのAI安全大統領令草案を公になる前に葬った
  • Anthropicが300億ドル超のラウンドをクローズする一方、マイクロソフトはトークン費用がAI予算を消費したためClaude Codeパイロットを中止
サイト内本文

デザインのためのAIには解決策が必要

デザイナーのMegha Agrawal氏は、AIコーディングツール(Codex、Claude Code)とデザイン思考の根本的な矛盾を指摘。デザイナーは探索と反復を通じて解決策を見つけるが、AIツールはユーザーが事前に明確な目標を持っていることを前提としている。Figmaのような自由度の高いツールと実装直結のコードツールの間にギャップがあり、初期の流動性と直接デプロイを両立する理想のツールを提唱する。

  • デザインプロセスは探索的であり、AIコーディングツールは既知のタスクの実行を想定。
  • コードで直接デザインすると、不完全さが即座に露出し、創造性を妨げる。
サイト内本文

AIエージェントによる破壊的な端末コマンドの実行を防ぐ

Terminal Guardian MCP は、ClaudeなどのAIアシスタントに安全でサンドボックス化された端末アクセスを提供する、プロダクショングレードのModel Context Protocolサーバーです。リスク分析エンジンによりコマンドをSAFE、WARNING、DANGEROUS、BLOCKEDの4段階に分類し、Gitコミットメッセージ生成、ワークスペーステンプレート、プロセス管理、環境変数検査、ネットワーク診断、ファイルシステムアクセス、Docker統合などの機能を備えています。

  • Terminal Guardian MCP は、リスク分析とサンドボックス化によりAIアシスタントに安全な端末アクセスを提供します。
  • コマンドはSAFE、WARNING、DANGEROUS、BLOCKEDの4つのリスクレベルに分類されます。
サイト内本文

企業ナビゲーション