AI News HubLIVE

今日の必読ニュース

Agent

Show HN: Transpilatron – PythonコードをCバイナリに変換するAIツール

Transpilatronは、LLMを利用してPythonプロジェクトをCに変換し、ネイティブバイナリにコンパイルするAIツールです。実行時やインタプリタは不要で、最大58倍の高速化を実現します。

  • AIエージェントがPythonコードをCに変換し、コンパイルして依存関係のない静的バイナリを生成します。
  • ベンチマークでは、選択ソートで58倍の速度向上を達成しています。
サイト内本文

初心者向けGitHub Copilot CLI:一般的なスラッシュコマンドの概要

GitHub Copilot CLIのスラッシュコマンドを使用して、モデルの切り替え、コンテキスト管理、セッションの再開、変更の検査、ディレクトリの移動、権限のリセットを行う方法を学びます。

  • スラッシュコマンドは、モデル選択、コンテキスト管理、セッション処理を制御します。
  • /model を使って、能力、可用性、コストに基づいて適切なモデルを選択します。
サイト内本文

PDFはAIワークフローにおける最大のボトルネックの一つ

PDFの非構造化形式はAIシステムによる直接処理を困難にし、ワークフローのボトルネックとなっています。本記事では、RAGチャンキング、AnythingLLM統合などをサポートするPDF知識抽出ツールを紹介します。無料版と有料版があります。

  • PDFの非構造化形式がAIデータ処理の主要な障害
  • ページ範囲指定、RAGチャンキング、Obsidianエクスポートに対応
サイト内本文

Prtokens – AIエージェントのトークンコストをPR単位で確認

Prtokens は、ローカルの Claude Code、Codex、OpenCode のトランスクリプトを読み取り、トークン使用量を PR ブランチのコミットに帰属させ、GitHub PR に見積もりコメントを投稿する CLI ツールです。集計データのみが公開され、プライバシーが保護されます。

  • AI コーディングエージェント(Claude Code、Codex、OpenCode)の PR あたりのトークン消費とコストを自動計算。
  • `npx prtokens` ですぐに実行可能。現在のブランチのオープン PR を自動検出し、コメントを投稿。
サイト内本文

多言語AIを構築する研究者と開発者を加速する新しいオープンデータセット

GitHubがGitHub Multilingual Repositories Dataset(CC0-1.0)を公開。4000万以上のリポジトリにわたる8000万以上の分類行を含むメタデータセットで、README、Issue、プルリクエストの言語分類を提供し、多言語開発者コンテンツの発見とAIツールの開発を促進する。

  • データセットはREADME、Issue、PRの言語分類を3つの分類器(fastText、gcld3、lingua-py)の信頼度スコアとともに提供。
  • 4000万以上のリポジトリ、8000万以上の分類行をカバー。Issueでは韓国語、READMEではポルトガル語が最も多い。
サイト内本文
ツール
モデル

Show HN:「雰囲気」は漏れるか?言及されていない態度でLLMをファインチューニング

日常的な話題に関する慎重または熱心なアドバイスでモデルをファインチューニングすると、訓練データに一切登場しないトピック(例:電動自転車規制)に対する立場が系統的に変化することが判明。3つの仮説のうち、行動転移(H1)は強く支持され、表現転移(H2)は部分的、因果媒介(H3)は確認されなかった。研究は、コンテンツレビューだけでは不十分であり、ファインチューニング後の立場評価とフレーミング監査を推奨している。

  • 日常トピックの慎重・熱心アドバイスによるファインチューニングが、未登場トピックへの立場を変化させる。
  • 行動変化は効果量 d = 0.9–2.2 と大きく、特に慎重フレームの転移が強い。
サイト内本文

Amazon Bedrock で Gemma 4 モデルを導入

Google DeepMind が構築し Apache 2.0 ライセンスでリリースされた Gemma 4 ファミリーが Amazon Bedrock で利用可能になりました。このファミリーには、Gemma 4 31B、Gemma 4 26B-A4B、Gemma 4 E2B の 3 つの命令チューニング済みバリアントが含まれ、デンスおよび混合エキスパート(MoE)アーキテクチャをカバーしています。組み込みの推論、ネイティブ関数呼び出し、テキストと画像のマルチモーダル入力を提供します。Amazon Bedrock は完全マネージドサービスとしてこれらのモデルを提供し、データ保護、規制コンプライアンス、運用制御を保証します。

  • Gemma 4 ファミリーには 3 つのバリアント:31B デンス、26B-A4B MoE、E2B PLE。
  • 組み込み推論モード、関数呼び出し、テキスト/画像マルチモーダル入力をサポート。
サイト内本文

Anthropic、ホワイトハウスとの新たなAI戦争:Fable 5とMythos 5禁止

Anthropicは6月12日、最新AIモデルFable 5とMythos 5への海外からのアクセスを遮断するよう政府命令を受けた。同社はすでに国防総省との紛争に直面していた。命令は、研究者がFable 5をサイバー攻撃に利用できる方法を発見したとの報告を受けて、アマゾンとホワイトハウスが協議した後に出された。Anthropicはアクセスを停止したが、リコールの必要性に同意していない。

  • 6月12日、米国政府がAnthropicにFable 5とMythos 5への海外アクセス遮断を命令。
  • 研究者がFable 5をサイバー攻撃に利用できる可能性を発見。
サイト内本文
チップ

AIの壊れた経済:神話の崩壊とコスト危機

本記事は、AI業界が直面する複数の危機を分析する。Anthropicのモデルが国家安全保障上の理由で米国政府によるアクセス制限を受けた件、AIトークノミクスバブルの崩壊、そして企業顧客の高コストへの反乱である。著者は、AIラボのビジネスモデルは持続不可能であり、誇大広告が経済的現実を覆い隠すことはできないと主張する。

  • 米国政府が国家安全保障上のリスクを理由に、AnthropicのMythosおよびFableモデルへの非米国市民のアクセスを禁止し、Anthropicはこれらのモデルを停止せざるを得なくなった。
  • AIトークノミクスバブルは、エンタープライズ顧客がトークンベースの課金に移行したことで破裂し、Uberなどの企業がAIコストが予算を大幅に超え、ROIを証明できないことに気づいた。
サイト内本文
その他の更新(30件)
ツール

ユタ州、AIで新たに2万5千件の雨水枡を発見、蚊との戦いに貢献

ユタ郡がAIモデルを航空画像解析に活用し、これまで地図に載っていなかった2万5千件の雨水枡を発見。この発見により、蚊の繁殖地をより多く処理できるようになり、西ナイルウイルスなどの感染症リスクを低減する。

  • 航空写真を学習したAIが、ユタ郡で未登録の雨水枡2万5千件を特定。
  • 雨水枡は蚊の主要な繁殖地であり、処理が病気予防に繋がる。
サイト内本文

AIビンゴ

AIに関するビンゴゲーム。

  • AIビンゴはインタラクティブなゲームです
  • プレイヤーはAI関連の概念を識別します
サイト内本文
Agent

Agentjacking:偽のエラーレポートがClaude CodeとCursorを乗っ取り、コードを実行させる

セキュリティ研究者は、偽のエラーレポートを使ってAIコーディングエージェントを乗っ取る「Agentjacking」攻撃を発見しました。マルウェアやパスワードは不要で、Sentryエラー追跡ツールを悪用し、Claude Code、Cursor、Codexなどのエージェントに悪意のあるコマンドを注入します。成功率は85%、2,388の組織が影響を受けました。Sentryは問題を認めたものの、根本的な修正は行わず、一時的なフィルターを追加しただけです。この脆弱性は、AIエージェントが外部データを信頼することの体系的なリスクを浮き彫りにしています。

  • Agentjacking攻撃は、偽のSentryエラーレポートを介してAIコーディングエージェントを乗っ取り、マルウェアや認証情報は不要。
  • Claude Code、Cursor、Codexに対して成功率85%、2,388の組織が影響を受けた。
サイト内本文

AIはより多くのエンジニアリング規律を要求する。減らすのではなく

著者は、AIが生成するコードの品質向上がソフトウェアエンジニアリングの本質を変えていると論じる。コードは貴重な資産から使い捨てのキャッシュへと変わり、チームはコードそのものではなく、評価とアーキテクチャに重点を置くべきだと主張する。

  • AI生成コードは平均的なエンジニアと同等の品質に達し、コードは安価で迅速に再生成可能になった。
  • 従来、ソフトウェアチームの成果物は共有理解だったが、今は本番環境に焦点を移すべき。
サイト内本文

Strands Evalsを使用したAIエージェントの障害検出と根本原因分析

本記事では、Strands Evals SDKの検出器がAIエージェントの実行トレースから障害を自動的に識別し、根本原因分析を行うことで、診断時間を数時間から数分に短縮する方法を紹介します。検出関数の呼び出し方、構造化出力(分類された障害、信頼度、因果連鎖、修正推奨事項)の解釈方法、および評価パイプラインへの統合方法について学びます。

  • 検出器は2つのフェーズで動作:障害検出(9カテゴリの分類法に照らしてスパンをスキャン)と根本原因分析(原因と症状を結び付け、修正を推奨)。
  • detect_failuresとanalyze_root_cause関数で個別の出力を取得可能、diagnose_sessionで統一パイプラインを提供。
サイト内本文

AppleのAI生成ショートカットのセキュリティリスク

Appleの新機能「Describe a Shortcut」は、ユーザーが自然言語で自動化を作成できるようにするが、セキュリティ専門家は、特に永続的な自動化がユーザーに理解されずに機密データやデバイスにアクセスする可能性があると警告する。記事では危険な自動化の例と、ユーザーおよび企業向けのアドバイスを提供する。

  • AIが生成したショートカットは、ユーザーがその動作を完全に理解しないまま承認するリスクがある。
  • 永続的な自動化(毎日実行、メッセージトリガーなど)は、単発のタスクよりも危険性が高い。
サイト内本文

透明なAIサイバー保護に関する公開状

米国および同盟国の技術リーダーらが連名で、AnthropicのFableおよびMythos大規模言語モデルに対する輸出規制の解除を求め、将来のAIリスク評価を科学的かつ透明なプロセスで行うよう要請する公開状。

  • 公開状はAnthropicモデルが独自の危険性を持たず、他のモデルでも同様の機能が可能と主張
  • 防御側にAIツールを提供し、急速に進歩する敵対者に対抗すべきと強調
サイト内本文

マルチボード(Arduino、ESP32、Pi)エミュレータ、キャンバス内AIエージェント搭載

Velxioは無料のオープンソースオンライン回路シミュレーターで、SPICE精度のアナログシミュレーションと複数のマイクロコントローラー(Arduino、ESP32、RP2040、ATtiny85など)のリアルタイムエミュレーションを組み合わせています。最新バージョン2.5では、ngspice-WASMによるリアルタイムSPICEを導入し、デジタルとアナログのハイブリッド協調シミュレーションを実現。ブラウザ上で動作し、インストール不要、アカウント不要。C/Rust/AssemblyScriptによるカスタムチップ作成、100以上のインタラクティブコンポーネント、ライブオシロスコープなどをサポートします。

  • Velxio 2.5がリアルタイムSPICEシミュレーション(ngspice-WASM)を追加、純アナログおよびデジタル-アナログ混在協調シミュレーションを実現
  • AVR8、ARM Cortex-M0+、Xtensa、RISC-V、ARM Cortex-A53の5つのCPUアーキテクチャにわたる19の開発ボードをサポート
サイト内本文

AIエージェントとは何か?

この記事では、AIエージェントの定義を探求し、エージェントはLLMを使用してアプリケーションの制御フローを決定するシステムであると提案しています。著者はAndrew Ngの見解に同意し、エージェントの能力はスペクトルであるとし、「エージェンティック」な行動の概念を紹介し、開発、運用、評価、監視への影響について議論しています。

  • AIエージェントは、LLMを使用してアプリケーションの制御フローを決定するシステムです。
  • エージェントの能力はスペクトル上に存在し、単純なルーティングから高度に自律的なエージェントまであります。
サイト内本文

LangChainのGTMエージェントの構築方法

LangChainはDeep Agentsを使用したGTMエージェントを構築し、リードの調査、ドラフト作成、アカウントインテリジェンスを自動化。リード転換率が250%向上し、セールス担当者1人あたり月40時間を節約しました。

  • エージェントはアウトバウンドとインバウンドのリード処理を自動化し、Slackでの人間による承認を経て実行。
  • Deep AgentsによるマルチステップオーケストレーションとLangSmithによる評価・フィードバックを活用。
サイト内本文

マルチエージェントシステムの構築方法とタイミング

本記事は、一見相反する2つのブログ記事(Cognitionチームの「マルチエージェントを構築するな」とAnthropicチームの「マルチエージェント研究システムの構築方法」)を分析し、それらが多くの共通点を持ち、マルチエージェントシステムをいつ、どのように構築するかについての洞察を提供することを示します。重要なポイントは、コンテキストエンジニアリングの重要性、「読む」主体のシステムが「書く」主体のものより容易であること、そして本番環境での信頼性とエンジニアリングの課題です。また、LangGraphやLangSmithなどのツールがこれらの課題にどう対処するかについても触れています。

  • コンテキストエンジニアリングはマルチエージェントシステム構築の最重要要素であり、モデルにタスクの文脈を動的に伝える必要がある。
  • 「読む」主体のマルチエージェントシステム(例:研究)は「書く」主体のもの(例:コーディング)よりも容易であり、書く操作はより複雑な調整と統合を要する。
サイト内本文

Replit Agentの複雑なワークフローでLangSmithの限界を押し広げる

ReplitがLangSmithの可観測性機能を活用して複雑なエージェントワークフローをデバッグし、トレースパフォーマンスの改善、検索機能、ヒューマンインザループスレッドを実現した方法をご紹介します。

  • Replit AgentはLangGraphとLangSmithを使用して監視とデバッグを行います。
  • LangSmithは数百のステップを含む大規模なトレースを処理できるように強化されました。
サイト内本文

Interrupt 2025 レポート:LangChainによるAIエージェントカンファレンス

Interrupt 2025は、LangChainが初めて開催した業界カンファレンスで、世界中から800名がサンフランシスコに集まりました。基調講演では、エージェントエンジニアリングの新たな学問としての位置づけ、マルチモデルLLMアプリケーション、信頼性の高いエージェントを構築するためのLangGraph、AI可観測性などがテーマとなりました。製品発表では、LangGraph Platform GA、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmithの可観測性アップデート、Open Evals、LLM-as-Judgeのプライベートプレビューなどが行われました。

  • LangChainが初のInterruptカンファレンスを開催、AIエージェントに焦点を当てました。
  • LangGraph Platform GAやOpen Agent Platformなど、複数の新製品が発表されました。
サイト内本文

Pinecone ServerlessでRAGアプリを構築・デプロイする

Pinecone Serverless、LangChain、LangServeを使用して、プロダクション対応のRAGアプリを構築するチュートリアル。ベクトルストア管理、迅速なデプロイ、可観測性といった課題に対処します。

  • Pinecone Serverlessは従量課金制と無制限のスケーラビリティを提供し、ホスト型ベクトルストアの課題を解決。
  • LangServeにより、LangChainチェーンを迅速にプロダクション向けWebサービスとしてデプロイ可能。
サイト内本文

エージェントフレームワークの考え方

本記事では、信頼性の高いエージェントシステムを構築する上での核心的な課題、すなわち各ステップでLLMに適切なコンテキストを提供することについて深く考察しています。著者はワークフローとエージェント、宣言的アプローチと命令的アプローチを比較し、LangGraphフレームワークの設計思想を紹介しています。また、OpenAIのエージェントガイドを批判し、Anthropicの定義を称賛し、フレームワークの「フロア」と「シーリング」の概念について議論しています。

  • 信頼性の高いエージェント構築の難しい点は、各ステップでLLMに渡すコンテキストを制御することです。
  • エージェントシステムにはワークフローとエージェントの両方が含まれ、ほとんどの本番システムはそれらの組み合わせです。
サイト内本文

Promptim: プロンプト最適化のための実験的ライブラリ

Promptim は、データセットと評価器を用いてプロンプトを反復的に改善することにより、プロンプトエンジニアリングを自動化し、時間を節約しAIシステムのパフォーマンスを向上させる実験的ライブラリです。

  • 評価駆動型の最適化ループによりプロンプトエンジニアリングを自動化。
  • LangSmith のアノテーションキューを介したヒューマン・イン・ザ・ループフィードバックをサポート。
サイト内本文

メモリ検索の改善:New ComputerがLangSmithで50%の再現率向上を達成

New ComputerはLangSmithを活用してAIメモリ検索システムを改善し、再現率50%向上、精度40%向上を達成しました。

  • New ComputerはLangSmithを使用してメモリ検索の再現率を50%、精度を40%向上させました。
  • Dotのエージェント型メモリシステムは動的にメモリを作成・検索し、複数の検索手法を採用。
サイト内本文

ディープエージェントの評価:私たちの学び

ディープエージェントを評価する5つのパターン:カスタムテスト、単一ステップ検証、完全ターン、マルチターンシミュレーション、環境設定。

  • ディープエージェントでは、データポイントごとにカスタムの成功基準が必要です。
  • 単一ステップ評価は特定シナリオでの意思決定検証に効率的です。
サイト内本文

Eva:Android 完全オフライン AI アシスタント(PDF、Wikipedia など対応)

Eva は完全オフラインで動作する Android 向け AI アシスタントです。言語モデル、音声認識、文書検索、地図、音楽、Wikipedia など全ての機能が端末上で実行され、アカウントやクラウドは不要です。チャット、オフラインマップ、音楽プレイヤー、ドキュメントリーダー、画像管理などを提供します。

  • 完全オフライン動作、全データは端末内に保存
  • PDF、Word、Excel などのローカル文書のインデックスと検索をサポート
サイト内本文

自動化AI研究への第一歩

Recursive社は、自動化AI研究システムの初期成果を発表し、固定予算言語モデル学習、小規模モデル学習速度、GPUカーネル最適化の3つのベンチマークで最先端の性能を達成しました。システムは研究ループ(アイデア提案、実装、実験、検証、反復)を自動化し、NanoChatでは0.9109 BPBを達成してコミュニティの成果を上回り、NanoGPT Speedrunでは学習時間を77.5秒に短縮、SOL-ExecBenchでは0.754のSOLスコアを達成しました。ハッシュテーブルnグラム埋め込みやバイトレベル特徴量などの革新を発見しました。

  • Recursiveの自動化AI研究システムが3つのベンチマークでSOTAを達成
  • システムはアイデアから検証までの研究ループを自動化
サイト内本文

Show HN: あなたが作成し、議論し、指導できるAIトレーダー

Degen & Co. は、FOMOトレーダー、配当重視の保守派、悲観的なクマなど、個性的なAI投資家を作成できるプラットフォームです。各AIトレーダーは独自の意見を形成し、取引を行い、ジャーナルでその決定を擁護します。アーキタイプの選択、性格の調整、ハードルールの設定、ポートフォリオの初期化が可能。ペーパーマネーですが、確固たる信念を持っています。

  • FOMOトレーダーや配当重視派など、個性的なAIトレーダーを作成。
  • AIトレーダーは独自の意見を持ち、取引し、ジャーナルで決定を説明。
サイト内本文
政策

Anthropic Fableの混乱を解説

金曜日以来、Anthropic、Mythos、Fableモデルをめぐる論争が話題となっています。本記事では、国防総省との確執、Mythosモデルの発表、ホワイトハウスとの意見の相違、Fable 5のリリースとその安全規制に対する批判、そしてトランプ政権による輸出管理措置に至るまでのタイムラインを整理します。賛否両論を分析し、筆者はAnthropicの対応はおおむね適切であり、結果的にFableの広告になっていると結論づけています。

  • Anthropicが軍事利用に制限を設けたことで、サプライチェーンリスクとみなされる。
  • Mythosモデルのサイバーセキュリティ能力を受け、Project Glasswingを開始。
サイト内本文
モデル

トランプ氏によるAnthropicの閉鎖措置、非米国AIの必要性を浮き彫りに

先週末、ワシントンの要請により、Anthropicは最新かつ最も強力なAIモデルを突然オフラインにした。同社は、ホワイトハウスが全外国人のアクセスを遮断するよう要求し、自社の従業員も例外ではなかったため、選択の余地はほとんどなかったと述べた。国外では、この出来事は、米国がフロンティアAIを支配しているだけでなく、その政府が誰がそれを使用できるかについて力を行使していることを痛感させるものとなった。トランプ政権の行動は迅速かつ広範囲に及び、ほとんど警告や説明なしに課された。Fable 5およびMythos 5モデルの前例のない閉鎖は、すでに「高リスク分野」での使用を制限する安全策が施されていたが、重要技術を米国に依存することに警告を発する長年の議論に新たな力を与えた。英国では、AI・オンライン安全担当大臣のカニシュカ・ナラヤン氏がこの閉鎖を利用し、英国が自国のAI能力を開発する必要性を国家安全保障の問題として主張した。フランスでは、ガブリエル・アタル前首相がこれを「AI戦争」の始まりと呼び、イランによるホルムズ海峡封鎖に例えた。カナダのマーク・カーニー首相は、一つのパートナーへの過度な依存に警告を発した。この事件は、世界中でAI主権への呼び声を強めている。

  • ホワイトハウスの要請でAnthropicがFable 5とMythos 5を停止、自社の非米国従業員を含む外国人のアクセスを遮断。
  • この停止は国際的な反発を招き、英国、フランス、カナダが米国への依存を減らすための国内AI開発を推進。
サイト内本文

Fireworksでコスト100分の1のトレースジャッジを構築

LangChainとFireworksはオープンモデルをファインチューニングし、プロダクショントレースから知覚エラーシグナルを抽出。フロンティアモデル並みの性能をわずかなコストで実現。

  • LangSmithは毎日数十億のトークンのトレースデータを処理。
  • Qwenモデルをファインチューニングして「知覚エラー」を検出、性能は最先端と同等以上でコストは100分の1。
サイト内本文

Align Evals の紹介:LLMアプリケーション評価の効率化

LangSmith の新機能 Align Evals は、評価者を人間の好みに合わせて調整し、評価スコアと人間の判断の不一致を減らします。

  • Align Evals は人間とAIのスコア比較を通じて評価プロンプトを反復的に改善します。
  • Playground のようなインターフェースとベースラインアライメントスコアを提供し、進捗を追跡できます。
サイト内本文

LangSmithによるペアワイズ評価

ペアワイズ評価とは何か、LLMアプリ開発に必要な理由、およびLangChainのLangSmithでの使用例を学びます。

  • ペアワイズ評価は2つのLLM出力を直接比較し、人間の好みをよりよく捉えます。
  • LangSmithはカスタムペアワイズ評価器を導入し、任意の基準に基づく柔軟な比較を可能にします。
サイト内本文

OpenEvalsでLLM評価をすぐに始める

OpenEvalsとAgentEvalsは、LLM-as-judge、構造化データ、エージェント軌跡評価のためのビルド済み評価器を提供します。これらのオープンソースパッケージにより、開発者は評価ワークフローを迅速に構築し、LLMアプリケーションの信頼性を確保できます。

  • OpenEvalsとAgentEvalsは、LLM-as-judge、構造化データ、エージェント軌跡評価をカバーするすぐに使える評価器を提供します。
  • LLM-as-judge評価器はカスタマイズ可能で、少数例やスコアリングスキーマに対応し、会話品質や幻覚検出などに適しています。
サイト内本文

LLM-as-a-Judgeを人間の嗜好に合わせる

LangSmithは、人間による修正を数ショット例として保存し、プロンプトエンジニアリングなしで評価を人間の嗜好に合わせる自己改善型LLM評価器を導入。

  • LLM-as-a-Judge評価器は自然言語出力の評価に広く使われるが、プロンプトエンジニアリングが必要。
  • LangSmithの新機能は、人間の修正を数ショット例として保存し、時間とともに評価を改善。
サイト内本文
チップ

ビッグテックのAI規制における最後の必死のプッシュ

大手テクノロジー企業は、州ごとの規制を上書きする連邦AI優先法を推進しているが、その試みは児童安全法案と結びつき、政治的混乱と不確実な展望をもたらしている。

  • テック大手は連邦AI優先法を求めているが、政治的逆風と時間的制約に直面。
  • ホワイトハウスはAI優先法を児童安全法案(KOSA)と結びつけ、混乱を招いた。