AI News HubLIVE

今日の必読ニュース

Agent

金融AIエージェントの評価構築から得た教訓

本稿では、3年間にわたって金融AIエージェントの内部評価を構築してきた著者が、絶対評価が品質閾値を超えると機能しなくなり、相対評価がより効果的であることを示す。主要な洞察として、最強のフロンティアモデルを審査員として使用し、生データへのアクセス権を与えること、エージェントと審査員の両方のばらつきを考慮すること、そして結果とともにエージェントの推論経路を評価することが挙げられる。また、既存の金融ベンチマークを批判し、内部の「調整後キャッシュフロー」評価を紹介する。

  • 絶対評価はエージェントが基本的能力に達した後は差別化できず、並べて比較する相対評価が微妙な違いを捉える。
  • 最強のフロンティアモデルを審査員として使用し、主張を検証するために生データへのアクセスを提供する。
サイト内本文

Minia2a – AIエージェントが収益を得るマーケットプレイス

Minia2aはAIエージェント専用のマーケットプレイスで、エージェントがサービスを発見し、オンチェーンで支払い、結果を取得することで自律的な経済活動を実現します。

  • AIエージェント専用のマーケット、オンチェーン決済対応
  • カテゴリ、人気サービス、アクティブエージェント、取引履歴を表示
サイト内本文

Headroom – AIエージェントのためのコンテキスト圧縮レイヤー

Headroomは、AIエージェントがツール出力、ログ、RAGチャンク、ファイル、会話履歴を読み取る前に圧縮するオープンソースツールです。トークンを60〜95%削減しつつ、回答の正確性を維持します。ライブラリ、プロキシ、エージェントラップ、MCPサーバーなど複数のモードを提供し、可逆圧縮とクロスエージェントメモリを備えています。

  • HeadroomはAIエージェントがコンテキストを読み取る前に圧縮し、平均60〜95%のトークンを削減します。
  • Python/TypeScriptライブラリ、HTTPプロキシ、エージェントラップ(Claude Code、Cursorなど)、MCPサーバーなど、複数の統合方法をサポート。
サイト内本文

ベストAIツールランキング

Best of AI が公開した、実際の有用性と影響力に基づくAIツールトップ100のランキング。ChatGPT、Claude、Geminiがトップ3で、チャットボット、画像生成、コードアシスタント、動画ツールなど多岐にわたる。

  • 100のAIツールを実用性でランク付け
  • ChatGPT、Claude、Geminiが上位
サイト内本文

MD+HTML Reader

MD+HTML Readerは、AIが生成したMarkdownやHTMLファイルを集中レビューするためのmacOSアプリです。プロジェクト内の散らばったドキュメントを整理し、効率的な確認を可能にします。

  • 読み取り専用のワークスペースで、AI生成のMarkdownとHTMLファイルを集中レビュー。
  • プロジェクトフォルダを自動フィルタリングし、関連ドキュメントのみ表示。
サイト内本文

無料のエージェンティックAIウェビナー:エージェント設計から本番展開まで

SimplAIは2026年6月24日にライブZoomウェビナーを開催し、AIエージェントの設計から本番環境への展開までを実演します。銀行、医療、カスタマーサポート、運用などの業界における実際のユースケースをカバーし、単なるデモを超えて、本番環境での監視、スケーリング、メンテナンスにも焦点を当てます。技術者と意思決定者の両方を対象としており、席数は限られています。

  • SimplAIが6月24日に無料ライブウェビナーを開催。エージェント設計から本番展開までの全工程を実演。
  • 銀行、医療、カスタマーサポート、データ探索などの業界別ユースケースを紹介。
サイト内本文

AIエージェントからメールが来た

ElifというAIエージェントからPRスコアリングツールのコールドメールが届き、顧客ゼロで研究者が運営していると正直に告白。ほとんどの人間の営業より誠実で効果的であり、AIセールス、信頼、「死んだインターネット」理論について考えさせられた。

  • Elifからのコールドメールはほとんどの人間のピッチより正直で効果的で、返信した。
  • Elifは顧客ゼロで研究者Leeが運営していると告白し、「構築は簡単だが顧客獲得が困難」という著者の見解と一致。
サイト内本文
政策

AnthropicのMythos騒動はさらに複雑化:トランプ政権の禁止措置にサイバーセキュリティ専門家が強く反発

トランプ政権は国家安全保障を理由に、AnthropicのFable 5モデルを外国人(従業員含む)に対して使用禁止とした。Anthropicはモデルを停止。セキュリティ専門家Katie Moussourisは、Amazonのセキュリティレビューでモデルが脆弱性の発見を拒否したがコード修正を指示されると実行したことを明らかにし、これは防御側の行動だと指摘。100人以上の専門家が公開書簡に署名し、禁止は防御側を弱体化させ、他モデルがすぐに同様の能力を持つと警告。また、Anthropicと国防総省の過去の対立も背景にある可能性。

  • トランプ政権が国家安全保障を理由に、Fable 5の外国人使用(Anthropic従業員含む)を禁止。Anthropicはモデルを停止。
  • Amazonのレビューで、Fable 5は脆弱性探索を拒否したが、コード修正を直接指示されると実行。専門家は防御的と評価。
サイト内本文
チップ

MoonMath AI、AMD MI300X向けHIPアテンションカーネルをオープンソース公開 – あらゆる形状と丸めモードでAITER v3を上回る

MoonMath AIチームは、AMD MI300X GPU向けのbf16フォワードアテンションカーネルをリリースしました。HIPで記述され、MITライセンスでオープンソース化されています。単一命令アセンブリラッパーと8ウェーブパイプラインなどの革新的技術により、テストしたすべての形状と丸めモードでAMDの最適化カーネルAITER v3を凌駕し、幾何平均で1.08倍から1.18倍の高速化を達成。主要な高速化はメモリ配置(KをLDS、VをL1、Qとアキュムレータをレジスタに配置)によるものです。また、実際のSGLang PRに統合され、Wan2.1ビデオ拡散モデルのエンドツーエンド性能を品質低下なしで1.23倍向上させました。

  • MoonMath AIがAMD MI300X向けbf16フォワードアテンションカーネルをHIPで記述、MITライセンスで公開。
  • AMDのAITER v3をあらゆる形状と丸めモードで上回り、幾何平均1.18倍/1.15倍/1.08倍、最大1.26倍。
サイト内本文
研究

なぜAI企業が私のNYのアパートを無料で掃除したのか

AI企業Shiftがニューヨークで無料の家事代行・料理サービスを提供し、ロボット訓練用データを収集。プライバシー専門家は懸念を表明。

  • Shiftはカメラ付きスタッフを派遣し、ロボット訓練用データを収集。
  • プライバシー専門家は無料サービスの裏にデータ悪用のリスクを警告。
サイト内本文
その他の更新(39件)
ロボット

『リバース・ケンタウロスのAI後生活ガイド』レビュー:人工知能の本当の代償

テクノロジー革命の経済学についての鮮やかで面白い論争書であり、正義の怒りに満ちている。AIへの反発が高まる中、エリック・シュミットのスピーチが学生にブーイングされた事例や、データセンターへの反対、AIが雇用や創造性に悪影響を与えるという認識が広がっていることを取り上げている。

  • 元Google CEOのエリック・シュミットが卒業式でAIを推進しようとして学生からブーイングを浴びた。
  • 信頼できないチャットボットを使った作家、出版社、学者が評判を損なう事例が相次いでいる。
サイト内本文
Agent

AIにおけるスキルの理解:よりスマートなAIエージェントを構築するための完全ガイド

AIエージェントの真の力は、そのスキル(再利用可能なモジュール化された論理ブロック)にあります。この記事では、SimplAIプラットフォームにおけるスキルの構築、管理、ベストプラクティスについて詳しく説明します。エージェントプロファイルとスキルの分離、プランニングモードとハーネスモードの選択、スキルの構造とライフサイクル管理、プレビューとトレーシング機能など、プロダクションレベルのAIエージェントを構築するための完全なガイドです。

  • スキルはAIエージェントが具体的なタスクを実行するための核であり、エージェントの役割と実行ロジックを分離します。
  • ハーネスモードはスキル委譲に必須であり、プランニングモードはスキルをサポートしません。
サイト内本文

MemoryOps:AIアシスタント向けガバナンス型メモリ基盤

MemoryOpsはAIアシスタント向けのエンタープライズ級メモリガバナンスレイヤーであり、メモリを単なるデータベースではなくガバナンスされた意思決定システムとして扱います。キャプチャ、ポリシー評価、型付きストレージ、ハイブリッド検索、制御された忘却、監査可能性、テナント分離を含むメモリライフサイクルを実装しています。APIキー不要のオフラインスタブで動作し、完全なアーキテクチャドキュメントとテスト可能な不変条件を提供します。現在は書き込み/読み取りパス、ポリシー実行、監査ログ、一時セッション制御、ガバナンスUIなどのコア機能が実現されています。

  • メモリをベクトルデータベースではなくガバナンスされた状態として扱う
  • テナント分離、削除保証、来歴追跡などのエンタープライズ不変条件を強制
サイト内本文

Cloudflare 一時アカウント

Cloudflareの一時アカウントにより、エージェントはサインアップ前にデプロイできます。

  • エージェントはサインアップ前にデプロイ可能
  • オンボーディングプロセスを効率化
サイト内本文

Sakana Fugu:複数モデルを指揮する一つのAPI

Sakana AIが、多様なトップモデルを動的にオーケストレーションするマルチエージェントシステム「Fugu」を発表。単一のAPIで複雑なタスクを処理し、ベンダーロックインを回避。ICLR 2026の2本の論文に基づき、エキスパートエージェントの自動編成を学習。Fugu(バランス型)とFugu Ultra(パフォーマンス最適化型)の2モデルを提供。ベンチマークで最高水準の性能を達成し、輸出規制のリスクもなし。EU/EEAでは未提供。

  • Fuguは単一APIで複数のモデルを動的に連携させ、手動ワークフロー設計が不要。
  • 標準のFuguと高性能なFugu Ultraの2モデルを用意。
サイト内本文

サンドボックスエージェントに読み取れないAPIキーを与える

Superserve は Secrets 機能を発表。APIキーをサンドボックスに紐付けても実際の値は環境内に入らず、エージェントによる漏洩を防ぎます。

  • Secrets は実際の認証情報をプレースホルダートークンに置き換え、リクエストがサンドボックスを出る際にのみ交換することで漏洩を防止。
  • OpenAI、Anthropic、GitHub などの主要プロバイダーに対応し、カスタムシークレットや許可ホストの指定も可能。
サイト内本文

ANMA:安価なAIコーディングエージェントのための境界契約

ANMAは、プレーンYAMLのモジュール契約からCLAUDE.md、フック、CIチェックを生成し、AIコーディングエージェント(Claude Codeなど)をアーキテクチャ境界内に強制するオープンソースツールです。ベンチマークでは、安価なモデル(Haiku 4.5)の違反率を68%から0%に低減し、フロンティアモデルには保険を提供します。Python、Go、TypeScriptをサポートし、軽量設計(約800行)で、ドリフト検出や段階的導入などのエンタープライズ機能を備えています。

  • ANMAはプレーンYAML契約でモジュールの公開インターフェースと依存関係を宣言し、エージェント向けガイドと強制チェックを自動生成します。
  • 制御されたPythonベンチマークでは、Haiku 4.5の違反が13/19から0/20に減少(Fisher正確検定p<0.0001)。
サイト内本文

Show HN: PeekAI – Python AIエージェント向けローカルファーストの可観測性ツール

PeekAIは、すべてのトレースをローカルのSQLiteデータベースに保存するPython AIエージェント向けのローカルファースト可観測性ツールです。クラウドアカウントや設定は不要で、OpenAI、Anthropic、LiteLLMを一行でインストルメント化し、マルチエージェントの可視化、トレースリプレイ、CLIおよびWebダッシュボードを提供します。

  • ローカルファースト:トレースは~/.peekai/peekai.dbに保存され、データはマシン外に出ません。
  • ゼロ設定:主要なLLMプロバイダーを一行でインストルメント化。
サイト内本文

テクノロジー労働者がシリコンバレーのAI推進に抗議

2025年以降、約40万人のテクノロジー労働者が解雇され、2026年だけでも15万人以上が職を失い、多くは企業のAIへの注力が原因とされています。同時に、Meta、Google DeepMind、Oracleの従業員は、AIによる監視、強制的なAI使用、軍事利用に抗議して組織化しています。本記事では、現在のテックワーカー運動の新たな波、課題、将来展望について考察します。

  • Meta社員は、コンピューター使用データを収集してAIを訓練する新たな「モデル能力イニシアチブ(MCI)」に反対する請願書に署名、1,600人以上が参加。
  • Google DeepMindの英国労働者は、AIの軍事利用に反対するため組合結成を投票で決定。
サイト内本文

Compass – AIコーディングエージェントのためのガードレールと厳格な予算上限

Compass は Claude Code、Codex、Gemini 向けのローカルファースト設定レイヤーで、厳格な予算上限を強制し、危険なコマンドをブロックし、CI で評価されるガードレールを提供します。自動 PR ループがレビューと修正を自律的に行い、Opus のみと比較して約 61% のコスト削減を実現するルーティングも特長です。サプライチェーンは SLSA 証明書で検証可能です。

  • 厳格な予算上限:設定した金額に達するとセッションを強制停止。
  • ガードレール評価:CI で 100/100 のスコアを達成し、危険コマンドや秘密情報の漏洩を防止。
サイト内本文

AIに文明を運営させたら、核兵器を作った——CivBenchの開始

著者は『シヴィライゼーションVI』を用いてCivBenchベンチマークを構築し、AIの戦略的意思決定能力を評価した。AIエージェントは優れたパフォーマンスを示したが、文化的勝利の脅威を検出できず、最終的に核兵器を使用したが敗北した。実験は、複雑な環境におけるAIの認識の盲点と実行のギャップを浮き彫りにした。

  • AIエージェントは戦略的思考を示したが、文化的勝利の脅威を見逃した。
  • 平和的対策が失敗した後、核兵器に訴えたが、それでも敗北した。
サイト内本文

Show HN: Bifrost Edge - 組織のPCで動作し、すべてのAIトラフィックをルーティング

Bifrost Edge はアルファ版のエンドポイントエージェントで、デスクトップチャットアプリ、ブラウザツール、コーディングエージェント、MCPサーバーなど、すべてのAIトラフィックを自動的にガバナンスします。既存のBifrostゲートウェイポリシー(仮想キー、予算、監査ログ、ガードレール)を各マシンに拡張します。

  • エンドポイント上のすべてのAIトラフィックを自動的にルーティングし、アプリごとの設定不要でガバナンス。
  • macOS、Windows、Linuxをサポートし、MDMによるサイレントデプロイが可能。
サイト内本文

EGC - AIコーディングツールにセッションを超えたメモリを提供するMCPサーバー

EGCは、AIコーディングツールにセッションを超えた永続メモリを提供するローカルランタイムです。決定、失敗、好み、次のステップを自動的に保存し、新しいセッション開始時にプロンプトなしで状態を読み込みます。Claude Code、Cursor、Gemini CLIなどの複数のツールとモデルをサポートします。

  • EGCはAIコーディングツールにセッションを超えた永続メモリを提供
  • 自動的に状態を保存・読み込み、プロンプト不要
サイト内本文

AIネイティブ組織の解剖

この記事では、AIが組織構造をどのように変えているか、特に中間層の翻訳作業が圧縮され、マネージャーやエンジニアの役割が変化していることを分析します。伝統的な「なぜ」「何を」「どのように」の階層が進化し、「なぜ」層は変わらず、「何を」層は拡大し、「どのように」層は縮小するがより困難になる。マネージャーは単なる調整ではなく直接貢献が求められ、エンジニアはAIが代替できない判断と設計作業に集中すべきです。

  • AIは特定の職種ではなく、翻訳タスクを主に置き換える
  • 組織の中間層(翻訳層)は縮小し、両端(戦略と製品定義)の重要性が増す
サイト内本文

Conduit – AIエージェントのためのセルフホスト型Bitcoin Lightning決済

Conduitは、自律型AIエージェント向けのセルフホスト型Bitcoin Lightning Network決済インフラです。自身のLNDノードの前に配置し、各エージェントに仮想Lightningウォレット、支出ポリシー、APIを提供し、運営者は資金を完全に管理します。

  • Conduitはセルフホスト型で、運営者が秘密鍵を保持し、エージェントはスコープ付きAPIキーのみ保持。
  • テストネットとメインネットをサポートし、実際の決済で検証済み。
サイト内本文

日本の半導体製造装置サプライヤー、中国販売が10%減少

日本の半導体製造装置サプライヤーの中国販売が10%減少し、西側企業は東アジア市場戦略の多様化が求められる。西側のサイバーセキュリティプロバイダーは、自律的に脆弱性を特定する高度なAIエージェントに対抗するため、防御戦略を緊急に適応させる必要がある。NTTの「つづみ2」は人間に近いコーディング能力を達成し、日本におけるLLM駆動の自動化の急速な進展を示している。

  • 日本半導体装置の中国販売が10%減少、市場多様化の必要性を示唆。
  • 西側のサイバーセキュリティは自律的な脆弱性発見AIに対応すべき。
サイト内本文

Show HN: DebugBrief – デバッグセッションを報告書に変換、AI不要

DebugBrief は、デバッグセッションを記録し、プルリクエストや引き継ぎ、インシデントノートのための証拠に基づいたMarkdownレポートを生成するローカルファーストのCLIツールです。AIは使用せず、テレメトリも収集せず、実際のコマンドとファイル変更のみからレポートを構築します。

  • デバッグ中のメモやコマンドを記録し、AIを使わずに信頼性の高いMarkdownレポートを生成。
  • 任意の言語に対応。`debugbrief run` でコマンドをキャプチャし、テストランナーを自動認識。
サイト内本文

Lelu – AIエージェントの実行時操作を検知するオープンソース認可エンジン

Lelu は AIエージェント向けのオープンソース認可エンジンであり、プロンプトインジェクション、低信頼度の判断、異常な振る舞いといった実行時の操作を検知します。レイヤードパイプラインを通じて、許可、拒否、人間によるレビュー、計算の4つの結果を提供します。主要なAIフレームワークと連携し、セルフホスティングも可能です。

  • プロンプトインジェクションや異常行動など、AIエージェントの実行時操作を検出。
  • 4つの判定結果:許可、拒否、人間レビュー(一時停止して承認待ち)、計算(サンドボックスへリダイレクト)。
サイト内本文

より安価で安全なエージェント型AIワークフロー

ある開発者がGLM-5.2やDeepSeek V4 Flashなどのモデルを使い、低コスト(0.034ドル)で効率的なエージェント型AIコーディングを実現し、VirtualBoxのサンドボックスでプライバシーを保護した経験を共有。具体的な手順、コスト比較、AI業界のビジネスモデルへの考察を述べている。

  • DeepSeek V4 Flashを使用したエージェントタスクが0.034ドル、3分で完了。人間は1時間で4つのミスを犯した。
  • VirtualBox内のDebian VMでエージェントを実行し、プロジェクトデータを隔離してプライバシーを保護。
サイト内本文

2つのAI審査員がエージェントの回答に0.85のスコアを付けたが、ファイルは一度も開かれていなかった

本記事は、エージェント評価におけるLLM-as-Judgeの根本的な欠陥を明らかにします。審査員は最終回答の一致のみをチェックし、回答が有効な証拠経路に基づいているかどうかは検証しません。ケーススタディでは、エージェントが必要な文書を一度も取得していないにもかかわらず、2つの最先端モデルが0.85のスコアを付け、実際のトレースベースのスコアは0.000でした。記事は、エージェントの行動を評価するための決定的な状態契約を提唱しています。

  • LLM-as-Judgeは最終回答と正解を比較するだけで、回答生成経路を検証できない。
  • ケーススタディ:2つの最先端モデルが0.85をつけたが、エージェントは必要な文書を開いていなかった。
サイト内本文
チップ

ホットタブより熱い:AI最大のマシンを冷やす45°Cのブレークスルー

NVIDIAの最新Rubin AIサーバーは、100%液体冷却を実現し、冷却液温度は45°Cに達します。これはホットタブよりも熱く、エネルギー効率を大幅に向上させ、冷却エネルギー消費と水使用量を削減します。適切な気候では、チラーなしの運転が可能で、水消費をほぼゼロにできます。従来のデータセンターでは冷却に最大40%の電力を消費していましたが、液体冷却により大幅なコスト削減が可能です。

  • NVIDIA Rubin AIサーバーは、100%液体冷却を採用し、冷却液温度は45°Cに達する。
  • 液体冷却により冷却エネルギー消費が大幅に削減され、50メガワットのハイパースケール施設で年間400万ドル以上の冷却コスト削減が可能。
サイト内本文

Show HN: Vexyn – ブラウザだけで完結するプライバシーツール、ローカルAI(WebGPU)搭載

Vexyn は、ファイルをアップロードせず、サインアップもトラッキングも不要で、すべての処理をブラウザ内で完結する無料プライバシーツール群です。背景除去や音声文字起こしなどの一部ツールは WebGPU を活用し、ユーザーデータがデバイスを離れることはありません。

  • 全ツールがクライアントサイドのみで動作、サーバーへのアップロードは一切なし
  • サインアップ不要、トラッキングなし、Cookieなし
サイト内本文
研究

Typevia: AIアシスト付きライブLaTeXエディタ

Typeviaは、AIアシストを備えたライブLaTeXエディタで、研究者が専門的な学術文書を簡単に作成できます。主な機能は、リアルタイムレンダリング、AI提案、共同編集、テンプレート、ブラウザ内Python実行です。

  • AIによるライブLaTeX編集と即時レンダリング
  • リアルタイム共同編集、コメント、変更追跡
サイト内本文

アメリカ人とAI 2026:チャットボット、スマートデバイス、影響に関する見解

ピュー・リサーチ・センターの最新調査によると、米国成人の約半数がAIチャットボットを利用しており、2024年の3分の1から増加しました。スマートホームデバイスの普及も進んでいます。調査では、AIが社会や個人に与える影響についてのアメリカ人の見解も探っています。

  • 米国成人の約50%がAIチャットボットを利用(2024年は33%)。
  • スマートホームデバイスの導入が増加。
サイト内本文

AIとのチャットではトッププログラマーになれない

AIがコードを生成できるようになった現在でも、コードを読み書きする能力はトッププログラマーにとって不可欠であると論じる。タイピングや筆記体のように廃れていくスキルと、ソクラテス的思考のように永続するスキルを対比。最高のエンジニアは単なる出力生成ではなく、コードの深い理解を最大化するツールを選ぶと予測する。

  • AIとのチャットではコードの深い理解は得られない
  • プログラミングスキルは筆記体ではなくソクラテス研究に似ている
サイト内本文

暗闇の中の焚き火:儀式、科学、そして圧縮インターフェースとしてのAI

クパーラの夜のような古代の儀式がどのように調整インターフェースとして機能したか、そして現代のAIモデルが同様の役割を果たしていること—理解と所属感を提供するが、新たなリスクも伴う。

  • クパーラの夜のような古代の儀式は、世界を理解しコミュニティを結束させるための「インターフェース」として機能した。
  • 科学が理解を担うようになり、所属感は様々な現代の制度に分散した。
サイト内本文
モデル

WebGPUの機能検出だけではスマートフォンで小型LLMを実行するには不十分だった

筆者はスマートフォンのブラウザで小型言語モデルを実行しようと試み、WebGPUの機能検出だけでは成功を保証できないことを発見した。4つのテスト環境では、WebGPUが利用可能であっても、ページのリロード、ダウンロードの停止、パフォーマンスの顕著な差などにより実行が失敗した。

  • WebGPUの機能検出(アダプターの制限など)では、小型LLMが正常に実行できるかどうかを予測できなかった。
  • iPhoneのSafariやLINEのアプリ内ブラウザなどの環境では、WebGPUは公開されていたが、モデルは一度も実行を完了しなかった。
サイト内本文

sqlite-utils 4.0rc1 がマイグレーションとネストされたトランザクションを追加

sqlite-utils 4.0rc1 が v4 初のリリース候補として公開されました。主な新機能はデータベースマイグレーションとネストトランザクション(db.atomic())で、いくつかの軽微な互換性のない変更も含まれています。

  • データベースマイグレーション機能を内蔵。Python または CLI から適用可能。
  • db.atomic() コンテキストマネージャによるネストトランザクションをサポート。
サイト内本文

AIエンジニアのための7種類のエージェントメモリ技術ガイド

大規模言語モデルはデフォルトでステートレスだが、エージェントは記憶によってコンテキストを保持する。本稿はワーキングメモリ、セマンティックメモリ、エピソディックメモリ、プロシージャルメモリ、検索メモリ、パラメトリックメモリ、プロスペクティブメモリの7種類を解説。各記憶の内容、保存場所、構築タイミングを説明し、比較表とPythonコード例を提供する。

  • エージェントメモリはステートレスなモデルをコンテキスト保持、経験学習、時間経過に伴う行動が可能なシステムに変える。
  • 7種類の記憶は形式(パラメトリック/非パラメトリック)と時間スケール(短期/長期)で分類される。
サイト内本文

AIエージェント向けCloudflare一時アカウント

Cloudflareは、アカウント登録なしでCloudflare Workersプロジェクトを一時的にデプロイできる新機能を発表した。`--temporary`フラグを使用すると、60分間有効なプロジェクトが作成される。AIエージェント向けと宣伝されているが、すべての開発者にとって有用な機能である。

  • Cloudflare Workersが一時デプロイに対応、アカウント不要
  • `npx wrangler deploy --temporary`でデプロイ、有効期限は60分
サイト内本文

Apertus – 主権AIのためのオープンファンデーションモデル

Apertusは、EPFL、ETH Zurich、CSCSの協力によるスイスAIイニシアチブが開発した完全オープンな基盤モデルです。オープンな重み、データ、科学を提供し、EU AI Actに準拠し、1000以上の言語をサポートし、8Bおよび70Bパラメータ規模でトップオープンモデルと競合します。

  • 完全オープン:トレーニングデータ、コード、重み、手法、アライメント原則がすべて文書化され再現可能。
  • スケールでのコンプライアンス:EU AI Act要件を満たし、オプトアウトを尊重、PIIを削除、記憶を防止。
サイト内本文
ツール

Crossary – AI支援フィールドマッピングツール、署名付きExcelファイルを出力

Crossaryは、統合エンジニアやコンサルタント向けのAI支援フィールドマッピングツールです。5段階のパイプラインでソースとターゲットの仕様からフィールドを抽出し、証拠付きのマッピング案を生成して署名付きExcelワークブックを出力します。複数のファイル形式に対応し、決定論的な検証を提供し、データプライバシーを確保します。

  • 5段階のパイプライン(アップロード、抽出、マッピング、検証、エクスポート)でフィールドマッピングを実行。
  • 各マッピング行にはターゲットフィールド、ソースフィールド、マッピングタイプ、信頼度、証拠が含まれ、AIは不確かな場合は推測を控える。
サイト内本文

AIカラーズ:人気AIサービスの配色コード集

GitHubリポジトリが主要なAIサービスのウェブサイトで使用されているカラーコードを収集し、白、ライト、ベージュ系の色調が多いことを明らかにしています。

  • リポジトリにはClaude、Copilot、GeminiなどのAI製品の背景色コードが掲載されています。
  • ほとんどのAIサービスは似たような明るい色、ベージュ、または白を使用しています。
サイト内本文

サムスン電子、従業員にChatGPTとCodexを提供

サムスン電子は全世界の従業員にChatGPT EnterpriseとCodexを導入し、OpenAI最大級のエンタープライズAI展開の一つとなる。

  • サムスン電子が全世界の従業員にChatGPT EnterpriseとCodexのアクセスを提供。
  • この展開はOpenAI最大級のエンタープライズAI導入の一つ。
サイト内本文

Jacobi:AbaqusサブルーチンのためのIDE—解析テストとAI診断を統合

Jacobiは、Abaqusなどの物理シミュレーション向けサブルーチン(UMAT、VUMATなど)を開発するための統合開発環境です。閉形式解析解に対するテストとClaudeによるAI診断を提供し、正しい構成則の実装を迅速に支援します。

  • 15種類の閉形式解析テストによりサブルーチンの物理的正確性を検証。
  • Claudeが数値コンテキストを踏まえた物理ベースの診断を提供。
サイト内本文
政策

AIは集団精神病の妄想である [動画]

この動画は、現在のAIを取り巻く誇大広告が集団精神病の妄想であると主張し、その実際の能力と社会的影響に疑問を投げかけています。

  • 動画はAIが過大評価されていると主張
  • 社会はAIの可能性について錯覚している