AI News HubLIVE

オープンソースモデルの最新ニュース

Mistral AI、欧州AI推進のため30億ユーロ調達を模索

フランスのAIスタートアップMistral AIは、約30億ユーロの新たな資金調達ラウンドを交渉中で、評価額は約200億ユーロとなっています。

  • Mistral AIが30億ユーロの資金調達を交渉中
  • 評価額は約200億ユーロ
サイト内本文

追従行動の二立場評価:同意の構造と介入の限界

アクティベーション・ステアリングはLLMの行動を変えるが、標準的な評価では追従行動低減が事実に基づく同意も抑制するかどうかをテストしない。本論文では二立場評価を導入し、Llama-3-8B-Instructに重心差ステアリングを適用した。追従的同意と事実的同意は幾何学的に異なる部分空間にあるが、ステアリング方向は両方に等しく投影され、区別できないことがわかった。その結果、追従的発言だけでなく地球が丸いといった事実に基づく同意も減少する。このパターンは、活性化から読み取れる表現が書き込めるとは限らないという一般的なギャップを示している。

  • アクティベーション・ステアリングは追従行動を減らすが、事実に基づく同意も減らす。
  • 二立場評価は各トピックの両方の立場をテストし、ステアリングの副作用を明らかにする。
サイト内本文

Pythagoras-Prover: Augmented Lean Formalisationによる効率的な形式証明の進展

Pythagoras-Proverは、4Bおよび32Bの自己回帰モデルと4Bの拡散モデルからなる、計算効率の高いLean定理証明器ファミリーです。段階的なカリキュラムSFTと動的証明フィルタリングにより訓練効率を向上させ、Augmented Lean Formalisation(ALF)を導入して検証コーパスを拡張します。実験では、4BモデルがMiniF2F-TestでDeepSeek-Prover-V2-671Bを上回り(86.1% vs 82.4%)、32Bモデルが93.0%でオープンソースの最高記録を達成し、PutnamBenchで93問を解決しました。

  • Pythagoras-Proverは4Bおよび32Bの自己回帰モデルと、推論時に証明を反復的に洗練する4B拡散モデルを含む。
  • 難易度別に層別されたデータを用いたカリキュラムSFTと、8kトークンコンテキスト内での動的証明フィルタリングにより訓練効率を向上。
サイト内本文

ToolSense:LLMにおけるパラメトリックツール知識を監査する診断フレームワーク

大規模言語モデル(LLM)のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench(約4万7000ツール)での実験では、知識と検索の乖離(知識-検索解離)が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50~64%低下し、埋め込みベースのベースラインを下回る場合がある。

  • ToolSenseは、LLMのパラメトリックツール知識を監査するオープンソースフレームワーク。
  • 3つのベンチマーク(現実的検索ベンチマーク、多肢選択プローブ、QAプローブ)を自動生成。
サイト内本文

Agent-EvalKit で AI エージェントを体系的に評価する

Agent-EvalKit は、Claude Code、Kiro CLI、Kilo Code などの AI コーディングアシスタントと統合することで、評価インフラを提供するオープンソースツールキット (Apache 2.0) です。この記事では、Agent-EvalKit の6つの評価フェーズを、Strands Agents SDK と Amazon Bedrock で構築された旅行調査エージェントを例に説明します。

  • Agent-EvalKit は、AI コーディングアシスタントと統合された6フェーズの評価ワークフロー(計画、データ、トレース、エージェント実行、評価、レポート)を提供します。
  • 旅行調査エージェントの例では、ツールが空の結果を返した際の幻覚問題を検出しました。
サイト内本文

DiffusionGemma:Googleの拡散ベースのオープンモデル、より高速なテキスト生成を実現

Google DeepMindのDiffusionGemmaは、拡散を用いてテキストブロックを並列生成する実験的なオープンウェイトモデルで、従来の自己回帰モデルと比較してローカル推論が高速です。Gemma 4 26B A4B MoEアーキテクチャに基づき、品質と速度をトレードオフし、インタラクティブな編集タスクに最適です。この記事では、そのアーキテクチャ、テキスト拡散の仕組み、ベンチマーク結果、llama.cppを使用したローカル実行の手順を説明します。

  • DiffusionGemmaはテキストブロックを並列に生成・洗練し、ローカル推論のレイテンシを低減します。
  • 双方向注意機構と256トークンのキャンバスを使用し、複数のノイズ除去ステップで生成します。
サイト内本文

Ollama、MLXでApple Silicon上で最高のパフォーマンスを実現

OllamaのMLXエンジンがアップデートされ、Apple Silicon上でこれまでで最高のパフォーマンスを発揮します。AppleのユニファイドメモリとMetalバックエンドのMLXフレームワークをより活用することで、モデルは高品質な応答を出力し、より高速に応答し、メモリ使用量を削減します。NVFP4フォーマットのサポート、最大20%の出力速度向上、エージェントワークフロー向けのスナップショットシステムを導入。

  • OllamaのMLXエンジンがNVFP4フォーマットをサポートし、量子化による品質劣化を半減。
  • 融合されたMetalカーネルと最適化されたサンプリングにより、出力速度が最大20%向上。
サイト内本文

DiffusionGemma:Googleが公開した高速テキスト生成オープンモデル

Googleは、Apache 2ライセンスのオープンウェイトモデルDiffusionGemmaを公開しました。NVIDIAのNIMクラウドAPIで無料利用可能で、500トークン/秒以上の高速生成を実現します。

  • GoogleがApache 2ライセンスのオープンモデルDiffusionGemmaを公開。
  • NVIDIA NIMクラウドAPIで無料ホスティング。
サイト内本文

Google AI、DiffusionGemmaを公開:26B MoEオープンモデル、テキスト拡散で最大4倍高速生成

DiffusionGemmaはGoogle DeepMindが開発した実験的なオープンテキスト生成モデルで、標準的な自己回帰デコードの代わりにテキスト拡散を採用し、専用GPU上で最大4倍の生成速度を実現します。26BパラメータのMoEモデル(推論時は3.8Bのみ活性化)で、Gemma 4をベースに構築され、マルチモーダル入力(テキスト、画像、動画)をサポートし、256Kのコンテキストウィンドウ、140以上の言語に対応、Apache 2.0ライセンスで公開されています。

  • DiffusionGemmaは26BパラメータのMoEモデル(3.8B活性化)で、テキスト拡散により並列にテキストを生成します。
  • NVIDIA H100で1000+トークン/秒、RTX 5090で700+トークン/秒を達成し、量子化時は18GB VRAMに収まります。
サイト内本文

NVIDIA、Google DeepMindのDiffusionGemmaをローカルAI向けに高速化

Google DeepMindが、高速テキスト生成のための実験的なオープンモデルDiffusionGemmaをリリース。NVIDIAはこれを最適化し、GeForce RTX、RTX PRO、DGX Spark上でさらに高速に動作し、ローカルで最大1000 tokens/secを達成。

  • DiffusionGemmaは、従来の自己回帰モデルとは異なり、1ステップあたり最大256トークンを並列生成。Gemma 4(260億パラメータ、MoE)をベースに、1ステップあたり38億パラメータのみ活性化。最大4倍のパフォーマンス。Apache 2.0ライセンスでオープンソース、クラウド不要でローカル動作。
サイト内本文

Springは23歳。AIがセキュリティ危機を引き起こした

AIによりSpringフレームワークの脆弱性発見が劇的に増加し、月間セキュリティアドバイザリが1700%急増。BroadcomはSpring史上最大のセキュリティアップデートをオープンソース化し、エンタープライズ顧客にデイゼロパッチを提供するが、戦いは始まったばかりだ。

  • 2026年3月から4月にかけて、Springの月間セキュリティアドバイザリがAIによるコード分析により1700%以上急増。
  • BroadcomはSpringの23年の歴史で最大のセキュリティアップデートをオープンソース化し、エンタープライズTanzu Spring顧客にデイゼロCVEパッチを提供。
サイト内本文

NeuroBait: ADHDの脳にドーパミンを引き起こすためにモデルを微調整した話

NeuroBaitは、ADHDの脳がタスクを開始できない「実行機能障害」を克服するために、ドーパミンを刺激するように微調整されたAIモデルです。著者の妻の観察から生まれ、従来のToDoリストではなく、温かみのある流れるような散文で小さな実行可能な一歩を提供します。LoRAを用いてGemma 3 12Bを微調整し、Hugging Face Spaceにデプロイされています。ADHDに限らず、圧倒されていると感じる誰でも役立ちます。

  • NeuroBaitは温かく流れるような散文で、小さな実行可能なアクションを提供し、ADHDの脳がタスクを始めるのを助ける。
  • 著者の妻のADHDの実体験に基づき、LoRAでGemma 3 12Bを微調整。データセットは小さく厳選された合成データ。
サイト内本文

マイクロソフトのオープンソースツールがハッキングされ、AI開発者のパスワードが盗まれる

マイクロソフトはGitHub上の数十のオープンソースプロジェクトへのアクセスを遮断し、ハッカーがコードにパスワード盗取マルウェアを仕込んだ不正侵入を調査している。影響を受けたプロジェクトはAzureやClaude Code、Gemini CLI、VS CodeなどのAI開発ツールに関連している。

  • マイクロソフトは数十のGitHubオープンソースプロジェクトへのアクセスを停止し、セキュリティ侵害を調査しています。
  • ハッカーはコードにパスワードを盗むマルウェアを注入しました。
サイト内本文

核融合プラズマ制御のためのオフライン強化学習:コードベースとベンチマーク

オフライン強化学習は、歴史的なトカマクデータからプラズマ制御器を開発する有望な手法だが、標準化されたベンチマークの欠如により進捗の測定が困難である。本論文では、DIII-Dトカマクの実際の放電データに基づくオフラインRLベンチマークRL4Fを提案する。回転、密度、温度、圧力の4つの全プロファイル追跡タスクをカバーする。評価の結果、オフラインモデルベースのRL手法がほとんどの目的で平均的な性能が最も良いが、単一の手法が全タスクを支配するわけではなく、複雑な長 horizon プラズマ制御タスクにおける動的モデリングの重要性が示された。コードベース、データセット、評価フレームワークはオープンソース化されている。

  • RL4Fは核融合プラズマ制御のための初の標準化されたオフラインRLベンチマークである。
  • 動的環境はDIII-Dトカマクの実際の放電データから構築されている。
サイト内本文

オープンウェイト大規模言語モデルを用いた脳MRIレポートからの構造化情報の自動抽出

新しい研究は、オープンウェイト大規模言語モデルLLaMA 3.1がオランダ語の脳MRIレポートから構造化情報を自動抽出する能力を評価しました。モデルは視覚評価スコアなどのカテゴリ変数で優れた性能を示しましたが、数値変数では性能が低く、少数ショットプロンプティングが数値抽出精度を大幅に向上させました。

  • LLaMA 3.1は視覚評価スコア(MTA、GCA、Fazekas)で87%~96%のゼロショット精度を達成。
  • 微小出血と梗塞の検出精度はそれぞれ93%と82%だったが、数値カウントは低かった。
サイト内本文

Appleが Core AI Models を公開:オンデバイスAIのためのモデルエクスポートとランタイムツール

AppleはGitHubでCore AI Modelsをオープンソース化しました。リポジトリには、Hugging FaceなどのモデルをCore AI形式にエクスポートするレシピ、PyTorchでカスタムモデルを作成するPythonプリミティブ、macOS/iOSで動作するSwiftランタイムパッケージが含まれます。さらに、Claude Code、Codex CLI、Gemini CLI向けのエージェントスキルプラグインも提供。現時点ではコード貢献は受け付けていませんが、GitHub Issuesでのフィードバックを歓迎します。

  • Hugging FaceなどからCore AI形式への人気オープンソースモデルエクスポートレシピを提供。
  • PyTorchでカスタムCore AIモデルをオーサリングするためのPythonビルディングブロックと、iOS/macOS向けSwiftランタイムユーティリティを包含。
サイト内本文

Show HN: Gitdot – より良いGitHub。オープンソース、反AI、Rust製

GitdotはRustで書かれたオープンソースのGitHub代替品で、CLIに触発されたインターフェースを持ちます。現在、ユーザー登録、組織作成、リポジトリ管理、GitHubからのインポート(読み取り専用ミラーまたは完全移行)をサポートしています。issues、PR、CIなどの機能はまだありません。デザインはキーボード駆動のナビゲーションに重点を置き、100msのFCPを目指しています。

  • GitdotはRustで書かれたオープンソースのGitHub代替品で、CLI風のUIを採用。
  • 現在、ユーザー登録、組織作成、パブリック/プライベートリポジトリ、GitHubからのインポートに対応。
サイト内本文

Amazon Nova Sonic音声エージェントを大規模に評価、マイク不要

本記事では、Nova Sonicテストハーネスを紹介します。これは、自動でマルチターン会話を実行し、音声エージェントの品質を評価し、オーディオ幻覚を検出するオープンソースフレームワークです。プロンプトとツール設定の迅速な反復と大規模な回帰テストを可能にします。

  • テストハーネスは、双方向ストリーミング、非決定論的応答、マルチターンコンテキスト、オーディオとテキストの乖離など、音声エージェントテストの独自の課題に対処します。
  • JSON設定でシナリオを定義し、会話を自動実行し、LLM裁判官による品質評価を行います。
サイト内本文

IDDMBSE:信頼できる自律サイバーフィジカルシステムのためのデータ駆動型とモデルベースのシステムエンジニアリング統合

自律サイバーフィジカルシステム(CPS)はモデルベースシステムエンジニアリング(MBSE)とデータ駆動型機械学習/人工知能(ML/AI)の交差点に位置するが、両方をネイティブにカバーする統合システムエンジニアリング(SE)手法は存在しない。本稿では、厳格なMBSE Vプロセスの各ステップにデータ駆動ループを拡張し、SysML、自律スタック、ハイブリッドモデルベース+データ駆動トレードオフアーキテクチャに基づくIDDMBSEを提案する。オープンソースツールチェーンPERFECT(SysMLシステムアーキテクチャを実行可能なROS自律スタックにマッピング)、TRADES-X(設計空間探索をモデルベース最適化とデータ駆動評価に分解)、VERITAS(形式検証、データ駆動検証、実行時検証を統合)として具体化。信頼できる自律地上ロボットでセンサースイート選択、リスク感応経路計画、行動木タスク検証、コンフォーマル予測に基づくロバスト認識、マルチロボット調整を実証。SysML v2/KerMLへの再構築が進行中。

  • IDDMBSE手法はVプロセスの各ステップにデータ駆動ループを追加し、MBSEとデータ駆動ML/AIを統合。
  • オープンソースツール:PERFECT(SysMLからROSへのマッピング)、TRADES-X(設計空間探索)、VERITAS(統一検証)。
サイト内本文

Show HN: Preseason.ai – LLMが選ぶ開発ツールのオープンソースベンチマーク

Preseason.ai は、初心者からエキスパートまで、さまざまなレベルのコーディングプロンプトに対してAIモデルがどのツールを選択するかを追跡するオープンソースのベンチマークです。プラットフォームは、高度なシナリオごとにツールをランク付けし、人気のあるオプション間の直接比較を提供します。

  • Preseason.ai は標準化されたプロンプトを使用して、開発ツールに対するAIモデルの好みを評価します。
  • ベンチマークは、AIサポートプラットフォーム、SaaSアプリ、Eコマースなど、5つの高度なシナリオをカバーしています。
サイト内本文

アメリカAIのOnlyFans経済

アメリカのAI業界に対する痛烈な批判。AnthropicやOpenAIなどの企業が過大評価され、高額な料金を請求している一方、中国のオープンソースモデルであるQwen 3.7 Maxが優れた性能とコスト効率を提供していると論じる。著者はこの現象を「OnlyFans経済」と呼び、投資家や企業が盲目的にAI企業を崇拝することでバブルが発生していると警告する。

  • 著者はAnthropicやOpenAIの偽善と傲慢を批判している。
  • 中国のQwen 3.7 Maxは実用的な面でアメリカの最先端モデルを凌駕している。
サイト内本文

HN に投稿: 5090 に最適なローカル LLM セットアップ(llama.cpp フォーク + turboquant)

この記事では、llama.cpp の TurboQuant フォークと YaRN スケーリングを使用して、単一の 32GB VRAM GPU(NVIDIA RTX 5090)上で Qwen 3.6 35B MoE モデルを 450,000 トークンのコンテキストウィンドウで実行するための構成とメモリキャリブレーションについて詳しく説明します。モデルの選択、量子化のトレードオフ、KV キャッシュ量子化、RoPE スケーリング、マルチモーダル設定、複製ガイド、VRAM ライフサイクル管理、パフォーマンス評価をカバーしています。

  • llama.cpp の TurboQuant フォークと YaRN スケーリングを使用し、RTX 5090 上で Qwen3.6-35B-A3B-Q6_K モデルを 450K コンテキストで実行。
  • KV キャッシュを 3 ビット(turbo3)に圧縮し、YaRN でネイティブの 262K を超えて RoPE を拡張することで 450K コンテキストを実現するが、パープレキシティと検索精度の低下が伴う。
サイト内本文

Slopper GitHub Action: オープンソースプロジェクトへのAIスロップ投稿を防ぐ

SlopperはGitHub Actionで、AIによる低品質なプルリクエスト(スロップ)を検出しラベル付けします。複数のAIプロバイダーをサポートし、カスタマイズ可能な設定で自動クローズや承認が可能。

  • PRの作成者評価、コミットパターン、コード品質、行動シグナルをAIで分析。
  • OpenAI、Anthropic、Vertex AI、Groq、Geminiなど5つのプロバイダーに対応。
サイト内本文

すべてのAIエージェント機能はキャッシュ無効化面である

OpenClacky(Rubyで書かれたオープンソースAIエージェント)の創業者Yafei Lee氏は、スキル、メモリ、サブエージェント、ブラウザ自動化、動的モデル切り替え、長時間実行セッションなどの機能を構築する際に、プロンプトキャッシュが深刻な問題を引き起こすことを共有しています。2年間と3世代のアーキテクチャ(最初の2世代は失敗)を経て、90%以上のキャッシュヒット率を達成する7つのエンジニアリング上の決定に収束しました。この記事では、RAGとマルチエージェントオーケストレーションの失敗と、最初の3つの決定(ダブルキャッシュマーカー、固定システムプロンプト、単一メタツール)について詳しく説明しています。

  • すべてのエージェント機能はキャッシュ無効化面を導入し、キャッシュヒット率を低下させる。
  • 第一世代のRAGは高コスト、データの陳腐化、不十分な再現率で失敗。
サイト内本文

新しいオープンソース音声モデルはノンストップでリスニングし、0.4秒ごとに発話するか沈黙するかを判断する

GPT-4oやQwen3.5-Omniとは異なり、Audio Interactionは録音の終了を待たず、翻訳、文字起こし、チャット、咳などの日常的なノイズを単一ストリームで処理します。コード、モデル重み、ダウンロード手順はGitHubでApache 2.0ライセンスで公開されており、トレーニングデータは後日提供予定です。

  • Audio Interactionモデルはオーディオストリームを継続的にリスニングし、0.4秒ごとに判断を下す。
  • 翻訳、文字起こし、チャット、日常ノイズ認識を単一ストリームで実行可能。
サイト内本文

Moonshot AI、TypeScript 製の次世代エージェント向けターミナルAIコーディングエージェント「Kimi Code CLI」を公開

Moonshot AI は、TypeScript で構築されたオープンソースのターミナル AI コーディングエージェント Kimi Code CLI をリリースしました。サブエージェントによる並列処理、MCP 設定、ビデオ入力、ライフサイクルフックを備えています。MIT ライセンスで、Kimi モデルや他の互換プロバイダーをサポートします。

  • Kimi Code CLI は Moonshot AI による MIT ライセンスのターミナル AI コーディングエージェントです。
  • TypeScript で構築され、コーダー、エクスプローラー、プランのサブエージェントを内蔵。
サイト内本文

「peers」新バージョン——AIカップルがコードを共作

peersは、2つ以上のAIコーディングエージェント(Claude Code、Codexなど)を協力するピアとして駆動するオープンソースツールです。テスト合格、カバレッジ維持、回帰なし、TODO/スタブ/スキップテストなし、シークレットクリーンという厳格なゲートを設けています。一方のピアが実装し、他方がブラインドレビューを行い、さらに敵対的スケプティックが再監査してから「完了」を受け入れます。無人実行、予算上限、コンテナサンドボックスに対応しています。

  • 感覚ではなくゲートで完了を判定。
  • ブラインドレビューでゴム印承認を防止。
サイト内本文

SentinelBench:長期監視エージェントのためのベンチマーク

AIエージェントは通常、連続的なアクションを行いますが、長時間かかるタスクには持続的注意の戦略が適しています。SentinelBenchは、10の合成Web環境における100のタスクで構成されるオープンソースベンチマークで、タスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。3つのモデルと2つのブラウザエージェントフレームワークで実験を行い、ベースラインを確立しました。

  • AIエージェントのデフォルトは連続アクションだが、長期監視タスクには非効率。
  • SentinelBenchはメール、カレンダー、金融など10の合成環境で100タスクを提供。
サイト内本文

Claude-tinderbox:MCP経由でClaude.aiの会話履歴をローカル検索

tinderboxという個人プロジェクトは、Claude.aiの会話をエクスポートし、ローカルでインデックス化し、MCPサーバーを介して任意のClaudeセッションから検索できるようにします。ハイブリッド検索、Supabaseストレージ、Ollama埋め込みをサポート。

  • Claude.aiの会話ZIPをエクスポートし、自動解析・取り込み
  • メッセージとアーティファクトに対するハイブリッド意味検索と全文検索
サイト内本文

ToTra – GDPR/EU AI Act準拠のオープンソースLLMゲートウェイ

ToTraは、クォータ管理、PIIブロック、コスト追跡、コンプライアンス(GDPR、EU AI Act)をすぐに利用できるオープンソースのAIゲートウェイ兼ガバナンスプラットフォームです。Goで記述されており、2ミリ秒未満のオーバーヘッドで複数のLLMプロバイダーをサポートし、コード変更なしで統合できます。

  • ユーザーおよびチームごとのハードバジェット制限によるクォータ管理
  • 18言語グループをエッジでスキャンするPIIブロック
サイト内本文

Hermes Agent – 永続メモリを備えたオープンソースAIエージェント

Hermes Agent は Nous Research が開発したオープンソースの自律型AIエージェントで、永続メモリ、自動スキル作成、マルチプラットフォーム対応を備えています。自己ホスト型サーバー上で動作し、ユーザーの好みやプロジェクトを学習し、Telegram、Discord などを介して対話します。また、MLOpsやAIトレーニングのためのバッチ処理、強化学習、軌跡エクスポートも提供します。

  • オープンソース・自己ホスト型でテレメトリなし。
  • 永続メモリと自動スキル作成機能。
サイト内本文

Google DeepMind、Gemma 4 QATチェックポイントをリリース:Q4_0と新しいモバイル形式でオンデバイスメモリを削減

Google DeepMindは、エッジデバイスとコンシューマーGPUでのローカル実行を目的として、Gemma 4ファミリー向けの量子化認識トレーニング(QAT)チェックポイントをリリースしました。本記事では、公式データに基づきBF16、Q4_0 QAT、および新しいモバイルQAT形式のメモリ使用量、品質保持、デバイス適合性を比較します。

  • Q4_0 QATにより、E2BモデルはBF16の9.6GBから3.2GB、E4Bは15GBから5GBに削減。
  • 新しいモバイルQAT形式ではE2Bが約1GB、テキストのみの場合は1GB未満。
サイト内本文

MiasmaワームがGitHubリポジトリ経由でAIコーディングエージェントを標的に

Miasmaと呼ばれる新しいワームが、AIコーディングエージェントの設定ファイルを悪用してGitHubリポジトリ経由で拡散しています。Claude Code、Gemini CLI、Cursor、VS Codeなどの自動実行機能を乗っ取り、クラウド認証情報を盗み出して自己複製を行います。113以上のリポジトリで影響が確認されており、Azureサンプルや人気のオープンソースプロジェクトも含まれます。

  • Miasmaワームは、開発ツールの設定ファイル(.claude/settings.json、.cursor/rules/setup.mdcなど)を改ざんし、感染プロジェクトを開いたり使用したりすると悪意のあるコードが実行されるようにします。
  • 複数のトリガーを使用:Claude/GeminiのSessionStartフック、Cursorのプロジェクトルール、VS Codeのフォルダオープンタスク、npmテストスクリプト。
サイト内本文

Gemma 4 QATモデル:モバイルおよびノートパソコン向け圧縮最適化

Googleは、量子化認識トレーニング(QAT)で最適化されたGemma 4の新しいチェックポイントをリリースし、メモリ使用量を削減してエッジデバイスやコンシューマーGPUでのローカル実行を可能にします。カスタムモバイル量子化フォーマットにより、E2Bモデルのメモリフットプリントを1GB未満に削減しました。

  • トレーニング中に量子化をシミュレートし、後トレーニング量子化(PTQ)よりも品質低下を抑える。
  • モバイル向けカスタム量子化スキーマ:静的アクティベーション、チャネル単位量子化、ターゲット2ビット量子化、埋め込み/KVキャッシュ最適化。
サイト内本文

Linux創設者リーナス・トーバルズ氏、「コードの99%がAI」という主張に怒り

リーナス・トーバルズ氏は、オープンソースサミットの基調講演で、AIはプログラマーの生産性を向上させるが、コードやシステムアーキテクチャに対する人間の理解を代替できないと述べた。彼はAIをコンパイラに例え、コードの99%がAIによって書かれたと主張する人々はコンパイラの役割を無視していると批判した。また、AIが生成したプルリクエストやバグ報告がメンテナーに負担をかけ、バーンアウトを引き起こしていると指摘した。

  • トーバルズ氏はAIを生産性向上ツールと見なし、プログラマーの代替とは考えていない。
  • コードの99%がAIによるという主張を批判し、人間の理解の重要性を強調。
サイト内本文

Google Gemma 4 12B:アーキテクチャ、ベンチマーク、アクセス、開発者向けハンズオンガイド

2026年6月3日、GoogleはGemma 4 12B Unifiedを公開しました。これはテキスト、画像、音声、動画を単一アーキテクチャで理解するオープンソースのマルチモーダルモデルであり、256Kのコンテキストウィンドウとラップトップ向けの効率的な設計を特徴としています。エージェントワークフローとローカル展開を目的としており、本記事ではアーキテクチャ、機能、ベンチマーク、開発者向けガイドを解説します。

  • Gemma 4 12B Unifiedはエンコーダーフリーのアーキテクチャを採用し、画像と音声をLLM埋め込み空間に直接投影することでマルチモーダル処理を簡素化。
  • 256Kコンテキスト、関数呼び出し、35以上の言語、音声認識、動画理解をサポートし、Ollamaなどのローカルツールで実行可能。
サイト内本文

リー群におけるナビゲーションベクトル場のための距離関数の効率的計算

ロボット制御における経路追従問題に対し、リー群上の点と曲線の距離を効率的に計算する手法を提案。曲線をG-多項式で表現し、その構造を利用して多項式求根問題に帰着させることで、計算時間を大幅に削減しつつ精度を維持する。SE(3)群に対する実用的な公式を提供し、ロボットアームで実験検証。計算パッケージはオープンソース。

  • G-多項式曲線を用いた距離計算法を提案し、問題を多項式求根に帰着。
  • 既存の最適化ベース手法に比べ、計算時間を大幅に短縮し精度は同等。
サイト内本文

GGUFによるパフォーマンス向上とモデルサポートの拡充

Ollama 0.30がリリースされ、llama.cppを通じてGGUFモデルの互換性とパフォーマンスが向上。Appleシリコン上のMLXエンジンを補完し、より多くのハードウェアでモデルを実行可能に。

  • NVIDIA GPUで最大20%のスループット向上
  • Vulkanをデフォルト有効化し、AMD/Intel GPUをサポート
サイト内本文

Nexus:ローカルで機密スプレッドシートをAIに問い合わせる

Nexus は、AIエージェント(Claude Codeなど)がデータをクラウドにアップロードすることなく、ローカルのCSV、XLSX、SQLite、Google Sheetsを直接クエリ・操作できるローカルファーストのオープンソースツールです。MCPプロトコルでデータを公開し、ビュー、ブランチ、スナップショットなどの非破壊的派生をサポートし、オプションのセマンティック読み取りレイヤーIrisを備えています。

  • CSV、XLSX、SQLite、Google Sheetsを入力ソースとしてサポート。
  • MCPサーバー経由でデータを公開し、ローカルAIエージェントがクエリ・操作可能。
サイト内本文

Nemotron 3.5 Content Safety: グローバルエンタープライズAIのためのカスタマイズ可能なマルチモーダルセーフティ

NVIDIA は Nemotron 3.5 Content Safety をリリースしました。これは、マルチモーダル入力、多言語対応、カスタムエンタープライズポリシーの適用、および監査可能な推論を統合したコンテンツセーフティモデルです。Google Gemma 3 4B IT をベースに LoRA アダプターで微調整され、12言語の明示的トレーニングと、約140言語へのゼロショット汎化をサポートします。自然言語によるカスタムポリシー適用と、監査可能なステップバイステップの推論を提供する THINK モードを新たに導入しました。複数の多言語・マルチモーダルセーフティベンチマークで平均約85%の精度を達成しつつ、コンパクトな4Bパラメータサイズと低レイテンシを維持しています。NVIDIA は、推論トレースを含むマルチモーダル・多言語のセーフティデータセットも公開しています。

  • Nemotron 3.5 はマルチモーダル入力、多言語対応、カスタムポリシー、監査可能な推論を統合。
  • 12言語の明示的トレーニングと、Gemma 3 ベースによる約140言語へのゼロショット汎化。
サイト内本文

GoogleのGemma 4 12B、AI競争がエッジデバイスへ移行していることを示す

Apache 2.0ライセンスで公開されたこのモデルは、クラウドプロバイダーが企業にエージェント型ワークフロー向けのローカルデバイスでのモデル実行を可能にするもう一つの例です。

  • Gemma 4 12BモデルがApache 2.0ライセンスで公開された。
  • エッジデバイス上でのAIエージェントワークフロー実行を可能にする。
サイト内本文

Scikit-LLMとオープンソースLLMの使用

この記事では、OllamaとScikit-LLM Pythonライブラリを使用して、Llama 3、Mistral、Gemmaなどのローカルでホストされたオープンソース大規模言語モデルを無料でテキスト分類に利用する方法を学びます。

  • Ollamaをインストールし、オープンソースLLMをローカルで実行。
  • Scikit-LLMをローカルのOllamaエンドポイントに設定。
サイト内本文

AIを使わないオープンソースソフトウェアは消滅するのか?

本記事では、AI技術の普及に伴い、AIを利用しないOSSが淘汰される可能性を考察。AIがオープンソースエコシステムに与える影響を分析し、AIなしでも多くのプロジェクトが独自の価値を持つと指摘する。

  • AIがOSSの分野を変革している
  • AIなしのOSSは課題に直面するが、完全には消えない
サイト内本文

エンドツーエンドのテキスト行検出と順序付け

本論文では、テキスト行検出と読書順序の予測を単一の画像から系列へのタスクとして統合するエンドツーエンドモデルOrli(Ordered Regression of Lines)を紹介する。10種類の文字体系にわたる196,691ページで訓練されたOrliは、データセット固有の訓練なしにcBAD行検出で最新技術をわずかに超え、複数の読書順序ベンチマークでゼロショットでほぼ完全なカバレッジと順序付けを達成し、限定的な微調整で専門的なドメイン外のレイアウトに適応する。コードと重みはオープンソースで公開されている。

  • Orliは行検出と読書順序を単一の画像系列問題として扱う
  • 弦フレームパラメータ化を使用し、反復改良ヘッドと局所視覚リファイナで曲線を生成
サイト内本文

モデル中立性:AIベンダーロックインを避ける重要性

モデル中立性がAIエージェントにとって重要な理由を探ります。ラボがハーネス層でどのようにロックインを行い、なぜ中立的なオープンソースフレームワークが答えなのかを解説します。

  • モデル中立性は、モデルの更新サイクルが速いため、クラウド中立性よりも重要
  • AIラボはエージェントハーネス層でクラウド時代のロックイン戦略を再現している
サイト内本文

NVIDIA Nemotron 3 Ultra:長期間実行エージェントワークフロー向けの5500億パラメータオープンモデル

NVIDIA Nemotron 3 Ultra は、5500億総パラメータ(550億アクティブ)のオープンモデルで、長期間実行エージェントワークフロー向けに構築され、100万トークンのコンテキストとNVFP4最適化を備え、エージェントベンチマークとコスト効率でリードしています。

  • 総パラメータ5500億、トークンあたり550億アクティブで、エージェントオーケストレーションとコーディングエージェント向けに最適化。
  • 100万トークンのコンテキストウィンドウにより、コードベース全体とツール履歴を維持。
サイト内本文

グーグル、16GB RAMのノートPCで動作する新モデル「Gemma 4 12B」を発表

グーグルは、12億パラメータのAIモデル「Gemma 4 12B」をリリース。このモデルは16GBのRAMを搭載したコンシューマーノートPCで動作し、Gemma 4シリーズのモバイル向けと高性能モデルの間を埋める。

  • グーグルの新モデルGemma 4 12Bは、16GBのRAMでローカル動作が可能。
  • モバイル最適化モデルと高性能26B/31Bモデルの中間に位置する。
サイト内本文

Google DeepMindのGemma 4 12B、マルチモーダルAIをわずか16GBのRAMでノートPCに搭載

Google DeepMindが公開したGemma 4 12Bは、テキスト、画像、音声をネイティブに処理するオープンソースモデルで、16GBのRAMでノートPC上で動作します。ベンチマークでは2倍のサイズの26Bモデルに迫る性能を発揮し、商用利用可能なApache 2.0ライセンスで提供されます。

  • Gemma 4 12Bは16GBのRAMでノートPC上で動作。
  • テキスト、画像、音声をネイティブに処理。
サイト内本文

Google DeepMind、エンコーダーレスのマルチモーダルモデル「Gemma 4 12B」を公開:ネイティブ音声対応、16GBノートPCで動作

Google DeepMind は Gemma 4 12B をリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声を直接LLMのバックボーンに取り入れます。16GB RAMのコンシューマーノートPCでローカル実行可能で、Apache 2.0ライセンスで提供されます。テキスト、画像、音声、ビデオをネイティブに処理し、音声入力をネイティブサポートする初の中型Gemmaモデルです。

  • エンコーダーレスアーキテクチャ:独立した視覚(5.5億)および音声(3億)エンコーダーを廃止し、軽量な視覚エンベッダー(3500万)と直接音声波形投影を採用。
  • 26B MoEモデルに迫る性能を半分以下のメモリフットプリントで実現、16GBデバイスで動作。
サイト内本文

その他の成長タグ

オープンソースモデル AI News | AI News Hub