Mistral AI、欧州AI推進のため30億ユーロ調達を模索
フランスのAIスタートアップMistral AIは、約30億ユーロの新たな資金調達ラウンドを交渉中で、評価額は約200億ユーロとなっています。
- Mistral AIが30億ユーロの資金調達を交渉中
- 評価額は約200億ユーロ
ロングテールタグ
オープンウェイトモデル、オープンライセンス、コミュニティ評価、蒸留、ローカル展開。
フランスのAIスタートアップMistral AIは、約30億ユーロの新たな資金調達ラウンドを交渉中で、評価額は約200億ユーロとなっています。
アクティベーション・ステアリングはLLMの行動を変えるが、標準的な評価では追従行動低減が事実に基づく同意も抑制するかどうかをテストしない。本論文では二立場評価を導入し、Llama-3-8B-Instructに重心差ステアリングを適用した。追従的同意と事実的同意は幾何学的に異なる部分空間にあるが、ステアリング方向は両方に等しく投影され、区別できないことがわかった。その結果、追従的発言だけでなく地球が丸いといった事実に基づく同意も減少する。このパターンは、活性化から読み取れる表現が書き込めるとは限らないという一般的なギャップを示している。
Pythagoras-Proverは、4Bおよび32Bの自己回帰モデルと4Bの拡散モデルからなる、計算効率の高いLean定理証明器ファミリーです。段階的なカリキュラムSFTと動的証明フィルタリングにより訓練効率を向上させ、Augmented Lean Formalisation(ALF)を導入して検証コーパスを拡張します。実験では、4BモデルがMiniF2F-TestでDeepSeek-Prover-V2-671Bを上回り(86.1% vs 82.4%)、32Bモデルが93.0%でオープンソースの最高記録を達成し、PutnamBenchで93問を解決しました。
大規模言語モデル(LLM)のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench(約4万7000ツール)での実験では、知識と検索の乖離(知識-検索解離)が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50~64%低下し、埋め込みベースのベースラインを下回る場合がある。
Agent-EvalKit は、Claude Code、Kiro CLI、Kilo Code などの AI コーディングアシスタントと統合することで、評価インフラを提供するオープンソースツールキット (Apache 2.0) です。この記事では、Agent-EvalKit の6つの評価フェーズを、Strands Agents SDK と Amazon Bedrock で構築された旅行調査エージェントを例に説明します。
Google DeepMindのDiffusionGemmaは、拡散を用いてテキストブロックを並列生成する実験的なオープンウェイトモデルで、従来の自己回帰モデルと比較してローカル推論が高速です。Gemma 4 26B A4B MoEアーキテクチャに基づき、品質と速度をトレードオフし、インタラクティブな編集タスクに最適です。この記事では、そのアーキテクチャ、テキスト拡散の仕組み、ベンチマーク結果、llama.cppを使用したローカル実行の手順を説明します。
OllamaのMLXエンジンがアップデートされ、Apple Silicon上でこれまでで最高のパフォーマンスを発揮します。AppleのユニファイドメモリとMetalバックエンドのMLXフレームワークをより活用することで、モデルは高品質な応答を出力し、より高速に応答し、メモリ使用量を削減します。NVFP4フォーマットのサポート、最大20%の出力速度向上、エージェントワークフロー向けのスナップショットシステムを導入。
Googleは、Apache 2ライセンスのオープンウェイトモデルDiffusionGemmaを公開しました。NVIDIAのNIMクラウドAPIで無料利用可能で、500トークン/秒以上の高速生成を実現します。
Googleは260億パラメータのDiffusionGemmaを公開。拡散方式でテキストを生成し、H100 GPUで毎秒1,000トークンと従来の4倍の速度だが、品質は低く実験的。
DiffusionGemmaはGoogle DeepMindが開発した実験的なオープンテキスト生成モデルで、標準的な自己回帰デコードの代わりにテキスト拡散を採用し、専用GPU上で最大4倍の生成速度を実現します。26BパラメータのMoEモデル(推論時は3.8Bのみ活性化)で、Gemma 4をベースに構築され、マルチモーダル入力(テキスト、画像、動画)をサポートし、256Kのコンテキストウィンドウ、140以上の言語に対応、Apache 2.0ライセンスで公開されています。
Google DeepMindが、高速テキスト生成のための実験的なオープンモデルDiffusionGemmaをリリース。NVIDIAはこれを最適化し、GeForce RTX、RTX PRO、DGX Spark上でさらに高速に動作し、ローカルで最大1000 tokens/secを達成。
AIによりSpringフレームワークの脆弱性発見が劇的に増加し、月間セキュリティアドバイザリが1700%急増。BroadcomはSpring史上最大のセキュリティアップデートをオープンソース化し、エンタープライズ顧客にデイゼロパッチを提供するが、戦いは始まったばかりだ。
NeuroBaitは、ADHDの脳がタスクを開始できない「実行機能障害」を克服するために、ドーパミンを刺激するように微調整されたAIモデルです。著者の妻の観察から生まれ、従来のToDoリストではなく、温かみのある流れるような散文で小さな実行可能な一歩を提供します。LoRAを用いてGemma 3 12Bを微調整し、Hugging Face Spaceにデプロイされています。ADHDに限らず、圧倒されていると感じる誰でも役立ちます。
マイクロソフトはGitHub上の数十のオープンソースプロジェクトへのアクセスを遮断し、ハッカーがコードにパスワード盗取マルウェアを仕込んだ不正侵入を調査している。影響を受けたプロジェクトはAzureやClaude Code、Gemini CLI、VS CodeなどのAI開発ツールに関連している。
オフライン強化学習は、歴史的なトカマクデータからプラズマ制御器を開発する有望な手法だが、標準化されたベンチマークの欠如により進捗の測定が困難である。本論文では、DIII-Dトカマクの実際の放電データに基づくオフラインRLベンチマークRL4Fを提案する。回転、密度、温度、圧力の4つの全プロファイル追跡タスクをカバーする。評価の結果、オフラインモデルベースのRL手法がほとんどの目的で平均的な性能が最も良いが、単一の手法が全タスクを支配するわけではなく、複雑な長 horizon プラズマ制御タスクにおける動的モデリングの重要性が示された。コードベース、データセット、評価フレームワークはオープンソース化されている。
新しい研究は、オープンウェイト大規模言語モデルLLaMA 3.1がオランダ語の脳MRIレポートから構造化情報を自動抽出する能力を評価しました。モデルは視覚評価スコアなどのカテゴリ変数で優れた性能を示しましたが、数値変数では性能が低く、少数ショットプロンプティングが数値抽出精度を大幅に向上させました。
AppleはGitHubでCore AI Modelsをオープンソース化しました。リポジトリには、Hugging FaceなどのモデルをCore AI形式にエクスポートするレシピ、PyTorchでカスタムモデルを作成するPythonプリミティブ、macOS/iOSで動作するSwiftランタイムパッケージが含まれます。さらに、Claude Code、Codex CLI、Gemini CLI向けのエージェントスキルプラグインも提供。現時点ではコード貢献は受け付けていませんが、GitHub Issuesでのフィードバックを歓迎します。
GitdotはRustで書かれたオープンソースのGitHub代替品で、CLIに触発されたインターフェースを持ちます。現在、ユーザー登録、組織作成、リポジトリ管理、GitHubからのインポート(読み取り専用ミラーまたは完全移行)をサポートしています。issues、PR、CIなどの機能はまだありません。デザインはキーボード駆動のナビゲーションに重点を置き、100msのFCPを目指しています。
本記事では、Nova Sonicテストハーネスを紹介します。これは、自動でマルチターン会話を実行し、音声エージェントの品質を評価し、オーディオ幻覚を検出するオープンソースフレームワークです。プロンプトとツール設定の迅速な反復と大規模な回帰テストを可能にします。
自律サイバーフィジカルシステム(CPS)はモデルベースシステムエンジニアリング(MBSE)とデータ駆動型機械学習/人工知能(ML/AI)の交差点に位置するが、両方をネイティブにカバーする統合システムエンジニアリング(SE)手法は存在しない。本稿では、厳格なMBSE Vプロセスの各ステップにデータ駆動ループを拡張し、SysML、自律スタック、ハイブリッドモデルベース+データ駆動トレードオフアーキテクチャに基づくIDDMBSEを提案する。オープンソースツールチェーンPERFECT(SysMLシステムアーキテクチャを実行可能なROS自律スタックにマッピング)、TRADES-X(設計空間探索をモデルベース最適化とデータ駆動評価に分解)、VERITAS(形式検証、データ駆動検証、実行時検証を統合)として具体化。信頼できる自律地上ロボットでセンサースイート選択、リスク感応経路計画、行動木タスク検証、コンフォーマル予測に基づくロバスト認識、マルチロボット調整を実証。SysML v2/KerMLへの再構築が進行中。
Preseason.ai は、初心者からエキスパートまで、さまざまなレベルのコーディングプロンプトに対してAIモデルがどのツールを選択するかを追跡するオープンソースのベンチマークです。プラットフォームは、高度なシナリオごとにツールをランク付けし、人気のあるオプション間の直接比較を提供します。
アメリカのAI業界に対する痛烈な批判。AnthropicやOpenAIなどの企業が過大評価され、高額な料金を請求している一方、中国のオープンソースモデルであるQwen 3.7 Maxが優れた性能とコスト効率を提供していると論じる。著者はこの現象を「OnlyFans経済」と呼び、投資家や企業が盲目的にAI企業を崇拝することでバブルが発生していると警告する。
この記事では、llama.cpp の TurboQuant フォークと YaRN スケーリングを使用して、単一の 32GB VRAM GPU(NVIDIA RTX 5090)上で Qwen 3.6 35B MoE モデルを 450,000 トークンのコンテキストウィンドウで実行するための構成とメモリキャリブレーションについて詳しく説明します。モデルの選択、量子化のトレードオフ、KV キャッシュ量子化、RoPE スケーリング、マルチモーダル設定、複製ガイド、VRAM ライフサイクル管理、パフォーマンス評価をカバーしています。
SlopperはGitHub Actionで、AIによる低品質なプルリクエスト(スロップ)を検出しラベル付けします。複数のAIプロバイダーをサポートし、カスタマイズ可能な設定で自動クローズや承認が可能。
OpenClacky(Rubyで書かれたオープンソースAIエージェント)の創業者Yafei Lee氏は、スキル、メモリ、サブエージェント、ブラウザ自動化、動的モデル切り替え、長時間実行セッションなどの機能を構築する際に、プロンプトキャッシュが深刻な問題を引き起こすことを共有しています。2年間と3世代のアーキテクチャ(最初の2世代は失敗)を経て、90%以上のキャッシュヒット率を達成する7つのエンジニアリング上の決定に収束しました。この記事では、RAGとマルチエージェントオーケストレーションの失敗と、最初の3つの決定(ダブルキャッシュマーカー、固定システムプロンプト、単一メタツール)について詳しく説明しています。
GPT-4oやQwen3.5-Omniとは異なり、Audio Interactionは録音の終了を待たず、翻訳、文字起こし、チャット、咳などの日常的なノイズを単一ストリームで処理します。コード、モデル重み、ダウンロード手順はGitHubでApache 2.0ライセンスで公開されており、トレーニングデータは後日提供予定です。
Moonshot AI は、TypeScript で構築されたオープンソースのターミナル AI コーディングエージェント Kimi Code CLI をリリースしました。サブエージェントによる並列処理、MCP 設定、ビデオ入力、ライフサイクルフックを備えています。MIT ライセンスで、Kimi モデルや他の互換プロバイダーをサポートします。
peersは、2つ以上のAIコーディングエージェント(Claude Code、Codexなど)を協力するピアとして駆動するオープンソースツールです。テスト合格、カバレッジ維持、回帰なし、TODO/スタブ/スキップテストなし、シークレットクリーンという厳格なゲートを設けています。一方のピアが実装し、他方がブラインドレビューを行い、さらに敵対的スケプティックが再監査してから「完了」を受け入れます。無人実行、予算上限、コンテナサンドボックスに対応しています。
AIエージェントは通常、連続的なアクションを行いますが、長時間かかるタスクには持続的注意の戦略が適しています。SentinelBenchは、10の合成Web環境における100のタスクで構成されるオープンソースベンチマークで、タスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。3つのモデルと2つのブラウザエージェントフレームワークで実験を行い、ベースラインを確立しました。
tinderboxという個人プロジェクトは、Claude.aiの会話をエクスポートし、ローカルでインデックス化し、MCPサーバーを介して任意のClaudeセッションから検索できるようにします。ハイブリッド検索、Supabaseストレージ、Ollama埋め込みをサポート。
ToTraは、クォータ管理、PIIブロック、コスト追跡、コンプライアンス(GDPR、EU AI Act)をすぐに利用できるオープンソースのAIゲートウェイ兼ガバナンスプラットフォームです。Goで記述されており、2ミリ秒未満のオーバーヘッドで複数のLLMプロバイダーをサポートし、コード変更なしで統合できます。
Hermes Agent は Nous Research が開発したオープンソースの自律型AIエージェントで、永続メモリ、自動スキル作成、マルチプラットフォーム対応を備えています。自己ホスト型サーバー上で動作し、ユーザーの好みやプロジェクトを学習し、Telegram、Discord などを介して対話します。また、MLOpsやAIトレーニングのためのバッチ処理、強化学習、軌跡エクスポートも提供します。
Google DeepMindは、エッジデバイスとコンシューマーGPUでのローカル実行を目的として、Gemma 4ファミリー向けの量子化認識トレーニング(QAT)チェックポイントをリリースしました。本記事では、公式データに基づきBF16、Q4_0 QAT、および新しいモバイルQAT形式のメモリ使用量、品質保持、デバイス適合性を比較します。
Miasmaと呼ばれる新しいワームが、AIコーディングエージェントの設定ファイルを悪用してGitHubリポジトリ経由で拡散しています。Claude Code、Gemini CLI、Cursor、VS Codeなどの自動実行機能を乗っ取り、クラウド認証情報を盗み出して自己複製を行います。113以上のリポジトリで影響が確認されており、Azureサンプルや人気のオープンソースプロジェクトも含まれます。
Googleは、量子化認識トレーニング(QAT)で最適化されたGemma 4の新しいチェックポイントをリリースし、メモリ使用量を削減してエッジデバイスやコンシューマーGPUでのローカル実行を可能にします。カスタムモバイル量子化フォーマットにより、E2Bモデルのメモリフットプリントを1GB未満に削減しました。
リーナス・トーバルズ氏は、オープンソースサミットの基調講演で、AIはプログラマーの生産性を向上させるが、コードやシステムアーキテクチャに対する人間の理解を代替できないと述べた。彼はAIをコンパイラに例え、コードの99%がAIによって書かれたと主張する人々はコンパイラの役割を無視していると批判した。また、AIが生成したプルリクエストやバグ報告がメンテナーに負担をかけ、バーンアウトを引き起こしていると指摘した。
2026年6月3日、GoogleはGemma 4 12B Unifiedを公開しました。これはテキスト、画像、音声、動画を単一アーキテクチャで理解するオープンソースのマルチモーダルモデルであり、256Kのコンテキストウィンドウとラップトップ向けの効率的な設計を特徴としています。エージェントワークフローとローカル展開を目的としており、本記事ではアーキテクチャ、機能、ベンチマーク、開発者向けガイドを解説します。
ロボット制御における経路追従問題に対し、リー群上の点と曲線の距離を効率的に計算する手法を提案。曲線をG-多項式で表現し、その構造を利用して多項式求根問題に帰着させることで、計算時間を大幅に削減しつつ精度を維持する。SE(3)群に対する実用的な公式を提供し、ロボットアームで実験検証。計算パッケージはオープンソース。
Ollama 0.30がリリースされ、llama.cppを通じてGGUFモデルの互換性とパフォーマンスが向上。Appleシリコン上のMLXエンジンを補完し、より多くのハードウェアでモデルを実行可能に。
Nexus は、AIエージェント(Claude Codeなど)がデータをクラウドにアップロードすることなく、ローカルのCSV、XLSX、SQLite、Google Sheetsを直接クエリ・操作できるローカルファーストのオープンソースツールです。MCPプロトコルでデータを公開し、ビュー、ブランチ、スナップショットなどの非破壊的派生をサポートし、オプションのセマンティック読み取りレイヤーIrisを備えています。
NVIDIA は Nemotron 3.5 Content Safety をリリースしました。これは、マルチモーダル入力、多言語対応、カスタムエンタープライズポリシーの適用、および監査可能な推論を統合したコンテンツセーフティモデルです。Google Gemma 3 4B IT をベースに LoRA アダプターで微調整され、12言語の明示的トレーニングと、約140言語へのゼロショット汎化をサポートします。自然言語によるカスタムポリシー適用と、監査可能なステップバイステップの推論を提供する THINK モードを新たに導入しました。複数の多言語・マルチモーダルセーフティベンチマークで平均約85%の精度を達成しつつ、コンパクトな4Bパラメータサイズと低レイテンシを維持しています。NVIDIA は、推論トレースを含むマルチモーダル・多言語のセーフティデータセットも公開しています。
Apache 2.0ライセンスで公開されたこのモデルは、クラウドプロバイダーが企業にエージェント型ワークフロー向けのローカルデバイスでのモデル実行を可能にするもう一つの例です。
この記事では、OllamaとScikit-LLM Pythonライブラリを使用して、Llama 3、Mistral、Gemmaなどのローカルでホストされたオープンソース大規模言語モデルを無料でテキスト分類に利用する方法を学びます。
本記事では、AI技術の普及に伴い、AIを利用しないOSSが淘汰される可能性を考察。AIがオープンソースエコシステムに与える影響を分析し、AIなしでも多くのプロジェクトが独自の価値を持つと指摘する。
本論文では、テキスト行検出と読書順序の予測を単一の画像から系列へのタスクとして統合するエンドツーエンドモデルOrli(Ordered Regression of Lines)を紹介する。10種類の文字体系にわたる196,691ページで訓練されたOrliは、データセット固有の訓練なしにcBAD行検出で最新技術をわずかに超え、複数の読書順序ベンチマークでゼロショットでほぼ完全なカバレッジと順序付けを達成し、限定的な微調整で専門的なドメイン外のレイアウトに適応する。コードと重みはオープンソースで公開されている。
モデル中立性がAIエージェントにとって重要な理由を探ります。ラボがハーネス層でどのようにロックインを行い、なぜ中立的なオープンソースフレームワークが答えなのかを解説します。
NVIDIA Nemotron 3 Ultra は、5500億総パラメータ(550億アクティブ)のオープンモデルで、長期間実行エージェントワークフロー向けに構築され、100万トークンのコンテキストとNVFP4最適化を備え、エージェントベンチマークとコスト効率でリードしています。
グーグルは、12億パラメータのAIモデル「Gemma 4 12B」をリリース。このモデルは16GBのRAMを搭載したコンシューマーノートPCで動作し、Gemma 4シリーズのモバイル向けと高性能モデルの間を埋める。
Google DeepMindが公開したGemma 4 12Bは、テキスト、画像、音声をネイティブに処理するオープンソースモデルで、16GBのRAMでノートPC上で動作します。ベンチマークでは2倍のサイズの26Bモデルに迫る性能を発揮し、商用利用可能なApache 2.0ライセンスで提供されます。
Google DeepMind は Gemma 4 12B をリリースしました。これは120億パラメータの高密度マルチモーダルモデルで、従来のエンコーダーを排除し、視覚と音声を直接LLMのバックボーンに取り入れます。16GB RAMのコンシューマーノートPCでローカル実行可能で、Apache 2.0ライセンスで提供されます。テキスト、画像、音声、ビデオをネイティブに処理し、音声入力をネイティブサポートする初の中型Gemmaモデルです。
AI コーディング支援、コード生成、IDE プラグイン、開発者ワークフロー、ソフトウェア工学の自動化。
Model Context Protocol、ツール呼び出し、コネクタ、Agent コンテキスト、企業連携。
推論価格、レイテンシ、スループット、キャッシュ、量子化、プロバイダー費用、展開効率。
Agent フレームワーク、オーケストレーション、メモリ、評価、ワークフロー自動化、本番展開。
中国の AI 企業、モデル、政策、チップエコシステム、オープンソースコミュニティ、商用化。
GPU、データセンター、クラスタネットワーク、AI クラウド、学習基盤、サプライチェーン。
モデル API 価格、プラン、コンテキスト長、無料枠、トークン単価、ビジネスモデル。
DeepSeek のモデル、API、オープンウェイト、推論効率、エコシステム連携、世界的影響。
Qwen モデル、オープンウェイト、マルチモーダル、Agent 機能、API、企業導入。