Perplexity AIがUnigramトークナイザーをオープンソース化、Hugging Face tokenizers crate比5倍の低レイテンシを達成 2026-05-28 Perplexity AIは、Rustで再実装したUnigramトークナイザーをオープンソース化し、Hugging Face tokenizers crateと比較してp50レイテンシを5倍低減、本番環境でのCPU使用率を5〜6倍削減しました。最適化には、ダブルアレイトライ、ビットマップパッキング、ヒュージページが含まれます。
Perplexity AIがUnigramトークナイザーをRustで書き直し、Hugging Face tokenizers crate比5倍の低p50レイテンシを達成。 3つの最適化:ダブルアレイトライ、ビットマップとキャッシュラインパッキング、ヒュージページ。 ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる 2026-05-27 Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。
Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。 すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。 Reachy Miniが完全ローカル対応 2026-05-27 本記事では、Reachy Miniロボット向けにクラウドやAPIキーを必要としない完全ローカルの音声会話パイプラインをデプロイする方法を詳しく説明します。VAD、STT、LLM、TTSを組み合わせたカスケード方式を採用し、推奨デフォルトとしてllama.cppとGemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT、Qwen3-TTSを使用します。ローカルMLX、Transformers、vLLM、リモートResponses APIなど、さまざまなLLMオプションが提供されています。
Reachy Miniがサーバー不要の完全ローカル会話を実現。 カスケードパイプラインはVAD、STT、LLM、TTSで構成され、コンポーネントを交換可能。 ハーネス、スキャフォールド、そしてAIエージェント用語の正しい理解 2026-05-25 本稿はAIエージェント分野で混同されがちな用語、特に「ハーネス」(実行層)と「スキャフォールド」(行動定義層)の違いを明確にし、モデル、エージェント、ツール使用、サブエージェント、訓練関連概念を解説する。
AIエージェント=モデル+ハーネス。ハーネスはモデル呼び出しとツール実行を管理する。 スキャフォールドはモデルを取り巻く行動定義層:システムプロンプト、ツール記述など。 Nemotron-Labs 拡散言語モデルによる光速に迫るテキスト生成 2026-05-23 NVIDIA が Nemotron-Labs 拡散言語モデルシリーズを発表。トークンを並列生成し反復的に洗練する手法により、従来の自己回帰モデルと比較して最大 6.4 倍の推論速度向上と高い精度を実現。8B モデルは Qwen3 8B を精度で 1.2% 上回る。
3つの生成モード(自己回帰、拡散、自己推測)をサポート。 8B モデルは拡散モードで 2.6 倍、自己推測モードで最大 6.4 倍の速度向上。 専門化が規模に勝る:ほとんどのAI調達決定が見落とす戦略的変数 2026-05-22 ある企業がAI調達において、30億パラメータの専門化モデルが品質、コスト、生産安定性のすべてで商用フロンティアAPIを上回り、コストは約52分の1であることを発見しました。これは「パラメータが多いほど良い」というデフォルトの仮定に挑戦し、パラメータ数よりもトレーニング履歴とタスクの分布アライメント(分布的一致)が重要であることを示しています。
30億パラメータの専門化モデルがOCRベンチマークでスコア0.911を達成し、Claude Opus 4.6の0.833を上回りました。 このモデルの実行コストはフロンティアAPIの約52分の1でした。 オープンソースソフトウェアがロボットの思考を支援し始める 2026-05-21 オープンソース運動がAIのブレークスルーをロボティクスに持ち込み、参入障壁を低減している。ROSフレームワークからNVIDIA、Hugging Face、Alibabaのモデルまで、ロボットの推論、決定、行動の能力がより多くの人々に利用可能になりつつある。しかし、商業的インセンティブと学術的理想の間の緊張が新たな課題を生んでいる。
オープンソースロボティクスソフトウェアは数十年にわたり発展し、ROSがインフラを確立。現在はオープンソースAIモデルがロボットの「頭脳」の進化を推進している。 NVIDIA、Hugging Face、Alibabaなどの企業がオープンソースのロボットAIツールとモデルを公開し、参入障壁を大幅に低下させた。 OlmoEarth v1.1:より効率的なモデルファミリー 2026-05-19 Allen AI が OlmoEarth v1.1 を発表。解像度ごとのトークンを統合することで、計算コストを最大3分の1に削減し、v1 と同等の性能を維持。大規模なリモートセンシング解析向けで、パートナーによるグローバル展開が進んでいる。
OlmoEarth v1.1 は v1 比で計算コストを最大3分の1に削減、性能は同等。 マルチスペクトルバンドのトークンを解像度間で統合し、系列長を短縮。 LoRA/DoRAを用いたNVIDIA Cosmos Predict 2.5のファインチューニングによるロボット動画生成 2026-05-18 本記事では、LoRAおよびDoRAというパラメータ効率的なファインチューニング手法を用いて、NVIDIA Cosmos Predict 2.5世界モデルを単一GPUでロボット動画生成に適応させる方法を解説します。データ準備、アダプター初期化、訓練ループ、推論方法、評価指標について詳述します。
LoRAとDoRAは、凍結されたベースモデルに小型の学習可能アダプターを注入することで、メモリ要件を削減し、破滅的忘却を防ぎつつ効率的なファインチューニングを可能にします。 訓練には92個のロボット操作ビデオデータセットを使用し、rectified flow損失とMSE損失で最適化します。 Granite Embedding Multilingual R2:オープンApache 2.0多言語埋め込みモデル、32Kコンテキスト、1億パラメータ未満で最高の検索品質 2026-05-14 IBMがGranite Embedding Multilingual R2シリーズを発表。97Mおよび311Mパラメータの2つの多言語埋め込みモデルで、ModernBERTベース、32Kトークンコンテキスト、200+言語対応。MTEB多言語検索ベンチマークで97Mモデルは1億パラメータ未満で最高、311Mモデルは5億パラメータ未満で2位を獲得。
97MモデルはMTEB多言語検索で60.3点、1億パラメータ未満で最高;311Mモデルは65.2点、5億パラメータ未満で2位。 32Kトークンコンテキスト(R1の64倍)、200+言語対応、52言語と9プログラミング言語が検索用に特化訓練。 GLiNER2-PII:0.3BパラメータのオープンソースPIIモデルがOpenAIのプライバシーフィルターを上回る 2026-05-14 新しいオープンソースモデルGLiNER2-PII(0.3Bパラメータ)が、PII検出において最先端のパフォーマンスを達成し、SPYベンチマークでOpenAIのプライバシーフィルターを上回りました。42のエンティティタイプを認識し、多言語合成コーパスで訓練されています。モデルはHugging Faceで公開されています。
PII検出のためのオープンソース0.3Bパラメータモデル SPYベンチマークでOpenAIプライバシーフィルターを上回る Hugging FaceですべてのAIモデルアーキテクチャを瞬時に可視化する方法 2026-05-14 現代のAIアーキテクチャを理解することはかつてないほど難しくなっています。この記事では、Hugging FaceのモデルURL内の「huggingface.co」を「hfviewer.com」に置き換えるだけで、モデル構造をインタラクティブな可視化グラフに変換する簡単な方法を紹介します。このツールはトランスフォーマー、ビジョン、マルチモーダルモデルをサポートし、セットアップ不要です。ターミナルコマンドやブラウザ拡張機能による高速アクセスも可能です。
Hugging FaceのモデルURLのhuggingface.coをhfviewer.comに置き換えるとアーキテクチャを可視化。 hfviewerはモデル構造をインタラクティブなグラフに変換し、多様なアーキテクチャをサポート。 連続バッチ処理における非同期性の解放 2026-05-14 本記事では、CPUとGPUのワークロードを分離することで推論性能を大幅に向上させる方法を解説します。連続バッチ処理はバッチを密に詰めることでGPU利用率を高めますが、同期動作によりCPUとGPUが交互に待機し、全実行時間の約4分の1を無駄にします。非同期バッチ処理では、デフォルト以外のCUDAストリームとイベントを使用してCPUとGPUを並列動作させ、待機時間を排除し、24%の無料高速化を実現します。記事では、CUDAストリーム、イベント、およびそれらを連続バッチ処理に適用する方法を詳しく説明し、transformersライブラリでの実装コードを紹介します。
同期連続バッチ処理では、GPUがCPUを待つために約24%の時間が無駄になる。 非同期バッチ処理では、デフォルト以外のCUDAストリームとイベントを使用してCPUとGPUを並列化する。 Hugging FaceでOpenAIリリースを装った悪意あるソフトウェアが発見される 2026-05-12 OpenAIのリリースを装った悪意あるHugging FaceリポジトリがWindowsマシンに情報窃取型マルウェアを配布し、削除前に約244,000回のダウンロードを記録しました。研究者らは、公開AIモデルレジストリがサプライチェーンリスクをもたらすと警告しています。
偽の 'Open-OSS/privacy-filter' リポジトリがOpenAIのPrivacy Filterを模倣し、認証情報を盗むマルウェアをインストールする悪意のあるloader.pyを含んでいた。 リポジトリは18時間以内にトレンドトップに達し667のいいねを獲得したが、ダウンロード数は攻撃者によって水増しされた可能性がある。 AWS上でのファウンデーションモデルのトレーニングと推論のためのビルディングブロック 2026-05-11 本記事では、AWSにおけるファウンデーションモデルの事前学習、事後学習、推論のためのインフラコンポーネント(GPUインスタンス、Elastic Fabric Adapter、Lustreファイルシステム、UltraCluster/UltraServerアーキテクチャ)を分析し、オープンソースソフトウェアがリソース管理と監視において果たす役割を強調します。
ファウンデーションモデルのスケーリングは、事前学習のみから、事後学習とテスト時計算の3つの領域に拡大しました。 AWSはH100からB300までの複数世代のGPUインスタンスを提供し、NVLinkとEFAネットワーキングを備えています。 AMD Strix HaloでLLMをファインチューニングする方法 2026-05-11 AMD Strix Halo APU(gfx1151)上で大規模言語モデルをフルファインチューニングおよびLoRAファインチューニングするためのガイド。ROCm互換性の問題を回避し、HuggingFace Trainerを直接使用します。
Strix Halo APUは128GBのユニファイドメモリを搭載し、大規模モデルを容易に収容可能。 SwiftやUnslothは非互換のため、HuggingFace Trainerを直接使用。 Unsloth、PyTorchエコシステムに参加 2026-05-11 Unslothは、PyTorchエコシステムに正式に加わりました。同社はオープンソースのAI最適化ライブラリを提供し、モデル訓練の高速化、量子化、Unsloth Studio UIなどで知られています。PyTorchチームとの協業により、FP8強化学習、携帯電話向けExecuTorch、量子化認識訓練(QAT)などのプロジェクトを推進。コミュニティではHugging Faceで2.5億ダウンロード、200人以上のコントリビューターを達成しています。
UnslothがPyTorchエコシステムに参加、技術的価値とコミュニティ貢献が評価される。 2倍の訓練速度、70%のVRAM削減を実現するツールと500以上のモデルに対応するUnsloth Studioを提供。 MachinaCheck:AMD MI300X上でマルチエージェントCNC製造可能性システムを構築 2026-05-10 MachinaCheckは、AMD MI300XをベースにしたマルチエージェントAIシステムで、STEPファイルをアップロードするだけで30秒でCNC製造可能性レポートを生成します。完全にオンプレミスで動作し、知的財産を保護します。
従来の手作業による図面評価は1枚あたり30〜60分かかるが、MachinaCheckは30秒で完了 AMD MI300Xの192GB VRAMにより完全ローカル推論を実現、顧客IPを保護 TTFTを低減するCPUMaxxingトークン化 2026-05-09 CrusoeとNVIDIA Dynamoは、HuggingFace比平均9.1倍の高速化を実現し、長コンテキストワークロードでTTFTを最大40%削減するオープンソースのRust BPEトークナイザーfastokensを開発しました。
fastokensは平均9.1倍、長いプロンプトでは最大31倍の高速化を達成。 並列プリトークン化、2レベルキャッシュ、動的メモリ管理などの最適化を実装。 Hugging FaceのClem Delangue氏:「エンジンを車と比較するのはやめよう」 2026-05-09 Hugging Faceの共同創業者兼CEOであるClem Delangue氏が、オープンソースAIの現状とシーシュポスの神話について語った。彼は、AIエンジンを車に例えるような単純な比較を避けるべきだと主張している。
Delangue氏はオープンソースAIが重要な発展段階にあると指摘 AIエンジンを車に例える単純化を批判 OncoAgent:プライバシー保護型腫瘍臨床意思決定支援のための二層マルチエージェントフレームワーク 2026-05-09 OncoAgentは、オープンソースでプライバシー保護型の腫瘍学向け臨床意思決定支援システムです。二層LLMアーキテクチャ(9B高速モデルと27B深層推論モデル)、マルチエージェントLangGraphトポロジー、70以上のNCCNおよびESMOガイドラインをカバーする修正RAGパイプライン、そしてZero-PHIポリシーを備えた3層反射安全バリデーターを特徴とします。複雑性スコアリングによってクエリをルーティングし、AMD Instinct MI300X上でファインチューニングされ、56倍のスループット高速化を達成しました。データ主権を確保するため、オンプレミス展開をサポートします。
オープンソースでプライバシー保護型の腫瘍意思決定支援システム、オンプレミス展開可能。 二層LLM:9B高速モデルと27B深層推論モデル、複雑性スコアによってルーティング。 CyberSecQwen-4B:防御的サイバーセキュリティに小型・特化・ローカル実行可能なモデルが必要な理由 2026-05-08 CyberSecQwen-4Bは、Qwen3-4B-Instructからファインチューニングされた小型のサイバーセキュリティ特化モデルで、データプライバシー、コスト、オフライン展開のニーズに応えます。CTI-Benchベンチマークで、8BパラメータのCisco Foundation-Sec-Instructモデルと同等かそれ以上の性能を、半分のパラメータ数で達成し、1枚のコンシューマGPUで動作します。記事では、トレーニング手法、データソース、ベンチマーク結果、今後の方向性を詳述しています。
CyberSecQwen-4BはCTI-MCQでCiscoの8Bモデルを+8.7ポイント上回り、CTI-RCMでは97.3%の精度を維持、パラメータ数は半分。 12 GBのコンシューマGPUで動作し、機密データをオンプレミスに保ち、APIコストを削減、隔離環境をサポート。 EMO: 創発的なモジュール性を実現する事前学習済み混合専門家モデル 2026-05-08 Allen AIがEMOモデルを公開。これは、人間が定義した事前知識に頼らず、データから直接モジュール構造が創発するようにエンドツーエンドで事前学習された混合専門家(MoE)モデルです。EMOは、タスクごとに専門家のわずか12.5%を使用しながらも、フルモデルに近い性能を維持し、すべての専門家を使用した場合には強力な汎用モデルとして機能します。標準MoEとは異なり、EMOの専門家サブセットは選択的に使用しても性能低下がわずかです。
EMOは1Bアクティブ、14B総パラメータのMoEで、128の専門家を持ち、トークンごとに8つが活性化される。 文書レベルのルーティング制約により、専門家クラスターは低レベルの構文パターンではなく、意味的なドメイン(健康、ニュースなど)を形成する。 Show HN: CAD生成タスクのためのオープンソースFreeCADデータセット 2026-05-08 gnucleus-aiがHugging FaceでオープンソースのFreeCADデータセットを公開。100個のパラメトリックCADモデル(シャフト、ベアリング、フランジなど)を含み、各モデルに主要パラメータ、画像、.FCStdファイルが付属。CAD生成タスクに最適で、Apache-2.0ライセンス。
gnucleus-aiがcad-gen-freecadデータセットを公開 100個のパラメトリックFreeCADモデルを収録 MedQA:AMD ROCm上での臨床AIのファインチューニング—CUDAは不要 2026-05-08 AMD MI300XとROCmを使用して、MedMCQAデータセットでQwen3-1.7BをLoRAファインチューニングする完全な手順。CUDA不要でトレーニングは約5分、モデルは回答と解説を出力します。
AMD MI300Xの192GB HBM3メモリを活用し、量子化なしでfp16完全精度トレーニングを実現。 LoRAは全パラメータの約0.14%(220万)のみを更新、トレーニング時間は約5分。 vLLM V0からV1へ:RLにおける修正より先に正しさを 2026-05-06 ServiceNow AIチームは、強化学習トレーニングパイプラインをvLLM V0からV1に移行する際、4つのバックエンド問題(logprobsセマンティクス、ランタイムデフォルト、インフライトウェイト更新、fp32 lm_head)を特定しました。バックエンドの正しさを優先して修正し、その後で目的側の修正を検討することで、V0リファレンスとの完全なパリティを達成しました。
移行目標:V1がトレーナーが期待するlogprobsを返すことを確認し、V0ベースラインと比較する 4つのバックエンド修正:processed_logprobs、V1固有のデフォルトの無効化、インフライト更新の一致、fp32 lm_headの有効化 AI評価は新たな計算ボトルネックになりつつある 2026-04-29 本記事では、特にエージェントベンチマークにおけるAI評価コストの急上昇について考察し、評価が新たな計算ボトルネックになっていることを指摘する。静的ベンチマークは100~200倍に圧縮可能だが、エージェントやトレーニング・イン・ザ・ループのベンチマークは圧縮が難しい。信頼性には複数回の実行が必要で、コストが倍増する。高額な評価コストは、検証能力を資金豊富な研究室に集中させるリスクがある。
AI評価コストは負担可能な閾値を超え、1回のエージェント評価で数万ドルかかる可能性がある。 静的ベンチマークは大幅に圧縮できるが、エージェントベンチマークは2~3.5倍の圧縮にとどまる。 Granite 4.1 LLM:構築方法の詳細 2026-04-29 IBM Granite 4.1 は、デコーダーのみの高密度LLMファミリ(3B、8B、30B)で、約15兆トークンによるマルチステージ事前学習、最大512Kトークンの長コンテキスト拡張、約410万の厳選サンプルによる教師ありファインチューニング、そしてオンポリシーGRPOとDAPO損失を利用したマルチステージ強化学習を採用。8Bインストラクトモデルは、以前の32B MoEモデルに匹敵またはそれを上回る性能を発揮。すべてのモデルはApache 2.0ライセンスで公開。
Granite 4.1 は3B、8B、30Bの高密度デコーダーオンリーLLM。 5フェーズの事前学習パイプライン、最大512Kトークンの長コンテキスト拡張。 DeepInfra が Hugging Face Inference Providers に登場 🔥 2026-04-29 DeepInfra が Hugging Face Hub の Inference Provider に加わり、100以上のモデルを低コストのサーバーレス推論で提供。会話・テキスト生成タスクから始まり、UI や SDK から簡単に利用可能。
DeepInfra が Hugging Face の Inference Provider エコシステムに参加し、100以上のモデルに対応。 初期対応モデルは DeepSeek V4、Kimi-K2.6、GLM-5.1 などで、今後画像・動画タスクも追加予定。 NVIDIA Nemotron 3 Nano Omni:文書、音声、動画エージェントのための長コンテキストマルチモーダルインテリジェンス 2026-04-28 NVIDIA は Nemotron 3 Nano Omni を発表しました。これはテキスト、画像、動画、音声を処理する新しい全モーダル理解モデルです。ハイブリッド Mamba-Transformer-MoE バックボーンに C-RADIOv4-H ビジョンエンコーダと Parakeet-TDT-0.6B-v2 オーディオエンコーダを組み合わせ、文書理解、ASR、動画理解、効率性の各ベンチマークでトップの精度を達成しました。実世界の文書分析、自動音声認識、長尺動画音声理解、エージェント型コンピュータ使用、汎用マルチモーダル推論向けに設計されています。
Nemotron 3 Nano Omni はテキスト、画像、動画、音声入力をサポートする統一マルチモーダルモデル。 ハイブリッド Mamba-Transformer-MoE アーキテクチャにより効率的な長コンテキスト処理を実現。 Scikit-LLMを使ったテキスト要約 2026-04-27 本記事では、Scikit-LLMライブラリのテキスト要約機能を使用して、機械学習パイプラインで大量のテキストを処理する方法を紹介します。カスタムトランスフォーマーでHugging Faceの事前学習済み要約モデルを統合し、scikit-learnパイプラインに組み込んで、長文から分類までのエンドツーエンドのフローを実現します。
Scikit-LLMは従来の機械学習と大規模言語モデルを橋渡しし、ゼロショット/少数ショット分類やテキスト要約を提供します。 カスタムHuggingFaceSummarizerクラスはBaseEstimatorとTransformerMixinを継承し、事前学習済み要約モデルをロードして要約を生成します。 OpenAIのPrivacy FilterでスケーラブルなWebアプリを構築する方法 2026-04-27 この記事では、OpenAIが新たにリリースしたオープンソースのPrivacy Filterを使用して、3つのスケーラブルなWebアプリケーション(ドキュメントプライバシーエクスプローラー、画像匿名化ツール、スマートリダクトペースト)を構築する方法を紹介します。各アプリはモデルの異なる機能を示し、gradio.Serverを活用して効率的なバックエンド処理とカスタムフロントエンドを実現しています。
OpenAIがPrivacy Filterをリリース。128kコンテキストと8カテゴリをサポートするオープンソースのPII検出器。 3つのサンプルアプリ:ドキュメントプライバシーエクスプローラー、画像匿名化ツール、スマートリダクトペースト。 DeepSeek-V4:百万トークンコンテキスト、エージェントが実際に利用可能に 2026-04-24 DeepSeekがV4をリリース。100万トークンのコンテキストウィンドウを持ち、エージェントワークロードに最適化。ハイブリッドアテンション(CSAとHCA)によりKVキャッシュを従来のGQAの2%に削減。ツール呼び出しをまたぐ思考の保持、専用の|DSML|ツール呼び出し形式、RLトレーニング用のDSecサンドボックスを導入。複数のエージェントベンチマークで競争力のあるスコアを達成。
DeepSeek-V4はPro(1.6Tパラメータ、49B活性)とFlash(284B、13B活性)の2つのMoEチェックポイントを提供。 圧縮スパースアテンション(CSA)と高圧縮アテンション(HCA)を組み合わせたハイブリッドアテンションで推論コストを大幅に削減。 QIMMA قِمّة ⛰:品質優先のアラビア語LLMリーダーボード 2026-04-21 QIMMA(アラビア語で「頂上」の意)は、品質優先のアラビア語LLMリーダーボードです。評価前にベンチマークの品質を検証し、広く使われているアラビア語ベンチマークに体系的な品質問題があることを明らかにしました。14のベンチマークから109のサブセット(52,000以上のサンプル)を統合し、マルチモデル自動評価と人間によるレビューを適用して、ネイティブなアラビア語能力に焦点を当てたモデルランキングを提供します。アラビア語LLM向けとしては初めてコード評価を含みます。
QIMMAはモデル評価前にアラビア語ベンチマークの厳格な品質検証を行い、多くのエラーや文化的バイアスを発見しました。 リーダーボードは文化、STEM、法律、医療、安全性、詩、コードの7分野にわたる52,000以上のサンプルを統合しています。 AIとサイバーセキュリティの未来:オープン性が重要な理由 2026-04-21 本記事では、特にMythosモデルがシステムレベルの能力を活用して脆弱性を発見・修正する方法を通じて、サイバーセキュリティにおけるAIの役割を考察する。防御におけるオープン性の構造的利点を強調し、人間の監督下での半自律型AIエージェントを提唱し、オープンエコシステムがプロプライエタリなシステムよりも進化する攻撃に対抗しやすいと指摘する。
Mythosは、大規模モデル、システム足場、スピードの組み合わせがソフトウェア脆弱性の発見と修正に効果的であることを示している。 オープンなコードとツールは防御タスクをコミュニティに分散し、単一障害点を回避する。 私のLLMアーキテクチャ理解のワークフロー 2026-04-18 新しいオープンウェイトモデルのリリースを理解するための学習指向のワークフロー。公式のテクニカルレポートから始めるが、最近の論文は詳細が不足しているため、Hugging Faceの設定ファイルとリファレンス実装から情報を得る。
公式のテクニカルレポートから始めるが、最近の論文は詳細が不足している Hugging Faceの設定ファイルとリファレンス実装からアーキテクチャの詳細を調査できる Ecom-RLVE:Eコマース対話エージェントのための適応的検証可能環境 2026-04-16 Ecom-RLVEは、RLVEフレームワークを単一ターンの推論からマルチターン・ツール拡張型Eコマース会話へと拡張し、8つの検証可能な環境(商品発見、代替提案、カート構築、返品、注文追跡、ポリシーQA、バンドル計画、マルチインテントジャーニー)を提供。各環境は手続き的問題生成、12軸の難易度カリキュラム、アルゴリズム的に検証可能な報酬を備える。DAPOを用いてQwen 3 8Bを300ステップで訓練した初期結果は、環境スケーリングと適応的難易度が現実のタスク完了に転移することを示している。
8つの検証可能な環境は実世界のショッピングシナリオをカバーし、報酬は人間やLLMではなくプログラムで計算される。 適応的難易度カリキュラムは12の独立した次元を動的に調整し、エージェントを能力の最前線に保つ。 🚀 DeepSeek V2.5:グランドフィナーレ 🎉 | DeepSeek API ドキュメント 2026-05-05 DeepSeek は V2.5 シリーズの最終版として V2.5-1210 をリリース。インターネット検索機能を追加し、数学、コーディング、ライティング、ロールプレイなどのベンチマークで性能が向上。オープンソースモデルを Hugging Face で公開し、次世代モデルの開発を示唆。
DeepSeek V2.5-1210 は V2.5 シリーズの最終版であり、重要なアップデートをもたらす。 Web インターフェースでインターネット検索が利用可能になり、リアルタイムの回答が得られる。