Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍 2026-05-28 Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。
Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。 三项优化:双数组trie、位图和缓存行打包、大页面支持。 ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布 2026-05-27 Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。
Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。 Reachy Mini实现完全本地运行 2026-05-27 本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。
Reachy Mini现在可以完全本地运行对话,无需服务器。 级联管道包括VAD、STT、LLM和TTS,组件可互换。 驾驭、脚手架与值得厘清的AI智能体术语 2026-05-25 本文旨在厘清AI智能体领域中常被混淆的术语,如“harness”(执行层)与“scaffold”(行为定义层)的区别,并解释模型、智能体、工具使用、子智能体等概念,同时涵盖训练相关术语。
AI智能体=模型+执行层(harness),其中harness负责调用模型和处理工具调用。 Scaffold是围绕模型的行为定义层,包括系统提示、工具描述等。 利用 Nemotron-Labs 扩散语言模型实现接近光速的文本生成 2026-05-23 NVIDIA 发布 Nemotron-Labs 扩散语言模型系列,通过并行生成与迭代精炼技术,在保持高准确率的同时,相比传统自回归模型实现最高 6.4 倍的推理速度提升。模型支持自回归、扩散和自推测三种模式,8B 版本在准确率上超越 Qwen3 8B 1.2%,并已开源。
Nemotron-Labs 扩散模型支持三种生成模式:自回归、扩散和自推测。 8B 模型在扩散模式下速度提升 2.6 倍,自推测模式下最高提升 6.4 倍。 专业化胜于规模:大多数AI采购决策忽视的战略变量 2026-05-22 一家公司在AI采购中发现,一个30亿参数的专业化模型在质量、成本和生产稳定性上均优于所有商业前沿API,成本低了约52倍。这挑战了“参数越多越好”的默认假设,表明训练历史与任务的分布对齐(分布对齐)比参数数量更关键。
30亿参数的专业化模型在OCR基准测试中得分0.911,超过Claude Opus 4.6的0.833。 该模型运行成本约为前沿API的五十二分之一。 开源软件开始帮助机器人思考 2026-05-21 开源运动正将AI的突破性进展引入机器人领域,降低开发门槛。从ROS框架到英伟达、Hugging Face和阿里巴巴的开源模型,机器人推理、决策和行动的能力正变得对更多人可用。但商业激励与学术初心之间的张力也带来新挑战。
开源机器人软件历经数十年发展,ROS框架奠定了基础设施,如今AI模型的开源正推动机器人“大脑”的进化。 英伟达、Hugging Face和阿里巴巴等公司推出开源机器人AI工具和模型,大幅降低进入门槛。 当前Hugging Face上最佳的小型语言模型! 2026-05-21 精选目前Hugging Face上最佳的小型语言模型,介绍每个模型的实际优势、支撑其性能的基准测试数据,以及快速上手的代码示例。
参数量低于70亿的小型语言模型已在性能上媲美甚至超越更大的模型。 微软的Phi-4-mini(3.8B参数)在ARC-C基准上取得最高分,而Qwen3.5-4B支持26.2万Token的上下文窗口。 OlmoEarth v1.1:更高效的模型家族 2026-05-19 Allen AI 发布了 OlmoEarth v1.1,通过合并不同分辨率的令牌,将计算成本降低高达三倍,同时保持 v1 的性能。新模型适用于大规模遥感分析,合作伙伴已在全球部署。
OlmoEarth v1.1 相比 v1 计算成本降低最多 3 倍,性能相当。 通过将不同分辨率的多光谱波段合并为单一令牌,缩短序列长度。 推出Ettin重排序器系列 2026-05-19 今日发布了六个新的Sentence Transformers交叉编码重排序器,基于Ettin ModernBERT编码器构建,通过蒸馏训练,在各自规模上达到最先进水平。这些模型与嵌入模型配对使用,可高效提升检索排序质量。
发布六个Ettin重排序器,规模从17M到1B参数 通过点级MSE蒸馏于强大教师模型mxbai-rerank-large-v2训练 使用LoRA/DoRA微调NVIDIA Cosmos Predict 2.5以生成机器人视频 2026-05-18 本文介绍了如何通过参数高效微调技术LoRA和DoRA,在单个GPU上微调NVIDIA Cosmos Predict 2.5世界模型,生成用于机器人学习的合成视频轨迹。文章详细说明了数据处理、适配器初始化、训练循环、推理方法及评估指标。
LoRA和DoRA允许在冻结基模型的情况下,通过小型可训练适配器进行高效微调,避免灾难性遗忘并降低内存需求。 训练使用92个机器人操作视频数据集,通过rectified flow损失函数和MSE损失进行优化。 开放智能体排行榜 2026-05-18 IBM研究团队推出开放智能体排行榜(Open Agent Leaderboard),这是一个用于比较完整智能体系统(而不仅仅是模型)的开放基准。它评估智能体在多种真实场景中的通用性,并同时报告质量和成本。该排行榜结合了六个基准测试,涵盖编码、客服、技术支持和研究等任务。初步结果显示,通用智能体已能与专用系统媲美,且智能体架构对结果的影响日益显著。所有代码、数据和论文均已开源。
开放智能体排行榜衡量的是完整智能体系统(模型+工具+规划等),而非仅模型本身。 排行榜包含六个不同领域的基准测试,如SWE-Bench Verified和BrowseComp+。 Granite Embedding Multilingual R2:开源Apache 2.0多语言嵌入模型,32K上下文,子1亿参数中检索质量最佳 2026-05-14 IBM发布Granite Embedding Multilingual R2系列,包含97M和311M参数两个多语言嵌入模型,均基于ModernBERT架构,支持32K令牌上下文,覆盖200+语言,并在MTEB多语言检索基准上取得领先成绩。97M模型在子1亿参数模型中排名第一,311M模型在5亿参数以下模型中排名第二。
97M参数模型在MTEB多语言检索中得分为60.3,子1亿参数模型中最佳;311M模型得分为65.2,5亿参数以下模型中排名第二。 支持32K令牌上下文,比前代R1提升64倍;覆盖200+语言,其中52种语言和9种编程语言经过专门检索训练。 GLiNER2-PII:0.3B参数开源PII模型超越OpenAI隐私过滤器 2026-05-14 一款名为GLiNER2-PII的开源模型,仅有0.3B参数,在PII检测任务上取得了最先进性能,在SPY基准测试中超越了OpenAI的隐私过滤器。该模型能识别42种实体类型,并基于多语言合成语料库训练。模型已在Hugging Face上公开发布。
开源0.3B参数PII检测模型 在SPY基准上超越OpenAI隐私过滤器 如何在Hugging Face上即时可视化任何AI模型架构 2026-05-14 理解现代AI架构变得越来越困难。本文介绍了一种简单的方法:通过将Hugging Face模型URL中的“huggingface.co”替换为“hfviewer.com”,即可立即将模型结构转化为交互式可视化图表。该工具支持Transformer、视觉和多模态模型,无需任何设置。此外,还提供了终端命令和浏览器扩展两种快速访问方式。
将Hugging Face模型URL中的huggingface.co替换为hfviewer.com即可可视化架构。 hfviewer将模型结构转化为交互式图形,支持多种架构。 在连续批处理中解锁异步性 2026-05-14 本文解释了如何通过分离CPU和GPU工作负载来大幅提升推理性能。连续批处理通过紧密打包批次提高了GPU利用率,但同步操作导致CPU和GPU交替等待,造成近四分之一的运行时间浪费。通过使用非默认CUDA流和事件实现异步批处理,可以让CPU和GPU并行工作,消除空闲间隙,实现免费的24%加速。文章详细介绍了CUDA流、事件机制以及如何将它们应用于连续批处理,并提供了在transformers库中的实现代码。
同步连续批处理中CPU和GPU交替工作,导致GPU空闲时间占比约24%。 使用非默认CUDA流和事件可以实现CPU和GPU的并行执行。 Hugging Face托管伪装成OpenAI版本的恶意软件 2026-05-12 一个伪装成OpenAI发布的恶意Hugging Face仓库向Windows机器传递了信息窃取型恶意软件,在被移除前记录了约244,000次下载。研究人员警告,公开的AI模型注册中心在开发者将模型克隆到企业环境时构成了供应链风险。
一个名为'Open-OSS/privacy-filter'的虚假仓库模仿了OpenAI的Privacy Filter,包含一个恶意的loader.py,该文件安装窃取凭证的恶意软件。 该仓库在不到18小时内达到趋势榜首位并获得667个点赞,但下载量可能被攻击者人为抬高。 AWS基础模型训练与推理的构建模块 2026-05-11 本文分析了AWS在基础模型预训练、后训练和推理中的基础设施组件,包括GPU实例、弹性网络适配器(EFA)、Lustre文件系统及UltraCluster/UltraServer架构,并强调开源软件在资源管理和监控中的作用。
基础模型扩展已从单一预训练扩展到后训练和测试时计算三个尺度。 AWS提供从H100到B300的多代GPU实例,并配有NVLink和EFA网络。 如何在AMD Strix Halo上微调大语言模型 2026-05-11 本指南详细介绍了在AMD Strix Halo APU(gfx1151)上对大语言模型进行全微调和LoRA微调的步骤,绕过了官方ROCm支持的限制,使用HuggingFace Trainer直接训练。
Strix Halo APU拥有128GB统一内存,可轻松容纳大模型。 Swift和Unsloth框架不兼容,需使用HuggingFace Trainer。 Unsloth 加入 PyTorch 生态系统 2026-05-11 Unsloth,一家专注于开源AI优化的公司,正式被纳入PyTorch生态系统。该组织以提供高效的模型训练、量化工具及Unsloth Studio UI著称,并已与PyTorch团队在FP8强化学习、手机端ExecuTorch部署及量化感知训练等方面展开合作。目前,Unsloth在Hugging Face上拥有超过250万次模型下载和200多名贡献者。
Unsloth因其技术贡献和社区影响力被PyTorch生态系统接纳。 Unsloth提供2倍训练速度、减少70%显存占用的优化工具,以及支持500+模型的Unsloth Studio。 MachinaCheck:在AMD MI300X上构建多智能体CNC可制造性分析系统 2026-05-10 MachinaCheck是一个基于AMD MI300X的多智能体AI系统,通过上传STEP文件快速生成CNC可制造性评估报告,无需手动读取图纸。系统采用本地化部署保护知识产权,结合几何解析与LLM推理,可在30秒内完成全套分析。
传统CNC车间手工评估图纸需30-60分钟,MachinaCheck仅需30秒 利用AMD MI300X的192GB显存实现完全本地化推理,确保客户IP安全 通过CPU最大化令牌化减少TTFT 2026-05-09 Crusoe与NVIDIA Dynamo合作开发了fastokens,一个开源的Rust BPE分词器,平均速度比HuggingFace分词器快9.1倍,在长上下文工作负载中TTFT最多降低40%。
fastokens实现了9.1倍的平均速度提升,长提示场景下最高可达31倍。 针对CPU进行了极致优化,包括并行预分词、两级缓存和动态内存管理。 Hugging Face的Clem Delangue:别再拿引擎和汽车比较 2026-05-09 Hugging Face联合创始人兼CEO Clem Delangue在采访中讨论了开源AI的现状,并引用了西西弗斯神话来比喻AI发展的持续性挑战。他认为开源AI生态系统正在蓬勃发展,但需要避免过度简化的类比。
Clem Delangue强调开源AI正处于关键发展阶段 他批评将AI引擎比作汽车的简单类比 OncoAgent:一种用于隐私保护肿瘤临床决策支持的双层多智能体框架 2026-05-09 OncoAgent是一个开源、隐私保护的肿瘤临床决策支持系统。它采用双层大语言模型架构(9B快速模型和27B深度推理模型)、多智能体LangGraph拓扑、纠正性RAG流程(涵盖70余项NCCN和ESMO指南)以及三层反射安全验证器。系统通过复杂性评分路由查询,在AMD Instinct MI300X上微调,实现了56倍的吞吐量加速,并支持本地部署以确保数据主权。
开源、隐私保护的肿瘤决策支持系统,支持本地部署。 双层LLM架构:9B快速模型和27B深度推理模型,通过复杂性评分路由。 CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、本地可运行的模型 2026-05-08 CyberSecQwen-4B是一个基于Qwen3-4B-Instruct微调的小型网络安全专用模型,旨在解决防御性网络安全中对数据隐私、成本和离线部署的需求。该模型在CTI-Bench基准测试中,以4B参数量匹配甚至超过8B的Cisco Foundation-Sec-Instruct模型,同时完全在单个AMD MI300X GPU上训练和运行。文章详细介绍了训练方法、数据来源、基准结果以及未来方向。
CyberSecQwen-4B在CTI-MCQ任务上比8B的Cisco模型高出8.7个百分点,在CVE-CWE映射任务上保持97.3%的准确率,参数量减半。 模型在单张12 GB消费级GPU上运行,适合敏感数据不离站、低成本、离线环境。 EMO:预训练专家混合模型实现涌现模块化 2026-05-08 艾伦人工智能研究所发布EMO模型,这是一种端到端预训练的混合专家(MoE)模型,其模块结构直接从数据中涌现,无需人工定义先验。EMO支持仅使用12.5%的专家子集即可保持接近全模型的性能,同时在全专家使用时仍能作为强大的通用模型。相比标准MoE,EMO的专家子集在选择性使用时性能下降显著更小。
EMO是一种1B活跃参数、14B总参数的MoE模型,使用128个专家,每个token激活8个。 通过文档级路由约束,EMO的专家集群形成语义领域(如医疗、新闻),而非低级句法模式。 Show HN:用于CAD生成任务的开源FreeCAD数据集 2026-05-08 gnucleus-ai在Hugging Face上发布了一个开源FreeCAD数据集,包含100个参数化CAD模型(如轴、轴承、法兰等),每个模型带有关键参数、图像和.FCAD文件,适用于CAD生成任务。数据集采用Apache-2.0许可,包含多种机械零件,支持3D、图像和文本模态。
gnucleus-ai发布了cad-gen-freecad数据集 包含100个参数化的FreeCAD模型 MedQA:在AMD ROCm上微调临床AI——无需CUDA 2026-05-08 本文详细介绍了如何使用AMD MI300X和ROCm,通过LoRA微调Qwen3-1.7B模型在MedMCQA数据集上构建临床问答系统。整个流程无需CUDA,训练仅需5分钟,充分证明了HuggingFace生态系统在ROCm上的兼容性。
利用AMD MI300X的192GB HBM3显存,可在fp16精度下直接训练,无需量化。 LoRA微调仅更新约0.14%的参数(220万),训练时间约5分钟。 从HuggingFace部署并推理任何模型 2026-05-08 学习如何在一个会话中使用Goose和Together的专用容器推理部署任何HuggingFace模型。跳过复杂设置——一个提示就能让你的模型在发布当天在生产级GPU环境中运行。
使用Goose和Together的专用容器推理,开发者可以零延迟部署新发布的模型。 作者在Netflix发布void-model当天成功部署并运行。 vLLM V0到V1:RL中的正确性优先于修正 2026-05-06 ServiceNow AI团队在将强化学习训练管线从vLLM V0迁移到V1时,发现了四个后端问题:logprobs语义、运行时默认值、飞行中权重更新和fp32 lm_head。他们优先修复后端正确性,再考虑目标侧修正,最终实现了与V0参考的完全对齐。
迁移目标:验证V1能返回训练器期望的logprobs,并与V0参考对比 四个后端修复:processed_logprobs、禁用V1特有默认值、匹配飞行中权重更新、启用fp32 lm_head 在开放式ASR排行榜中添加防作弊数据集 2026-05-06 Open ASR排行榜引入Appen和DataoceanAI提供的高质量私有数据集,通过可切换的评估选项防止benchmaxxing,提供更全面的语音识别性能衡量。
引入私有数据集以防止测试集污染和benchmaxxing。 提供脚本和对话语音的多种口音数据集。 ML Intern实战:从提示到在Hugging Face上发布模型 2026-05-04 本文评测了ML Intern,一款开源机器学习助手,它超越传统AutoML,覆盖数据探索、编码、调试到模型发布的完整工作流。通过一个客户支持工单分类案例,展示了从数据集选择、烟雾测试到训练计划生成的步骤。
ML Intern是一款面向Hugging Face生态的开源助手,支持整个ML工作流。 通过真实项目测试,包括数据集研究、脚本调试和训练计划审核。 AI评估正在成为新的计算瓶颈 2026-04-29 本文探讨了AI评估成本的急剧上升,特别是针对智能体基准测试,指出评估已成为新的计算瓶颈。静态基准测试可压缩100-200倍,但智能体和训练中基准测试难以压缩。可靠性要求多次运行,成本倍增。高评估成本可能导致验证能力集中在资金充足的实验室。
AI评估成本已跨越负担能力门槛,一次智能体评估可能花费数万美元。 静态基准测试可通过压缩技术大幅降低成本,但智能体基准测试只能实现2-3.5倍压缩。 Granite 4.1 LLM:构建方法详解 2026-04-29 IBM Granite 4.1 是一个密集解码器仅LLM系列(3B、8B、30B),在多阶段预训练中使用了约15万亿个token,包括长达512K token的长上下文扩展。模型通过监督微调(约410万个高质量样本)和基于策略的GRPO与DAPO损失的强化学习进一步优化。8B指令模型在性能上匹配甚至超越了之前的32B MoE模型,所有模型均在Apache 2.0许可下发布。
Granite 4.1 系列包括3B、8B和30B三种密集解码器仅LLM。 采用五阶段预训练管道,包括长上下文扩展到512K token。 DeepInfra 登陆 Hugging Face 推理提供商 🔥 2026-04-29 DeepInfra 成为 Hugging Face Hub 上最新的推理提供商,提供100多个模型的低成本无服务器推理服务,初始支持对话和文本生成任务,用户可通过 UI 或 SDK 轻松使用。
DeepInfra 加入 Hugging Face 推理提供商生态系统,提供 100 多个模型的无服务器推理。 初始支持 DeepSeek V4、Kimi-K2.6、GLM-5.1 等模型,后续将扩展到图像、视频等模态。 NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态模型 2026-04-28 NVIDIA发布了Nemotron 3 Nano Omni,这是一个全新的全模态理解模型,能够处理文本、图像、视频和音频。它基于混合Mamba-Transformer-MoE架构,结合C-RADIOv4-H视觉编码器和Parakeet-TDT-0.6B-v2音频编码器,在多个基准测试中取得领先成绩。该模型专为文档分析、自动语音识别、长音频-视频理解、智能体计算机使用和通用多模态推理设计,并提供了高效的视频采样和动态分辨率处理能力。
Nemotron 3 Nano Omni是一个统一的多模态模型,支持文本、图像、视频和音频输入。 采用混合Mamba-Transformer-MoE架构,具备高效长上下文处理能力。 使用Scikit-LLM进行文本摘要 2026-04-27 本文介绍如何使用Scikit-LLM库中的文本摘要功能,通过构建自定义转换器集成Hugging Face的预训练摘要模型,并将其嵌入scikit-learn流水线中,实现从长文本到分类的端到端流程。
Scikit-LLM桥接传统机器学习与大语言模型,提供零样本和少样本分类及文本摘要功能。 自定义HuggingFaceSummarizer类继承自BaseEstimator和TransformerMixin,可加载预训练摘要模型并生成摘要。 如何使用OpenAI的隐私过滤器构建可扩展的Web应用 2026-04-27 本文介绍了如何利用OpenAI新发布的开源隐私过滤器(Privacy Filter)构建三个可扩展的Web应用:文档隐私探索器、图像匿名化器和智能编辑粘贴板。每个应用都展示了该模型的不同能力,并通过gradio.Server实现高效的后端处理和自定义前端。
OpenAI发布隐私过滤器(Privacy Filter),一个开源的个人身份信息(PII)检测器,支持128k上下文和8个类别。 通过三个示例应用展示模型能力:文档隐私探索器、图像匿名化器、智能编辑粘贴板。 DeepSeek-V4:百万上下文,代理真正可用 2026-04-24 DeepSeek发布V4模型,拥有百万token上下文窗口,专为代理任务优化。通过混合注意力机制(CSA和HCA)大幅降低KV缓存和FLOPs,并引入跨工具调用的交错推理、专用工具调用格式以及用于强化学习训练的DSec沙箱。在多个代理基准测试中达到领先水平。
DeepSeek-V4推出Pro和Flash两个MoE检查点,上下文窗口达1M tokens。 采用压缩稀疏注意力和重度压缩注意力混合架构,KV缓存仅需传统GQA的2%。 如何在Chrome扩展中使用Transformers.js 2026-04-23 本文详细介绍了在Manifest V3 Chrome扩展中集成Transformers.js的架构设计与实践,包括服务工作者托管模型、侧边栏聊天UI、内容脚本页面交互、消息通信、工具调用循环以及数据持久化策略。
采用MV3架构,后台服务工作者托管模型推理,侧边栏和内容脚本作为轻量级客户端。 使用Gemma 4 E2B进行文本生成,MiniLM生成嵌入向量,所有推理集中在后台。 QIMMA قِمّة ⛰:以质量为先的阿拉伯语大模型排行榜 2026-04-21 QIMMA(阿拉伯语意为“高峰”)是一个以质量为先的阿拉伯语大模型排行榜,它会在评估模型之前先验证基准数据的质量。通过多模型自动评估与人工审核相结合的方法,QIMMA 发现了多个广泛使用的阿拉伯语基准测试中存在系统性的质量问题。该排行榜整合了来自14个基准测试的109个子集,涵盖7个领域,总计超过52,000个样本,并首次在阿拉伯语大模型评估中加入了代码能力测试。
QIMMA 在模型评估前对阿拉伯语基准进行严格的质量验证,发现了大量错误和文化偏差。 排行榜整合了超过52,000个样本,涵盖文化、STEM、法律、医疗、安全、诗歌和代码等7个领域。 AI与网络安全未来:开放性为何重要 2026-04-21 本文探讨了AI在网络安全中的角色,特别是新模型Mythos如何利用系统级能力发现和修补漏洞。强调开放性在防御中的结构性优势,主张采用半自主AI代理以保持人类控制,并指出开放生态比专有系统更能应对日益复杂的攻击。
Mythos展示了结合大模型、系统框架和速度可有效发现并修补软件漏洞。 开放代码和工具能够分散防御任务,避免单一供应商成为单点失败。 我理解LLM架构的工作流程 2026-04-18 一种学习导向的工作流程,用于理解新发布的开源权重模型。从官方技术报告开始,但论文往往不够详细;然后利用Hugging Face上的配置文件和参考实现来获取架构细节。这个过程主要是手动的,适合开源权重模型,并且手动操作是学习架构的最佳练习之一。
从官方技术报告开始,但论文现在往往不够详细 利用Hugging Face上的配置文件和参考实现来获取架构细节 Ecom-RLVE:面向电商对话智能体的自适应可验证环境 2026-04-16 Ecom-RLVE 将 RLVE 框架从单轮推理扩展到多轮工具增强的电商对话,提供 8 个可验证环境(产品发现、替换、购物车构建、退货、订单追踪、政策问答、套餐规划、多意图旅程),每个环境具备程序化问题生成、12 轴难度课程和可验证奖励。使用 DAPO 在 300 步内训练 Qwen 3 8B 模型,初步结果表明环境缩放和自适应难度可迁移至实际任务完成。
8 个可验证环境覆盖真实电商场景,奖励由程序而非人类或 LLM 评估。 自适应难度课程通过 12 个独立维度动态调整挑战,保持智能体处于学习前沿。 🚀 DeepSeek V2.5:盛大终曲 🎉 | DeepSeek API 文档 2026-05-05 DeepSeek 发布 V2.5-1210 版本,作为 V2.5 系列的最终版本,新增互联网搜索功能,在数学、编程、写作和角色扮演等基准测试中表现提升,开源模型已上传至 Hugging Face。团队感谢用户支持,并预告下一代基础模型即将到来。
DeepSeek V2.5-1210 是 V2.5 系列的最终版本,标志着该系列的结束。 新增互联网搜索功能,用户可在聊天界面开启实时搜索。