AI News HubLIVE
站内改写2 分钟阅读

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M:基于Qwen3.5的百万上下文推理模型

Qwythos-9B是由Empero AI基于深度未审查的Qwen3.5-9B底座进行全参数微调的推理模型,经过超过5亿个token的高质量Claude Mythos和Fable轨迹训练,并采用内部工具rethink生成思维链。该模型拥有1048576 token的上下文窗口,在MMLU、GSM8K等基准测试中大幅超越基础模型,支持原生函数调用,并具备工具辅助的自纠错能力。模型设计上故意未加审查,适用于网络安全、红队方法、生物医学等要求严格技术回答的领域。

来源Hacker News AI作者: vednig

Empero AI近日发布了Qwythos-9B,这是一款基于Qwen3.5-9B的全参数推理模型,旨在为开源社区提供一个紧凑、快速且能力强大的9B参数级模型。该模型在深度未审查的Qwen3.5-9B基础上,使用了Empero AI内部工具rethink生成的思维链,以及超过5亿个token的高质量Claude Mythos和Claude Fable轨迹进行后训练。这些训练数据来源于Anthropic的Claude系列模型,经过精心筛选和合成,确保了模型在推理任务上的出色表现。

Qwythos-9B最引人注目的特点之一是其庞大的上下文窗口。该模型默认启用了YaRN rope-scaling,支持完整的1,048,576 token上下文,在9B级开源模型中极为罕见。这使得模型非常适合需要处理长文档、整个代码库或多轮对话的任务,例如全代码库推理、多文档研究和长代理轨迹。在基准测试中,Qwythos-9B相比基础Qwen3.5-9B取得了显著提升:MMLU准确率从0.232提升至0.575(+34.3%),GSM8K严格匹配从0.51提升至0.81(+30%),灵活匹配从0.67提升至0.86(+19%)。另外,ARC-Challenge和GPQA Diamond等基准上也有不同程度的改善。

除了出色的基准性能,Qwythos-9B还原生支持Qwen3.5规范的函数调用,无需额外的包装器或工具特定的微调。在配备Python执行器和网络搜索工具时,模型展示了强大的工具辅助自纠错能力——在包括数学、网络安全、临床药理学和生物化学在内的7个测试提示中,全部生成了基于来源的、事实正确的答案。这一能力使得Qwythos-9B在构建智能代理和自动化工作流方面具有巨大潜力。

Qwythos-9B有意设计为未审查模型,专注于网络安全、红队方法、生物学、药理学和临床医学等技术要求严格的领域。在这些领域中,过度对齐的模型往往拒绝回答、回避问题或给出空洞的免责声明,而Qwythos-9B能够提供实质性的技术回应。Empero AI强调,该模型适合研究人员和从业者在受控环境中探索敏感但技术性的问题。

所有评估结果均使用lm-evaluation-harness在相同条件下获得——相同的测试框架、相同的采样参数(temperature=0.6, top_p=0.95, top_k=20,限制100个样本),确保结果的公平性和可重复性。完整的逐任务和逐学科(MMLU)评估结果可在Hugging Face模型页面的evals/lm_eval_results.md中查看。原始结果JSON和每个样本的JSONL文件也可按需获取。

Qwythos-9B已以Apache 2.0许可证发布,支持Transformers和Safetensors格式。截至2026年6月28日,该模型在Hugging Face上获得了超过5.2万次下载和532个赞,社区反响热烈。开发者可以通过集成Inference Endpoints或本地部署来使用该模型,并利用其多模态能力处理图像和文本。

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M:基于Qwen3.5的百万上下文推理模型 | AI News Hub