Empero-AI/Qwythos-9B-Claude-Mythos-5-1M:基於Qwen3.5的百萬上下文推理模型
Qwythos-9B是由Empero AI基於深度未審查的Qwen3.5-9B底座進行全參數微調的推理模型,經過超過5億個token的高質量Claude Mythos和Fable軌跡訓練,並採用內部工具rethink生成思維鏈。該模型擁有1048576 token的上下文窗口,在MMLU、GSM8K等基準測試中大幅超越基礎模型,支持原生函數調用,並具備工具輔助的自糾錯能力。模型設計上故意未加審查,適用於網絡安全、紅隊方法、生物醫學等要求嚴格技術回答的領域。
Empero AI近日發佈了Qwythos-9B,這是一款基於Qwen3.5-9B的全參數推理模型,旨在為開源社區提供一個緊湊、快速且能力強大的9B參數級模型。該模型在深度未審查的Qwen3.5-9B基礎上,使用了Empero AI內部工具rethink生成的思維鏈,以及超過5億個token的高質量Claude Mythos和Claude Fable軌跡進行後訓練。這些訓練數據來源於Anthropic的Claude系列模型,經過精心篩選和合成,確保了模型在推理任務上的出色表現。
Qwythos-9B最引人注目的特點之一是其龐大的上下文窗口。該模型默認啓用了YaRN rope-scaling,支持完整的1,048,576 token上下文,在9B級開源模型中極為罕見。這使得模型非常適合需要處理長文檔、整個代碼庫或多輪對話的任務,例如全代碼庫推理、多文檔研究和長代理軌跡。在基準測試中,Qwythos-9B相比基礎Qwen3.5-9B取得了顯著提升:MMLU準確率從0.232提升至0.575(+34.3%),GSM8K嚴格匹配從0.51提升至0.81(+30%),靈活匹配從0.67提升至0.86(+19%)。另外,ARC-Challenge和GPQA Diamond等基準上也有不同程度的改善。
除了出色的基準性能,Qwythos-9B還原生支持Qwen3.5規範的函數調用,無需額外的包裝器或工具特定的微調。在配備Python執行器和網絡搜索工具時,模型展示了強大的工具輔助自糾錯能力——在包括數學、網絡安全、臨牀藥理學和生物化學在內的7個測試提示中,全部生成了基於來源的、事實正確的答案。這一能力使得Qwythos-9B在構建智能代理和自動化工作流方面具有巨大潛力。
Qwythos-9B有意設計為未審查模型,專注於網絡安全、紅隊方法、生物學、藥理學和臨牀醫學等技術要求嚴格的領域。在這些領域中,過度對齊的模型往往拒絕回答、迴避問題或給出空洞的免責聲明,而Qwythos-9B能夠提供實質性的技術回應。Empero AI強調,該模型適合研究人員和從業者在受控環境中探索敏感但技術性的問題。
所有評估結果均使用lm-evaluation-harness在相同條件下獲得——相同的測試框架、相同的採樣參數(temperature=0.6, top_p=0.95, top_k=20,限制100個樣本),確保結果的公平性和可重複性。完整的逐任務和逐學科(MMLU)評估結果可在Hugging Face模型頁面的evals/lm_eval_results.md中查看。原始結果JSON和每個樣本的JSONL文件也可按需獲取。
Qwythos-9B已以Apache 2.0許可證發佈,支持Transformers和Safetensors格式。截至2026年6月28日,該模型在Hugging Face上獲得了超過5.2萬次下載和532個贊,社區反響熱烈。開發者可以通過集成Inference Endpoints或本地部署來使用該模型,並利用其多模態能力處理圖像和文本。