Cerebras 與 Cognition:實時編碼智能體
Cerebras 推理引擎為 Cognition 的 SWE-1.6 和 SWE-grep 智能體提供支持,實現比 GPU 快約 5 倍的編碼性能,帶來實時代碼生成和更流暢的開發體驗。
2026年5月1日
案例研究:Cognition × Cerebras
實時編碼智能體的黎明
核心摘要
由 Cerebras 推理引擎驅動的 Cognition SWE-1.6 和 SWE-grep 系列,提供前沿的編碼性能,速度比 GPU 快約 5 倍,同時帶來更流暢的智能體體驗,讓開發者在探索代碼庫、發佈功能和調試複雜系統時保持心流狀態。
“與 Cerebras 合作讓我們能夠將速度視為一級設計參數。當你的智能體以約 1000 tokens/秒運行時,你有機會優化智能體的所有部分,包括上下文檢索、用户界面和模型行為。Cerebras 使我們能夠追求全新的一系列賭注,從更深入的代碼庫理解到全新的交互模式。”
Scott Wu Cognition CEO
挑戰
AI 正在重新定義軟件開發,將自然語言提示轉化為可運行代碼。但要使 AI 編碼助手有用,它必須感覺瞬時,並能夠無縫處理大型複雜項目。在此之前,基於 GPU 的 AI 編碼意味着令人沮喪的延遲——20 到 30 秒的生成時間打破了開發者的專注。即使是輕微延遲也會迫使上下文切換。開發者被迫在較小、較快但技能不足的模型和較大但速度過慢的模型之間選擇。行業需要一種既能提供更快速度、一致性和規模,又不犧牲智能的解決方案。
解決方案
Cognition 端到端協同設計了其智能體、模型和推理棧,並選擇 Cerebras 作為最快的推理提供商,為 Windsurf 中的快速 SWE-1.6 體驗提供動力。
SWE-1.6 是 Cognition 最新為軟件工程智能體構建的模型,針對智能和模型用户體驗進行了優化。它從頭開始進行後訓練,使智能體在使用上感覺更流暢,同時提升原始編碼能力。
在由 Cerebras 驅動的 Windsurf 快速層級上,SWE-1.6 運行速度高達 950 tokens/秒——因此開發者不再需要在“思考快”和“思考好”之間做出選擇。開發者可以使用 SWE-1.6 探索大型代碼庫、構建全棧應用、編輯配置,並在五秒內進行快速精確的更改,例如更新 Kubernetes 清單。
但 Cognition 並未止步於原始速度。SWE-1.6 還改善了模型用户體驗:它更頻繁地使用並行工具調用,大幅減少循環,並更依賴自身工具而非終端命令。這使智能體在複雜工作中實現更快的上下文收集、更高效的軌跡和更少的用户干預。
在 SWE-Bench Pro 上,Cognition 報告 SWE-1.6 得分 50.4%,而 SWE-1.5 為 40.1%。已發佈的 SWE-1.6 模型延續了預覽版的基準表現,同時顯著改善了決定智能體在日常工程工作流中感覺的行為。
Cognition 的 SWE-grep 和 SWE-grep-mini 仍然是用於高度並行代碼搜索的專用子智能體。在 Cerebras 推理上運行,它們驅動 Windsurf 的快速上下文子智能體,並將上下文收集從數十秒縮短到數秒。搜索、推理、工具使用和編輯成為更快循環的一部分——更接近真正的結對編程夥伴的感覺。
通過協同優化模型 (SWE-1.6)、智能體框架 (Cascade) 和推理層 (Cerebras),Cognition 交付了一個連貫的智能體體驗,根據真實工程工作流和模型用户體驗而非僅基準進行調整。藉助 Cerebras 上的 SWE-1.6 和快速上下文,加上並行工具調用和高度優化的流水線,搜索和推理時間大幅縮短。在豐富真實編碼環境上的強化學習,結合超快推理,產生了一個感覺像真正結對編程夥伴的智能體。
結論
Cognition 的 SWE-1.6、SWE-grep 和 SWE-grep-mini 智能體展示了當智能體實驗室和基礎設施提供商共同為速度、智能和模型用户體驗進行設計時的可能性。從前沿編碼模型到專用檢索子智能體,Cerebras 推理提供了使工程師保持心流並解鎖下一代軟件工程智能體所需的吞吐量和延遲。
下載案例研究
腳註
關於 Cerebras 比 GPU 快約 5 倍的説法基於 Cognition 提供的其由 GPU 驅動的“免費”層級(約 200 TPS)與由 Cerebras 驅動的“快速”層級(約 950 TPS)的輸出速度對比。
更多信息請閲讀 Cognition 關於 SWE-1.6 (https://cognition.ai/blog/swe-1-6) 和 SWE-grep (https://cognition.ai/blog/swe-grep) 的博客。