模型定價 AI News

模型定價動態

Moonshot AI 發佈 2.8 萬億參數 Kimi K3 模型權重

2026-07-28 07:39 UTC+8

Moonshot AI 兑現本月早些時候的承諾，正式在 Hugging Face 上發佈了其 2.8 萬億參數的 Kimi K3 模型權重，文件大小達 1.56TB。K3 的許可證從 K2 的“修改版 MIT”改為更嚴格的條款，要求年收入超過 2000 萬美元的 MaaS 企業另行簽訂協議。Moonshot 堅持使用“開放權重”而非“開源”來描述該發佈。目前 OpenRouter 已從 7 家提供商提供 K3，定價與 Moonshot 官方一致。

Moonshot AI 發佈了 2.8 萬億參數的 Kimi K3 模型權重，大小 1.56TB。
K3 許可證不再自稱“修改版 MIT”，要求 MaaS 業務年收入超 2000 萬美元的企業簽訂單獨協議。

GTM Co-Founder – 為獨立開發者工具/AI創始人提供的開源GTM技能套件

2026-07-28 05:51 UTC+8

GTM Co-Founder 是一個開源項目，專為獨自構建開發者工具或AI產品的技術創始人設計。它提供了一整套可集成到AI代理中的Markdown劇本，幫助創始人完成市場進入（GTM）戰略，包括定位、用户獲取、定價和銷售等關鍵環節。項目以15分鐘的創始人簡報開始，生成優先級路線圖，並逐步指導執行。

開源GTM劇本，面向沒有商業聯合創始人的獨立開發者工具/AI創始人
支持Claude Code、Cursor、Codex等AI代理，提供三種使用路徑

NYU Stern定價專家：下一代手機隱藏的“AI税”

2026-07-26 09:49 UTC+8

紐約大學斯特恩商學院教授斯里坎斯·賈加巴圖拉指出，人工智能數據中心的擴張正在耗盡內存芯片產能，導致筆記本電腦和智能手機等消費電子設備價格上漲。這種“AI税”源於高帶寬內存（HBM）與常規DRAM芯片共用生產資源，數據中心的高支付意願擠壓了消費者市場。蘋果等廠商被迫提價，而蘋果自身的設備端AI策略進一步加劇了內存需求。

AI數據中心對HBM芯片的需求擠佔了消費電子設備的DRAM產能，導致內存芯片短缺和價格上漲。
蘋果、戴爾、聯想等廠商因組件成本上升而提高產品售價，PC平均售價預計2026年上漲18.3%。

[AINews] Claude Opus 5：以Opus價格實現寓言級性能（價格僅為Fable一半）

2026-07-25 15:25 UTC+8

Anthropic發佈了Claude Opus 5，以Opus的價格實現了接近Fable的性能。獨立基準測試顯示其在某些指標上超越Fable，但官方表態較為謹慎。社區反響強調其強大的編碼能力和代理工具使用，儘管存在一些基準不一致的問題。

Claude Opus 5在ECI上得分為159（Fable 5為161），在SWE-ECI上與Fable持平（161）。
用户報告其編碼性能和瀏覽器自動化能力出色。

Claude Opus 5 發佈

2026-07-25 07:48 UTC+8

Anthropic推出Claude Opus 5，號稱接近Claude Fable 5的智能水平但價格減半。該模型在Artificial Analysis排行榜上領先，具備主動解決問題的能力，但在網絡安全方面僅專注於漏洞發現，未訓練漏洞利用。

Claude Opus 5 性能接近Claude Fable 5，但價格僅為其一半。
該模型擅長自主解決問題，例如自行編寫計算機視覺流水線從圖片中重建3D模型。

認識全新的Claude Opus 5：以不變的Opus價格提供前沿級別的代理編碼和計算機使用

2026-07-25 05:50 UTC+8

Anthropic發佈了Claude Opus 5，取代Opus 4.8成為Opus系列旗艦模型。定價不變（輸入每百萬token5美元，輸出25美元），性能接近Claude Fable 5的一半價格。主要變化包括思考功能默認開啓、API破壞性變更、以及刪除驗證提示。在代理編碼和計算機使用基準測試中表現卓越，尤其是在OSWorld和Zapier AutomationBench上。安全方面，僅放寬了源代碼漏洞查找的限制，而利用路徑仍被阻止。

定價不變，性能大幅提升，接近Fable 5水平
思考功能默認開啓，高努力下無法禁用

在AWS上推出Claude Opus 5：Anthropic最強大的Opus模型

2026-07-25 01:59 UTC+8

Anthropic宣佈在Amazon Bedrock和Claude Platform on AWS上推出Claude Opus 5。該模型在編碼、知識工作、視覺理解和長時間運行任務方面有顯著改進，具備頂級的智能水平，同時保持Opus級別的定價。它提供默認零數據保留，並利用Bedrock的新一代推理引擎。

Claude Opus 5是Anthropic第五代Opus模型，在編碼和推理方面實現重大飛躍。
在Amazon Bedrock上默認啓用零數據保留，確保企業數據治理。

Claude Opus 5發佈：性能媲美Fable 5，價格僅一半

2026-07-25 01:00 UTC+8

Anthropic發佈了Claude Opus 5，在編碼、知識工作和代理工作流方面表現出色，接近Fable 5的性能但成本減半，定價與Opus 4.8相同。

Opus 5在複雜編碼和知識任務上接近Fable 5水平，價格是其一半。
相比Opus 4.8，平均減少26%的token使用量，提升了會話效率。

Anthropic發佈Opus 5，聲稱能力“接近”Fable 5

2026-07-25 01:00 UTC+8

Anthropic發佈了新模型Claude Opus 5，據稱在許多領域接近Fable 5的能力，並在複雜編碼任務上表現更佳。該模型定價與前代持平，但提供更快的“快速模式”選項，且加強了網絡安全防護。

Anthropic發佈Claude Opus 5，能力接近Fable 5，尤其擅長複雜編程。
Opus 5定價與Opus 4.8相同，但速度翻倍的快速模式需加價。

前沿模型定價太坑，我開發了一個開源CLI工具

2026-07-24 18:33 UTC+8

Kolega Code 是一個本地優先的終端編碼代理，支持多代理編排（Gigacode），適用於大規模代碼審查、遷移等任務。它允許多個專業子代理並行工作，支持多種模型提供商和路由，具備計劃與構建模式，以及豐富的工具集。

Kolega Code 是一個開源的本地優先終端編碼代理，支持多代理協作。
通過 Gigacode 功能，可並行執行多個子任務，提升大型代碼庫的處理效率。

Show HN：前沿模型定價太坑，所以我開發了一個開源命令行工具

2026-07-23 19:15 UTC+8

Kolega Code 是一款開源、本地優先的命令行工具，能夠協調多個AI代理完成編程任務。它支持多種模型提供商，具備並行子代理工作流（Gigacode）、網絡搜索、瀏覽器自動化等功能，所有數據均保留在用户本地。

多代理編程，配備專門的子代理和 Gigacode 並行工作流。
本地優先設計：會話、密鑰和狀態保留在用户機器上。

Show HN: LiquidBrain – 無限令牌，無限上下文，固定價格

2026-07-23 04:59 UTC+8

LiquidBrain.ai 提供無限令牌和無限上下文服務，採用固定價格模式，強調用户數據隱私。

無限令牌和上下文處理能力
固定價格，無隱藏費用

Gemini 3.6 Flash登場：效率優先的發佈

2026-07-22 19:52 UTC+8

2026年7月21日，谷歌發佈了Gemini 3.6 Flash，這是一個注重效率的中期更新，而非突破性模型。它保留了與3.5 Flash相似的推理能力，但顯著降低了token消耗和成本。代碼生成、機器學習任務和計算機使用性能得到提升，而知識截止日期更新至2026年3月。該模型定價為每百萬輸入token 1.50美元，輸出7.50美元，比前代更便宜。文章包含壓力測試，供讀者自行評估模型表現。

Gemini 3.6 Flash專注於效率提升，而非原始智能飛躍
輸出token減少約17%，某些任務減少高達65%

使用最佳執行將LLM成本降低50%

2026-07-22 05:50 UTC+8

Ship是一種新端點，通過推理時優化和保證能力等價與行為等價，以一半的價格提供與原有模型無差別的輸出，並首次提供質量SLA。

Ship通過替換模型名稱即可將成本降低50%。
保證能力等價：任何原模型能解決的問題，Ship也能解決。

谷歌發佈Gemini 3.6 Flash、3.5 Flash-Lite和3.5 Flash Cyber：更便宜、更高效的Flash層，專為代理工作負載設計

2026-07-22 01:45 UTC+8

谷歌於2026年7月21日發佈了三款新的Gemini模型：3.6 Flash、3.5 Flash-Lite和3.5 Flash Cyber。3.6 Flash輸出token減少17%，價格降至每百萬輸出7.50美元；Flash-Lite速度達350 token/秒；Flash Cyber專為漏洞查找設計，在CodeMender中表現出色。旗艦模型3.5 Pro仍推遲發佈。

Gemini 3.6 Flash輸出token減少17%，輸出價格從9.00美元降至7.50美元每百萬token。
Gemini 3.5 Flash-Lite以每秒350 token運行，定價輸入0.30美元、輸出2.50美元每百萬token，在多個基準測試中超越舊版3 Flash。

Google Gemini 3.6 Flash 旨在降低企業代理的Token成本

2026-07-22 00:06 UTC+8

Google發佈了Gemini 3.6 Flash和3.5 Flash-Lite，旨在降低企業AI代理的延遲和Token成本。3.6 Flash在多項基準測試中性能提升顯著，而3.5 Flash-Lite則專注於高吞吐量、低延遲的場景。此外，Google還推出了針對網絡安全的3.5 Flash Cyber模型，並集成了客户端計算機使用工具。

Gemini 3.6 Flash輸出Token減少17%，部分測試中減少高達65%，定價為輸入$1.50/百萬Token，輸出$7.50/百萬Token。
3.5 Flash-Lite以高吞吐量和低價格（輸入$0.3/百萬Token，輸出$2.5/百萬Token）服務於文檔處理和代理搜索。

Wire AI：移動應用的AI原生增長工程師

2026-07-21 16:40 UTC+8

Wire AI是一款AI原生的移動應用增長工具，通過個性化用户旅程的A/B測試來提升激活率和留存率。其風險定價模式：若不改善激活，則免費使用。

Wire AI利用AI驅動的A/B測試，為每個用户個性化整個應用內體驗。
真實案例中，日安裝量從100提升至1000，引導完成率達93%。

AI Song：將提示或歌詞轉化為完整歌曲

2026-07-21 16:38 UTC+8

AI Song Generator 允許用户將任何想法、歌詞或情緒轉化為完整歌曲。它支持自然語言描述，可調整旋律、編曲、節奏和聲音。提供文本轉歌曲、歌詞轉歌曲、私人工作室和商業用途等功能。定價從每月9.99美元起，適用於視頻創作者、遊戲開發者、營銷人員和詞曲作者。

用户只需一個句子即可生成完整歌曲
支持自定義歌詞、調整音樂元素

阿里通義實驗室發佈Qwen-Audio-3.0-TTS：支持16種語言的Flash和Plus兩檔託管文本轉語音模型

2026-07-21 05:14 UTC+8

阿里通義實驗室推出Qwen-Audio-3.0-TTS，一款面向生產的文本轉語音系統，提供Flash（實時交互）和Plus（高質量生成）兩檔，通過阿里雲模型託管服務交付。該模型覆蓋16種語言和20種中文方言，支持自然語言風格控制和86種細粒度內聯標籤，並在Artificial Analysis語音競技場中排名第一。文章詳細介紹了模型架構、性能表現、開發者反饋及定價信息。

Qwen-Audio-3.0-TTS提供Flash（約300毫秒首包延遲）和Plus（質量優先）兩個版本，均為API託管服務。
Plus版本在Artificial Analysis競技場Elo評分約1236，每百萬字符價格約27.59美元，但吞吐量僅約16字符/秒。

隨着AI支出攀升，企業認真對待Token成本

2026-07-20 20:05 UTC+8

不透明的定價和滯後的賬單迫使企業重新思考其AI模型策略。

AI支出不斷增長，企業開始關注Token成本。
不透明的定價和回顧性計費方式引發企業不滿。

更好的開始，更好的結束：引導式迭代自我推理蒸餾用於壓縮推理

2026-07-20 12:00 UTC+8

本文提出BIRD，一種兩階段自我推理蒸餾方法，通過先採樣簡潔解並進行提示切換SFT，然後應用在線逆KL蒸餾，顯著提升了大語言模型在長鏈推理中的效率。在Qwen3-8B上，MATH-500準確率從86.2%提升至92.0%，同時響應長度從3099降至1115 tokens。

現有在線自我蒸餾方法存在初始化瓶頸，模型在噪聲和冗餘前綴上訓練。
BIRD第一階段利用簡潔指令採樣和提示切換SFT將簡潔性轉化為默認行為。

阿里巴巴預覽Qwen3.8-Max：2.4萬億參數多模態模型，緊隨Moonshot的Kimi K3開源發佈之後

2026-07-20 05:42 UTC+8

阿里巴巴Qwen團隊預覽了Qwen3.8-Max-Preview，一個2.4萬億參數的多模態MoE模型，號稱“僅次於Fable 5”。該預覽已在Token Plan、Qoder和QoderWork上以標準定價的10%提供。但尚未提供任何基準測試表、模型卡、許可證、每token價格或激活參數數量。本文區分了阿里巴巴確認的內容和僅聲稱的內容。

Qwen3.8-Max-Preview已在Token Plan、Qoder和QoderWork上以10%的優惠價格提供。
2.4萬億參數和“僅次於Fable 5”的排名僅是阿里巴巴的聲稱，尚未有已驗證的基準測試。

Netflix斥資5.87億美元收購本·阿弗萊克的AI初創公司InterPositive

2026-07-19 00:19 UTC+8

Netflix在一份聯邦文件中披露，以5.87億美元現金收購了本·阿弗萊克的人工智能初創公司InterPositive。該交易於3月完成，總購買價格約為5.87億美元。

Netflix以5.87億美元現金收購InterPositive。
該交易在3月完成，披露於SEC文件。

NVIDIA Vera Rubin：最大化智能體AI每美元智能的關鍵平台

2026-07-17 23:00 UTC+8

NVIDIA Vera Rubin平台通過極致協同設計降低每token成本，實現更頻繁高效的後訓練，最大化智能體AI時代的每美元智能。Nemotron 3 Ultra模型在SWE-bench驗證中得分71.7%，展示了後訓練的有效性。

後訓練從一次性步驟轉變為智能體AI的持續過程
Vera Rubin相比Blackwell可將訓練大型模型所需GPU數量減少四倍

10-K文件的哪部分更重要？全文與風險因素情感分析的聚合依賴價值

2026-07-17 12:00 UTC+8

該研究擴展了監督式詞典學習方法，應用於10-K文件及其第1A項風險因素部分，針對回報率和波動率標籤在三個聚合層級（行業、投資組合、個體公司）訓練情感分數。基於2006-2023年間94家納斯達克100科技公司的1,383份文件，發現全文本在行業和投資組合層面產生更準確的情感分析，但在個體公司層面，較窄的第1A項表現更好。Loughran-McDonald詞典基線在所有測試層級均與價格呈強烈負相關，凸顯了監督方法在監管披露文本中的價值。

全文本在行業和投資組合層面更準確，第1A項在個體公司層面更優。
Loughran-McDonald詞典基線始終與價格強烈負相關。

Kimi K3：我們仍能從鵜鶘基準中學到什麼

2026-07-17 04:19 UTC+8

中國AI實驗室Moonshot AI發佈了Kimi K3模型，擁有2.8萬億參數，自稱首個“開源3T級模型”。該模型在多個基準測試中表現優異，但定價較高。作者通過“鵜鶘騎自行車”測試，展示了模型的推理成本、隱性系統提示和視覺能力，並反思了這一非正式基準的侷限性。

Kimi K3擁有2.8萬億參數，是Moonshot AI的最強模型，承諾2026年7月27日開源。
定價為每百萬輸入3美元、每百萬輸出15美元，是目前中國AI實驗室最貴的模型。

GPT-5.6 Sol 與 Claude Fable 5 對比：基準測試、定價與實操體驗

2026-07-17 02:28 UTC+8

GPT-5.6 Sol 和 Claude Fable 5 是目前最先進的兩款模型。Fable 5 在通用智能上略佔優勢，而 Sol 在編碼性能、執行速度和定價方面更具競爭力。Sol 的定價更接近 Claude Opus 4.8，遠低於 Fable 5。本文通過基準測試和實操對比，幫助用户選擇最適合的模型。

GPT-5.6 Sol 在編碼基準測試中領先，且價格更低。
Claude Fable 5 在通用智能和分析質量上略勝一籌。

Thinking Machines 的 Inkling 現已在 Modal 上可用

2026-07-15 08:00 UTC+8

Thinking Machines 發佈了通用多模態模型 Inkling，支持文本、圖像和音頻輸入並生成文本輸出，現可通過 Modal 託管端點使用，採用基於令牌的定價。文章還討論了其獨特的局部注意力架構和 DFlash 推測解碼技術的優勢。

Thinking Machines 發佈 Inkling，一個 975B 總參數（41B 活躍）的多模態專家混合模型，支持 1M 令牌上下文窗口。
Inkling 採用局部注意力佈局，每六層中有五層使用滑動窗口注意力，提高計算效率。

Vizro：上傳電子表格，幾分鐘內獲得答案

2026-07-14 17:49 UTC+8

Vizro 是一款 AI 驅動的 iOS 應用，可將 CSV 或 Excel 文件轉換為美觀的交互式儀表盤，無需編碼。提供 AI 分析、自然語言查詢、故事模式和一鍵分享功能，訂閲價格為每月 9.99 美元。

上傳電子表格，AI 自動生成儀表盤、圖表和關鍵指標。
支持自然語言查詢，可對數據集提問並得到基於數據的回答。

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能編碼基準測試、API定價及成本-性能權衡對比

2026-07-14 08:58 UTC+8

Anthropic發佈了Claude Sonnet 5，這是其最強的中端代理模型，在多項基準測試中超越前代Sonnet 4.6，並縮小了與旗艦Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性價比極高，但高努力水平下成本可能超過Opus 4.8。它已作為Free和Pro計劃的默認模型，並可通過API調用。

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基準測試中均優於Sonnet 4.6，接近Opus 4.8。
定價低於Opus 4.8：$2/$10每百萬token（至2026年8月31日），之後為$3/$15。

AI基礎設施建設構成最新通脹威脅

2026-07-14 05:03 UTC+8

大規模AI數據中心投資導致芯片、電腦和電力價格上漲，可能使通脹持續高於美聯儲目標，並促使加息。

四大科技公司今年AI投資預計達7200億美元，推高內存芯片價格高達400%。
蘋果、微軟等企業已提高筆記本電腦、遊戲機等產品價格。

對人工智能的思考

2026-07-13 10:43 UTC+8

作者分享了自己對人工智能的看法，認為其影響很大且偏向積極。他回答了關於AI是否會取代工作、SaaS是否消亡、定價變化以及資本支出是否合理等問題，認為AI將簡化搜索流程、改變商業模式，但無需過度擔憂。

作者對AI持高度積極態度，認為其影響巨大。
AI不會完全取代工作，而是改變工作方式。

AINews：今日平靜，模型發佈潮後的小憩

2026-07-11 10:53 UTC+8

在持續一週的模型發佈熱潮後，今日相對平靜。主要新聞包括GPT-5.6令人困惑的發佈及快速修正、Meta的Muse Spark 1.1以激進定價提供接近前沿的質量、開源模型工具的進步，以及安全擔憂的加劇。

GPT-5.6發佈36種變體，用户體驗問題導致快速修正。
Meta推出Muse Spark 1.1，定價激進，性能接近前沿模型。

2026年初AI訂閲服務削減配額並提價

2026-07-10 13:51 UTC+8

2026年初，多家AI訂閲服務提供商削減免費或付費配額並提高價格，引發用户不滿。文章回顧了2025年AI工具的激烈競爭格局，並指出當前趨勢是服務收縮而非擴張。

2026年初AI訂閲服務普遍削減配額並提價
用户面臨更高成本和更少的使用量

韓國芯片製造商SK海力士借AI熱潮在美上市募資265億美元

2026-07-10 13:06 UTC+8

SK海力士作為先進存儲芯片供應商，受益於全球AI數據中心建設熱潮，利潤飆升。公司於週五確定其鉅額美國上市定價，計劃融資265億美元，成為全球最大規模股票發行之一。

SK海力士於週五確定美國上市定價，目標融資265億美元。
該公司是全球AI數據中心建設熱潮的主要受益者，利潤大幅增長。

GPT-5.6 正式發佈：Sol、Terra 和 Luna 三款模型

2026-07-10 12:19 UTC+8

OpenAI 發佈 GPT-5.6 系列，包括旗艦模型 Sol、工作模型 Terra 和快速模型 Luna。所有用户均可免費使用。本文詳細介紹定價、性能、安全特性及實際測試結果。

三款模型：Sol（旗艦）、Terra（工作）、Luna（快速），均開放給所有用户。
定價靈活：Sol 標準版 $5/$30，快速版 $12.50/$75；Terra $2.50/$15；Luna $1/$6（每百萬 token）。

Meta超級智能實驗室發佈Muse Spark 1.1：專為智能體任務打造的多模態推理模型，現已登陸Meta Model API

2026-07-10 06:26 UTC+8

Meta超級智能實驗室發佈了Muse Spark 1.1，這是一款專為智能體任務優化的多模態推理模型，同時公開預覽了Meta Model API。該模型擁有可主動壓縮的100萬token上下文窗口，對新型工具和MCP服務器具有零樣本泛化能力，並支持多智能體委派。定價為每百萬輸入token 1.25美元，每百萬輸出token 4.25美元，目前僅在美國提供預覽。在工具使用基準測試中領先，但在編碼和視覺推理方面落後於競爭對手。

Muse Spark 1.1在工具使用和工具增強推理方面表現出色，在Meta報告的基準測試中領先。
該模型擁有百萬token上下文窗口並主動壓縮，同時支持多智能體委派。

Show HN：出售閒置AI積分或半價購買Claude積分

2026-07-10 04:51 UTC+8

Second Hand Tokens 是一個平台，允許用户以五折價格買賣未使用的AI信用額度，支持Claude等模型。

Second Hand Tokens 提供AI信用額度二手交易市場
買家可以半價購買Claude等AI服務的積分

Palo Alto CEO Arora稱AI定價需下降90%，代幣成本飆升

2026-07-10 04:50 UTC+8

Palo Alto Networks首席執行官Nikesh Arora表示，AI代幣成本需要下降高達90%以促進企業採用，並批評當前高定價是主要障礙。他加入包括Palantir的Alex Karp在內的高管行列，呼籲更便宜的替代方案，同時開源模型正獲得關注。

Arora要求AI代幣成本在兩年內降低90%。
他認為OpenAI的54%效率提升還不夠。

OpenAI 發佈 GPT-5.6（Sol、Terra、Luna）：三層級模型家族，Responses API 集成程序化工具調用

2026-07-10 04:45 UTC+8

OpenAI 推出了 GPT-5.6 家族，包含三個層級：旗艦級 Sol、平衡型 Terra 和經濟型 Luna。定價從每百萬 token 1/6 美元到 5/30 美元不等。Sol 在 Artificial Analysis 編碼智能體指數上達到 80 分，比 Claude Fable 5 高出 2.8 分，同時使用更少的 token。主要的開發者特性是程序化工具調用，可在隔離的 V8 運行時中運行 JavaScript，將 token 使用量減少 38% 到 63.5%。然而，差距依然存在：Sol 在 SWE-Bench Pro、智能指數和工具使用基準上落後於 Claude 模型。

GPT-5.6 推出三個層級：Sol、Terra、Luna，定價從每百萬 token 1/6 美元到 5/30 美元。
Sol 在編碼智能體指數上得分 80，超過 Claude Fable 5 的 77.2。

OpenAI的GPT-5.6和ChatGPT Work旨在在價格、速度和生產力上超越Anthropic

2026-07-10 04:26 UTC+8

OpenAI發佈了GPT-5.6系列模型（Sol、Terra、Luna）和ChatGPT Work工具，直接對標Anthropic的Fable 5和Claude Cowork。新模型在基準測試中表現優異，成本更低，速度更快。ChatGPT Work將智能代理功能擴展到桌面應用，支持非編碼任務。

GPT-5.6推出三個型號：Sol、Terra、Luna，分別對應不同性能層級。
Sol在Agent's Last Exam基準測試中得分53.6，超過Claude Fable 5的13.1分。

GPT-5.6 Sol (max) 基準測試結果

2026-07-10 02:51 UTC+8

OpenAI 的最新一代推理模型 GPT-5.6 Sol (max) 在 Artificial Analysis 智能指數中取得 59 分，遠超同類模型平均水平。該模型具備文本與圖像輸入、100 萬 tokens 上下文窗口，但定價高昂（輸入 $5/百萬 tokens，輸出 $30/百萬 tokens），且評估中生成 7000 萬 tokens，冗長性較高。

GPT-5.6 Sol (max) 在 Artificial Analysis 智能指數中得分 59，遠高於同類模型的中位數 30。
定價昂貴：輸入 $5/百萬 tokens，輸出 $30/百萬 tokens，評估總成本高達 $2824.18。

Grok 4.5 基準測試結果

2026-07-09 17:51 UTC+8

Grok 4.5 (高) 在 Artificial Analysis 智能指數中得分為 54，速度 86.7 令牌/秒，輸入價格 $2.00/百萬令牌，輸出 $6.00/百萬令牌。作為推理模型，支持文本和圖像輸入，上下文窗口 500k。

Grok 4.5 在智能指數中排名靠前，得分為 54，遠超同類模型平均 29。
其輸出速度為 87 令牌/秒，高於平均值 73。

SpaceXAI發佈Grok 4.5：收購Cursor後首款Opus級模型

2026-07-09 14:05 UTC+8

SpaceXAI（xAI）正式發佈了Grok 4.5，這是一款專注於編程和智能體的前沿模型，旨在提供接近Opus級別的性能，但速度更快、成本更低。該模型與Cursor合作訓練，定價為每百萬輸入標記2美元、輸出標記6美元，上下文窗口為50萬標記（計劃擴展至100萬）。在獨立評測中，Grok 4.5在效率上表現突出，被認為是性能與成本的最佳平衡點。

Grok 4.5是xAI首款針對編程和智能體訓練的模型，與Cursor合作開發。
定價低於競爭對手（GPT-5.6和Opus 4.8），輸出速度更快。

SpaceXAI發佈Grok 4.5：與Cursor聯合訓練的編碼、代理任務和知識工作模型，輸入價格每百萬tokens僅2美元

2026-07-09 07:54 UTC+8

SpaceXAI發佈了其迄今為止最智能的模型Grok 4.5，該模型與AI編碼編輯器Cursor聯合訓練，專注於編碼、代理任務和知識工作。定價為每百萬輸入tokens 2美元、每百萬輸出tokens 6美元，服務速度達80 TPS，並在Harvey法律代理基準測試中排名第一。Grok 4.5在令牌效率方面表現出色，在SWE Bench Pro上輸出tokens數量比Opus 4.8少約4.2倍。該模型現已在Grok Build和Cursor中提供，並有限時免費使用。

Grok 4.5與Cursor聯合訓練，針對編碼、代理任務和知識工作優化。
在Harvey法律代理基準測試中排名第一，服務速度80 TPS。

初創公司聚焦：Sourcerer 希望通過 AI 採購成為供應商

2026-07-09 03:38 UTC+8

Sourcerer 並非又一個採購工作流工具，而是一家試圖成為實物商品記錄供應商的初創公司。客户上傳產品規格、發票或描述後，其 AI 代理會審核供應商、定價、安排貨運、提供信貸，並給出單一報價。

Sourcerer 定位為實物商品的記錄供應商，而非傳統採購工具。
AI 代理負責供應商審核、定價、貨運和信貸服務。

開放、便捷且可預測：推出預留吞吐量功能

2026-07-08 08:00 UTC+8

Together AI 推出預留吞吐量功能，為 MiniMax M3 和 GLM-5.2 等前沿開放模型提供保留推理容量，採用基於 Token 的定價和 99% 正常運行時間 SLA，成本比專有 API 降低高達 90%。

預留吞吐量提供保留推理容量，無需管理 GPU 小時或基礎設施。
基於 Token 的定價，每 PTU 每分鐘 0.05 美元，支持輸入、緩存輸入和輸出 Token。

‘絕對瘋狂’：舊金山住宅因人工智能熱潮以高於要價100萬美元售出

2026-07-08 06:33 UTC+8

房地產公司Compass的分析顯示，2026年上半年舊金山有超過140套房屋以高於要價至少100萬美元的價格售出，其中6月就有44套。人工智能熱潮帶來的財富增長與住房短缺共同推動買家大幅加價。

舊金山AI熱潮導致購房者支付遠超要價的金額
2026年上半年超140套房產溢價超100萬美元，6月單月44套

中國AI模型憑藉成本優勢在美國企業中的採用率上升

2026-07-08 05:48 UTC+8

中國開發的AI模型正逐漸縮小與領先美國競爭對手的性能差距，同時保持顯著的價格優勢，因此在美國公司中越來越受歡迎。最近DeepSeek和Z.ai等中國公司發佈的模型被認為與Anthropic和OpenAI等前沿系統高度競爭。這些進步正值許多美國AI實驗室最先進模型的token價格上漲，使企業面臨與使用該技術相關的意外高成本。

中國AI模型性能提升，與美國領先模型差距縮小。
DeepSeek和Z.ai等中國公司的模型在成本上更具優勢。

OpenAI發佈GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用於API中的低延遲語音代理

2026-07-07 12:35 UTC+8

OpenAI在API中新增了兩個Realtime模型：gpt-realtime-2.1和gpt-realtime-2.1-mini。後者是一款針對實時語音的迷你推理模型，定價與之前的gpt-realtime-mini相同。OpenAI還通過改進緩存將p95延遲降低了至少25%。本文介紹了模型的變化、定價對比以及如何通過WebRTC連接。

OpenAI推出gpt-realtime-2.1和gpt-realtime-2.1-mini，後者為低延遲語音推理模型。
定價與之前的mini模型相同，p95延遲降低至少25%。

模型定價

相關主題