模型定价 AI News

模型定价动态

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

2026-07-14 08:58 UTC+8

Anthropic发布了Claude Sonnet 5，这是其最强的中端代理模型，在多项基准测试中超越前代Sonnet 4.6，并缩小了与旗舰Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性价比极高，但高努力水平下成本可能超过Opus 4.8。它已作为Free和Pro计划的默认模型，并可通过API调用。

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基准测试中均优于Sonnet 4.6，接近Opus 4.8。
定价低于Opus 4.8：$2/$10每百万token（至2026年8月31日），之后为$3/$15。

AI基础设施建设构成最新通胀威胁

2026-07-14 05:03 UTC+8

大规模AI数据中心投资导致芯片、电脑和电力价格上涨，可能使通胀持续高于美联储目标，并促使加息。

四大科技公司今年AI投资预计达7200亿美元，推高内存芯片价格高达400%。
苹果、微软等企业已提高笔记本电脑、游戏机等产品价格。

对人工智能的思考

2026-07-13 10:43 UTC+8

作者分享了自己对人工智能的看法，认为其影响很大且偏向积极。他回答了关于AI是否会取代工作、SaaS是否消亡、定价变化以及资本支出是否合理等问题，认为AI将简化搜索流程、改变商业模式，但无需过度担忧。

作者对AI持高度积极态度，认为其影响巨大。
AI不会完全取代工作，而是改变工作方式。

AINews：今日平静，模型发布潮后的小憩

2026-07-11 10:53 UTC+8

在持续一周的模型发布热潮后，今日相对平静。主要新闻包括GPT-5.6令人困惑的发布及快速修正、Meta的Muse Spark 1.1以激进定价提供接近前沿的质量、开源模型工具的进步，以及安全担忧的加剧。

GPT-5.6发布36种变体，用户体验问题导致快速修正。
Meta推出Muse Spark 1.1，定价激进，性能接近前沿模型。

2026年初AI订阅服务削减配额并提价

2026-07-10 13:51 UTC+8

2026年初，多家AI订阅服务提供商削减免费或付费配额并提高价格，引发用户不满。文章回顾了2025年AI工具的激烈竞争格局，并指出当前趋势是服务收缩而非扩张。

2026年初AI订阅服务普遍削减配额并提价
用户面临更高成本和更少的使用量

韩国芯片制造商SK海力士借AI热潮在美上市募资265亿美元

2026-07-10 13:06 UTC+8

SK海力士作为先进存储芯片供应商，受益于全球AI数据中心建设热潮，利润飙升。公司于周五确定其巨额美国上市定价，计划融资265亿美元，成为全球最大规模股票发行之一。

SK海力士于周五确定美国上市定价，目标融资265亿美元。
该公司是全球AI数据中心建设热潮的主要受益者，利润大幅增长。

GPT-5.6 正式发布：Sol、Terra 和 Luna 三款模型

2026-07-10 12:19 UTC+8

OpenAI 发布 GPT-5.6 系列，包括旗舰模型 Sol、工作模型 Terra 和快速模型 Luna。所有用户均可免费使用。本文详细介绍定价、性能、安全特性及实际测试结果。

三款模型：Sol（旗舰）、Terra（工作）、Luna（快速），均开放给所有用户。
定价灵活：Sol 标准版 $5/$30，快速版 $12.50/$75；Terra $2.50/$15；Luna $1/$6（每百万 token）。

Meta超级智能实验室发布Muse Spark 1.1：专为智能体任务打造的多模态推理模型，现已登陆Meta Model API

2026-07-10 06:26 UTC+8

Meta超级智能实验室发布了Muse Spark 1.1，这是一款专为智能体任务优化的多模态推理模型，同时公开预览了Meta Model API。该模型拥有可主动压缩的100万token上下文窗口，对新型工具和MCP服务器具有零样本泛化能力，并支持多智能体委派。定价为每百万输入token 1.25美元，每百万输出token 4.25美元，目前仅在美国提供预览。在工具使用基准测试中领先，但在编码和视觉推理方面落后于竞争对手。

Muse Spark 1.1在工具使用和工具增强推理方面表现出色，在Meta报告的基准测试中领先。
该模型拥有百万token上下文窗口并主动压缩，同时支持多智能体委派。

Show HN：出售闲置AI积分或半价购买Claude积分

2026-07-10 04:51 UTC+8

Second Hand Tokens 是一个平台，允许用户以五折价格买卖未使用的AI信用额度，支持Claude等模型。

Second Hand Tokens 提供AI信用额度二手交易市场
买家可以半价购买Claude等AI服务的积分

Palo Alto CEO Arora称AI定价需下降90%，代币成本飙升

2026-07-10 04:50 UTC+8

Palo Alto Networks首席执行官Nikesh Arora表示，AI代币成本需要下降高达90%以促进企业采用，并批评当前高定价是主要障碍。他加入包括Palantir的Alex Karp在内的高管行列，呼吁更便宜的替代方案，同时开源模型正获得关注。

Arora要求AI代币成本在两年内降低90%。
他认为OpenAI的54%效率提升还不够。

OpenAI 发布 GPT-5.6（Sol、Terra、Luna）：三层级模型家族，Responses API 集成程序化工具调用

2026-07-10 04:45 UTC+8

OpenAI 推出了 GPT-5.6 家族，包含三个层级：旗舰级 Sol、平衡型 Terra 和经济型 Luna。定价从每百万 token 1/6 美元到 5/30 美元不等。Sol 在 Artificial Analysis 编码智能体指数上达到 80 分，比 Claude Fable 5 高出 2.8 分，同时使用更少的 token。主要的开发者特性是程序化工具调用，可在隔离的 V8 运行时中运行 JavaScript，将 token 使用量减少 38% 到 63.5%。然而，差距依然存在：Sol 在 SWE-Bench Pro、智能指数和工具使用基准上落后于 Claude 模型。

GPT-5.6 推出三个层级：Sol、Terra、Luna，定价从每百万 token 1/6 美元到 5/30 美元。
Sol 在编码智能体指数上得分 80，超过 Claude Fable 5 的 77.2。

OpenAI的GPT-5.6和ChatGPT Work旨在在价格、速度和生产力上超越Anthropic

2026-07-10 04:26 UTC+8

OpenAI发布了GPT-5.6系列模型（Sol、Terra、Luna）和ChatGPT Work工具，直接对标Anthropic的Fable 5和Claude Cowork。新模型在基准测试中表现优异，成本更低，速度更快。ChatGPT Work将智能代理功能扩展到桌面应用，支持非编码任务。

GPT-5.6推出三个型号：Sol、Terra、Luna，分别对应不同性能层级。
Sol在Agent's Last Exam基准测试中得分53.6，超过Claude Fable 5的13.1分。

GPT-5.6 Sol (max) 基准测试结果

2026-07-10 02:51 UTC+8

OpenAI 的最新一代推理模型 GPT-5.6 Sol (max) 在 Artificial Analysis 智能指数中取得 59 分，远超同类模型平均水平。该模型具备文本与图像输入、100 万 tokens 上下文窗口，但定价高昂（输入 $5/百万 tokens，输出 $30/百万 tokens），且评估中生成 7000 万 tokens，冗长性较高。

GPT-5.6 Sol (max) 在 Artificial Analysis 智能指数中得分 59，远高于同类模型的中位数 30。
定价昂贵：输入 $5/百万 tokens，输出 $30/百万 tokens，评估总成本高达 $2824.18。

Grok 4.5 基准测试结果

2026-07-09 17:51 UTC+8

Grok 4.5 (高) 在 Artificial Analysis 智能指数中得分为 54，速度 86.7 令牌/秒，输入价格 $2.00/百万令牌，输出 $6.00/百万令牌。作为推理模型，支持文本和图像输入，上下文窗口 500k。

Grok 4.5 在智能指数中排名靠前，得分为 54，远超同类模型平均 29。
其输出速度为 87 令牌/秒，高于平均值 73。

SpaceXAI发布Grok 4.5：收购Cursor后首款Opus级模型

2026-07-09 14:05 UTC+8

SpaceXAI（xAI）正式发布了Grok 4.5，这是一款专注于编程和智能体的前沿模型，旨在提供接近Opus级别的性能，但速度更快、成本更低。该模型与Cursor合作训练，定价为每百万输入标记2美元、输出标记6美元，上下文窗口为50万标记（计划扩展至100万）。在独立评测中，Grok 4.5在效率上表现突出，被认为是性能与成本的最佳平衡点。

Grok 4.5是xAI首款针对编程和智能体训练的模型，与Cursor合作开发。
定价低于竞争对手（GPT-5.6和Opus 4.8），输出速度更快。

SpaceXAI发布Grok 4.5：与Cursor联合训练的编码、代理任务和知识工作模型，输入价格每百万tokens仅2美元

2026-07-09 07:54 UTC+8

SpaceXAI发布了其迄今为止最智能的模型Grok 4.5，该模型与AI编码编辑器Cursor联合训练，专注于编码、代理任务和知识工作。定价为每百万输入tokens 2美元、每百万输出tokens 6美元，服务速度达80 TPS，并在Harvey法律代理基准测试中排名第一。Grok 4.5在令牌效率方面表现出色，在SWE Bench Pro上输出tokens数量比Opus 4.8少约4.2倍。该模型现已在Grok Build和Cursor中提供，并有限时免费使用。

Grok 4.5与Cursor联合训练，针对编码、代理任务和知识工作优化。
在Harvey法律代理基准测试中排名第一，服务速度80 TPS。

初创公司聚焦：Sourcerer 希望通过 AI 采购成为供应商

2026-07-09 03:38 UTC+8

Sourcerer 并非又一个采购工作流工具，而是一家试图成为实物商品记录供应商的初创公司。客户上传产品规格、发票或描述后，其 AI 代理会审核供应商、定价、安排货运、提供信贷，并给出单一报价。

Sourcerer 定位为实物商品的记录供应商，而非传统采购工具。
AI 代理负责供应商审核、定价、货运和信贷服务。

开放、便捷且可预测：推出预留吞吐量功能

2026-07-08 08:00 UTC+8

Together AI 推出预留吞吐量功能，为 MiniMax M3 和 GLM-5.2 等前沿开放模型提供保留推理容量，采用基于 Token 的定价和 99% 正常运行时间 SLA，成本比专有 API 降低高达 90%。

预留吞吐量提供保留推理容量，无需管理 GPU 小时或基础设施。
基于 Token 的定价，每 PTU 每分钟 0.05 美元，支持输入、缓存输入和输出 Token。

‘绝对疯狂’：旧金山住宅因人工智能热潮以高于要价100万美元售出

2026-07-08 06:33 UTC+8

房地产公司Compass的分析显示，2026年上半年旧金山有超过140套房屋以高于要价至少100万美元的价格售出，其中6月就有44套。人工智能热潮带来的财富增长与住房短缺共同推动买家大幅加价。

旧金山AI热潮导致购房者支付远超要价的金额
2026年上半年超140套房产溢价超100万美元，6月单月44套

中国AI模型凭借成本优势在美国企业中的采用率上升

2026-07-08 05:48 UTC+8

中国开发的AI模型正逐渐缩小与领先美国竞争对手的性能差距，同时保持显著的价格优势，因此在美国公司中越来越受欢迎。最近DeepSeek和Z.ai等中国公司发布的模型被认为与Anthropic和OpenAI等前沿系统高度竞争。这些进步正值许多美国AI实验室最先进模型的token价格上涨，使企业面临与使用该技术相关的意外高成本。

中国AI模型性能提升，与美国领先模型差距缩小。
DeepSeek和Z.ai等中国公司的模型在成本上更具优势。

OpenAI发布GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用于API中的低延迟语音代理

2026-07-07 12:35 UTC+8

OpenAI在API中新增了两个Realtime模型：gpt-realtime-2.1和gpt-realtime-2.1-mini。后者是一款针对实时语音的迷你推理模型，定价与之前的gpt-realtime-mini相同。OpenAI还通过改进缓存将p95延迟降低了至少25%。本文介绍了模型的变化、定价对比以及如何通过WebRTC连接。

OpenAI推出gpt-realtime-2.1和gpt-realtime-2.1-mini，后者为低延迟语音推理模型。
定价与之前的mini模型相同，p95延迟降低至少25%。

评估电力价格预测的时间序列基础模型：污染风险、分布偏移和协变量依赖性

2026-07-07 12:00 UTC+8

该研究提出了一种双数据集基准评估框架，用于公平评估时间序列基础模型（TSFMs）在电力价格预测中的表现。研究发现，TSFMs在零样本预测中表现强劲，但严重依赖于协变量支持，且不一定超越专用领域方法。有趣的是，TSFMs与领域特定方法的简单集成显示出显著潜力，表明两种方法捕获了互补的预测信息。

提出双数据集基准框架以降低污染风险，实现公平评估。
时间序列基础模型在电力价格预测中极具竞争力，但性能依赖协变量。

专为亚马逊卖家设计的AI产品摄影套件

2026-07-06 15:25 UTC+8

Loomadesign.ai 推出专为亚马逊卖家设计的AI产品摄影套件，提供不同定价层级，包括每月39.5美元的高阶计划，包含8000积分、自动队列、无水印下载等功能。

AI驱动的产品摄影工具，专为亚马逊卖家优化
提供免费和付费计划，高阶计划每月39.5美元

芯片制造商敦促白宫避免对内存市场进行广泛干预

2026-07-04 07:22 UTC+8

芯片行业协会SEMI致信特朗普政府，敦促其不要对内存市场进行广泛干预，认为此举会扭曲价格和产能决策。SEMI建议采取税收减免和长期采购合同等更窄的措施，以应对由人工智能需求驱动的内存价格上涨。

SEMI代表多家主要半导体公司，呼吁白宫避免广泛干预内存市场。
该协会建议采取税收减免和长期采购合同作为替代方案。

TokenScope：面向大型语言模型代码任务的词元级可解释性与可分析性工具

2026-07-03 12:00 UTC+8

TokenScope 是一款面向解码器型 LLM 的交互式可解释性工具，能在代码生成过程中提供词元级度量、注意力模式和结构信息，支持词元替换、反事实分支和基于抽象语法树的代码感知聚合。

TokenScope 提供词元级的度量和注意力分析，揭示 LLM 在代码生成中的决策过程。
支持交互式词元替换和反事实分支，探索不同生成路径。

特朗普重新设计所有.gov网站的计划导致AI恐怖作品

2026-07-01 21:15 UTC+8

Ars Technica的审查发现，特朗普NDS计划下新推出的政府网站大多数是单页注册表单，许多域名重定向到旧版网站。值得注意的项目包括药品价格比较工具、一个迅速消失的商店以及一个圣诞主题的虚荣项目。

NDS只推出了几十个网站，大多数是单页表单。
像live.gov这样的许多域名重定向到未重新设计的旧站点。

5个无需头疼即可构建应用的AI编码平台

2026-07-01 20:00 UTC+8

本文介绍了五个AI编码平台，帮助非技术用户通过简单提示将想法转化为完整应用。涵盖Lovable、v0、Replit Agent、OpenAI Codex和MiniMax Code，比较其特点、适用人群和价格。

Lovable适合初学者，通过自然语言生成全栈应用并一键部署。
v0 by Vercel擅长生成精美UI，与Vercel生态深度集成。

Claude Sonnet 5：强大的代理性能，但每任务成本更高

2026-07-01 07:35 UTC+8

Anthropic 的 Claude Sonnet 5 在人工智能分析智能指数中得分 53，较上一代提升 6 分，与 GPT-5.5（高推理）持平，但落后于 Opus 4.7 和 4.8。其每任务成本为 2.29 美元，比 Opus 4.8 高出约 15%，主要由于 token 用量增加。在代理知识工作基准测试中，Sonnet 5 与 Opus 4.8 相当甚至更优，但在推理和知识密集型任务上仍逊色于更大模型。Sonnet 5 支持 100 万 token 上下文窗口，定价 3/15 美元每百万 token，并新增了“xhigh”努力级别。

Claude Sonnet 5 在智能指数上得分 53，排名第五，与 GPT-5.5（xhigh）和 Opus 4.8（max）仅差 2-3 分。
每任务成本 2.29 美元，比 Sonnet 4.6 高约 2 倍，比 Opus 4.8 高 15%，主要由于 token 用量增加。

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

2026-07-01 05:37 UTC+8

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基准测试中均优于Sonnet 4.6，接近Opus 4.8。
定价低于Opus 4.8：$2/$10每百万token（至2026年8月31日），之后为$3/$15。

Claude Sonnet 5 新特性解析

2026-07-01 05:23 UTC+8

Anthropic 发布 Claude Sonnet 5，性能接近 Opus 4.8 但价格更低。模型采用新分词器，使相同输入产生的 token 数量增加约 30%，实际成本上升。API 不再支持 temperature、top_p、top_k 参数，自适应思考默认开启。

Sonnet 5 性能接近 Opus 4.8，定价与 Sonnet 4.6 相同
新分词器使英文 token 数量增加约 42%，中文基本不变

Claude Sonnet 5 – 基准测试结果

2026-07-01 04:09 UTC+8

Anthropic 于 2026 年 6 月发布的 Claude Sonnet 5（自适应推理，最大努力）在人工分析智能指数中得分 53，处于领先水平。该模型支持文本和图像输入，输出文本，具有 100 万 token 的上下文窗口，且定价为每百万 token 输入和输出均为 0.00 美元，极具竞争力。

Claude Sonnet 5 以 53 分的高分位居人工分析智能指数前列，远超同类模型。
该模型为推理模型，支持文本和图像输入，输出文本，上下文窗口高达 100 万 token。

在AWS上推出Claude Sonnet 5：Anthropic最强的Sonnet模型

2026-07-01 02:40 UTC+8

Anthropic宣布在Amazon Bedrock和Claude Platform on AWS上推出其最先进的Sonnet模型Claude Sonnet 5。该模型在编码、智能体任务和专业工作中提供接近Opus级别的智能，但价格与Sonnet系列相同。它支持多文件编码、复杂推理和自动化工作流程，适用于金融、生产力等领域。文章还提供了在Amazon Bedrock上使用该模型的详细指南和代码示例。

Claude Sonnet 5是Anthropic最新一代的首个Sonnet模型，在编码、智能体和专业工作上表现出色。
该模型以Sonnet价格提供接近Opus的智能，支持大规模部署。

OpenAI、Anthropic、Google——6个月内14次定价变动，大多数团队都忽略了

2026-06-30 23:22 UTC+8

2026年1月至6月，OpenAI、Anthropic和Google共进行了14次模型定价调整。模型弃用、隐藏令牌类别和静默功能变更导致实际账单与标价不符。追踪每次调用的成本至关重要，否则预算会悄然超支。

2026年上半年三大AI提供商进行了14次定价变更，许多团队未察觉。
模型弃用后自动重定向到更贵或产生更多令牌的替代品。

Kilo中的Next-Edit：由Inception扩散LLM驱动

2026-06-30 06:02 UTC+8

Kilo发布Next-Edit功能，由Inception的Mercury Edit 2模型驱动，能够预测开发者的下一步编辑。该功能基于扩散LLM架构，并行优化代码，提供更高的接受率和选择性。即日起免费使用一个月，之后可按市场价格继续使用。

Next-Edit利用扩散LLM预测代码编辑，而非简单的自动补全。
Mercury Edit 2接受率提高48%，选择性提高27%。

低成本中国AI模型如DeepSeek在美国受到青睐

2026-06-29 23:15 UTC+8

美国开发者和小型企业正在转向中国AI模型以降低成本。尽管性能仍落后于美国顶尖模型，但中国模型能以极低价格处理大多数任务。微软也在考虑使用DeepSeek等开源模型作为更低成本的替代方案。然而，中国公司面临将流行度转化为可观收入的挑战。

美国开发者用DeepSeek替代Claude，成本从10美元降至不到50美分。
中国模型价格低廉得益于国内较低的薪资和基础设施成本。

为什么苹果要我为大科技公司的AI狂热买单？

2026-06-27 21:30 UTC+8

苹果公司近期将多款产品价格上调，并将原因归咎于AI产业对内存芯片的需求激增。专家指出，内存制造商将生产线转向AI数据中心专用的高带宽内存，导致消费级DDR5内存价格上涨。尽管苹果连续多个季度创下盈利记录，硬件利润率远高于行业平均水平，但公司仍选择将成本转嫁给消费者。分析师认为，这更多是为了安抚追求持续增长的股东，并应对苹果在AI竞赛中落后、新CEO任命的不确定性以及缺乏热门新品等压力。

苹果CEO库克称价格上涨“不可避免”，16英寸MacBook Pro涨价300美元，11英寸iPad Air从599美元涨至749美元。
内存制造商将产能转向AI数据中心所需的高带宽内存，导致消费级内存价格飙升，是涨价的直接原因。

Show HN: Tested – 由LLM专家组（Claude、GPT、Gemini、Grok）评分的AI工具

2026-06-27 09:06 UTC+8

Tested是一个独立的AI工具评测平台，使用四个顶级LLM（Claude、GPT、Gemini、Grok）作为评审团，对40多种AI工具进行打分，避免付费排名。覆盖聊天机器人、编码、图像、视频等多个类别，提供透明分数和定价信息。

使用四个LLM代理独立评分，确保排名公正
覆盖AI聊天、编码、图像、视频等12个类别

OpenAI 预览 GPT-5.6：Sol、Terra 和 Luna 分层模型，新增推理模式，限量访问

2026-06-27 03:18 UTC+8

OpenAI 开始限量预览 GPT-5.6 系列，包括旗舰模型 Sol、生产级模型 Terra 和低成本快速模型 Luna。新增最大推理和超级模式，提升复杂任务处理能力。定价从每百万 tokens 1 美元起，性能在多项基准上创下新高。

GPT-5.6 系列分为三层：Sol（旗舰）、Terra（生产）和 Luna（快速低成本）。
新增 max 和 ultra 两种推理模式，分别优化深度推理和并行任务处理。

AI模型目录（比较用）

2026-06-27 02:57 UTC+8

一个提供全球AI模型和代理的许可证、定价与合规性信息的目录网站。

涵盖全球AI模型与代理的许可证、定价和合规性信息
旨在帮助用户比较和选择适合的AI模型

深度代理的提示缓存

2026-06-27 01:13 UTC+8

了解Deep Agents如何利用提示缓存，在无需额外配置的情况下，将各大模型提供商的LLM Token成本降低高达80%。

提示缓存通过存储模型状态，可使推理Token成本降低41-80%。
不同模型提供商对缓存控制的支持各不相同，增加了跨提供商优化的难度。

OpenAI 预览 GPT-5.6 系列：Sol、Terra 和 Luna

2026-06-27 01:10 UTC+8

OpenAI 宣布开始限量预览 GPT-5.6 系列模型，包括旗舰模型 Sol、平衡型模型 Terra 和快速经济型模型 Luna。Terra 性能与 GPT-5.5 相当，但成本降低一半；Luna 则以最低价格提供强大能力。定价按每百万 tokens 计算，Sol 为 $5 输入 / $30 输出，Terra 为 $2.50 / $15，Luna 为 $1 / $6。新系列还引入了更可预测的提示缓存，支持显式缓存断点和 30 分钟最小缓存寿命。由于美国政府的参与，此次发布先以限量预览形式提供给少数可信合作伙伴，随后将广泛发布。

GPT-5.6 系列包括 Sol（旗舰）、Terra（平衡）和 Luna（快速经济）三款模型。
Terra 性能与 GPT-5.5 相当但价格减半，Luna 以最低成本提供强大能力。

OpenAI发布GPT-5.6，正值美国AI监管争议之际

2026-06-27 01:00 UTC+8

在特朗普政府要求推迟发布后不到24小时，OpenAI推出了GPT-5.6模型套件，包括旗舰版Sol、中端版Terra和经济型Luna。该模型在编码、网络安全和生物学方面表现突出，并具备长时自主AI任务能力。定价方面，Sol每百万token输入5美元、输出30美元，约为Anthropic Claude Fable 5的一半。OpenAI在公告中重点强调了安全性和潜在滥用风险，并提到与政府合作进行预览期监管。

OpenAI应特朗普政府要求，在推迟后迅速发布GPT-5.6套件（Sol、Terra、Luna）。
Sol定价较竞争对手Anthropic的Claude Fable 5便宜近一半。

当前大语言模型成本为何不可持续

2026-06-26 15:44 UTC+8

大型语言模型的成本正在飙升，但技术进步和市场竞争将推动价格下降。本文分析了性能瓶颈、开源模型、芯片改进、零切换成本和本地模型这五个关键因素。

模型性能提升放缓，价格难以继续上涨
开源模型以十分之一的成本达到顶级性能

MacroLens：宏观经济场景下的多任务上下文金融推理基准研究

2026-06-25 12:00 UTC+8

MacroLens是一个全新的多任务基准，涵盖2021-2026年间4,416只美国小盘和微盘股。它整合价格、会计数据、宏观经济序列、SEC文件和新闻，旨在解决金融时间序列评估中四大假设违反问题。基准包含七个任务、1,130个宏观经济事件，评估了19种方法，并进行了特征消融实验。

首个同时处理价格、基本面、宏观和文本四类信号的公开基准
覆盖4,416只美国股票，包含46.8M XBRL事实、53个宏观序列和215,882篇新闻

OpenAI与博通推出AI推理芯片

2026-06-25 04:21 UTC+8

该芯片将使AI模型提供商能够提供更低的token价格，可能缓解企业对高token成本的担忧。

OpenAI与博通合作推出AI推理芯片。
新芯片使AI模型用户能够享受更低的token价格。

Mistral OCR 4 发布：突破性的文档理解模型

2026-06-23 22:03 UTC+8

Mistral OCR 4 引入了边界框、块分类和置信度分数，在人类偏好测试中优于所有竞争对手，平均胜率达72%。支持170种语言，可单容器自托管，定价为每千页4美元。

独立标注员偏好OCR 4，平均胜率达72%，在OlmOCRBench上得分85.20。
输出包括边界框、块类型（标题、表格、等式等）和逐字置信度分数。

Abacus AI 的 ChatLLM 评测：为日常工作打造的多模型 AI 工作空间

2026-06-23 01:00 UTC+8

ChatLLM 是 Abacus AI 开发的一个 AI 工作空间，它集成了多个领先的大语言模型、AI 代理、文档分析、图像生成、自动化及团队协作功能。本文详细评测了其支持的模型、功能、定价、使用限制，并对比了 ChatGPT。

ChatLLM 在一个订阅中提供对 GPT、Claude、Gemini、Grok 等数十种 AI 模型的访问。
平台包含多模型聊天、文档分析、数据可视化、图像与视频生成、代码执行、AI 代理及企业集成。

我用AI搭建了一个实时交易平台，然后时钟开始说谎

2026-06-21 16:24 UTC+8

作者用Claude作为AI副驾，构建了一个OTC利率互换的实时价格匹配平台。上线运行一个月后，出现会话时长异常延长、连接断开、数据闪烁等问题。通过分析错误分布（连续倍数而非离散倍数），作者诊断出是异步事件循环中的竞争条件：一个慢速客户端阻塞了广播循环，导致计时器被饥饿。修复方案是使用绝对截止时间计时器代替循环计数，并将广播改为并发执行加超时。这揭示了'异步'并不自动带来并发，理解系统行为比代码生成更重要。

实时交易平台出现会话时长随机延长（1.2x至5.51x），错误呈连续分布
根本原因：一个慢速客户端阻塞了异步广播循环，导致计时器被饥饿

Show HN：为AI辅助创意作品添加时间戳和出处记录

2026-06-20 06:29 UTC+8

Colossee 为AI生成或辅助的创意作品提供带时间戳的公共记录和证书页面，在发布前证明所有权。它支持超过40种AI工具，并提供简单的三步流程：添加作品、创建证明记录、发布时附上收据。定价从免费开始，有创作者、专业和工作室付费方案。

Colossee为AI辅助作品创建可验证的时间戳和所有权记录。
支持超过40种AI平台，包括Midjourney、OpenAI和Runway。

使用整流流变压器扩展胸部X光片生成基础模型

2026-06-19 12:00 UTC+8

研究人员推出了首个十亿参数级别的胸部X光片生成基础模型，拥有超过13亿参数，在包含120万张X光片和临床专家指导元数据的异构数据集上训练了1.6万亿tokens。该模型支持对多个患者亚群、采集视图和十余种病理的可控生成与编辑，生成的X光片在临床专家看来与真实图像无异，显著提升了合成逼真度。

首个十亿参数级别的胸部X光片生成基础模型，参数超13亿
在120万张X光片和临床专家元数据上训练1.6万亿tokens

模型定价

相关主题

模型定价动态

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

AI基础设施建设构成最新通胀威胁

对人工智能的思考

AINews：今日平静，模型发布潮后的小憩

2026年初AI订阅服务削减配额并提价

韩国芯片制造商SK海力士借AI热潮在美上市募资265亿美元

GPT-5.6 正式发布：Sol、Terra 和 Luna 三款模型

Meta超级智能实验室发布Muse Spark 1.1：专为智能体任务打造的多模态推理模型，现已登陆Meta Model API

Show HN：出售闲置AI积分或半价购买Claude积分

Palo Alto CEO Arora称AI定价需下降90%，代币成本飙升

OpenAI 发布 GPT-5.6（Sol、Terra、Luna）：三层级模型家族，Responses API 集成程序化工具调用

OpenAI的GPT-5.6和ChatGPT Work旨在在价格、速度和生产力上超越Anthropic

GPT-5.6 Sol (max) 基准测试结果

Grok 4.5 基准测试结果

SpaceXAI发布Grok 4.5：收购Cursor后首款Opus级模型

SpaceXAI发布Grok 4.5：与Cursor联合训练的编码、代理任务和知识工作模型，输入价格每百万tokens仅2美元

初创公司聚焦：Sourcerer 希望通过 AI 采购成为供应商

开放、便捷且可预测：推出预留吞吐量功能

‘绝对疯狂’：旧金山住宅因人工智能热潮以高于要价100万美元售出

中国AI模型凭借成本优势在美国企业中的采用率上升

OpenAI发布GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用于API中的低延迟语音代理

评估电力价格预测的时间序列基础模型：污染风险、分布偏移和协变量依赖性

专为亚马逊卖家设计的AI产品摄影套件

芯片制造商敦促白宫避免对内存市场进行广泛干预

TokenScope：面向大型语言模型代码任务的词元级可解释性与可分析性工具

特朗普重新设计所有.gov网站的计划导致AI恐怖作品

5个无需头疼即可构建应用的AI编码平台

Claude Sonnet 5：强大的代理性能，但每任务成本更高

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

Claude Sonnet 5 新特性解析

Claude Sonnet 5 – 基准测试结果

在AWS上推出Claude Sonnet 5：Anthropic最强的Sonnet模型

OpenAI、Anthropic、Google——6个月内14次定价变动，大多数团队都忽略了

Kilo中的Next-Edit：由Inception扩散LLM驱动

低成本中国AI模型如DeepSeek在美国受到青睐

为什么苹果要我为大科技公司的AI狂热买单？

Show HN: Tested – 由LLM专家组（Claude、GPT、Gemini、Grok）评分的AI工具

OpenAI 预览 GPT-5.6：Sol、Terra 和 Luna 分层模型，新增推理模式，限量访问

AI模型目录（比较用）

深度代理的提示缓存

OpenAI 预览 GPT-5.6 系列：Sol、Terra 和 Luna

OpenAI发布GPT-5.6，正值美国AI监管争议之际

当前大语言模型成本为何不可持续

MacroLens：宏观经济场景下的多任务上下文金融推理基准研究

OpenAI与博通推出AI推理芯片

Mistral OCR 4 发布：突破性的文档理解模型

Abacus AI 的 ChatLLM 评测：为日常工作打造的多模型 AI 工作空间

我用AI搭建了一个实时交易平台，然后时钟开始说谎

Show HN：为AI辅助创意作品添加时间戳和出处记录

使用整流流变压器扩展胸部X光片生成基础模型

更多增长标签

AI 编程

MCP

开源模型

推理成本

Agent 框架

中国 AI

GPU 基础设施

DeepSeek

Qwen