Show HN: Tested – 由LLM专家组(Claude、GPT、Gemini、Grok)评分的AI工具
Tested是一个独立的AI工具评测平台,使用四个顶级LLM(Claude、GPT、Gemini、Grok)作为评审团,对40多种AI工具进行打分,避免付费排名。覆盖聊天机器人、编码、图像、视频等多个类别,提供透明分数和定价信息。
- 使用四个LLM代理独立评分,确保排名公正
- 覆盖AI聊天、编码、图像、视频等12个类别
Community discovery source; link to original story.
Tested是一个独立的AI工具评测平台,使用四个顶级LLM(Claude、GPT、Gemini、Grok)作为评审团,对40多种AI工具进行打分,避免付费排名。覆盖聊天机器人、编码、图像、视频等多个类别,提供透明分数和定价信息。
一份最新报告从底层重构了AI经济,捕捉了每一美元的客户需求,无重复计算。报告指出,AI经济规模超过以往任何技术浪潮,但仍处于早期阶段,目前仅能覆盖基础设施成本。未来取决于需求增长速度和每个token提供的实际智能。
capframe.ai 发布了一个 MCP 服务器安全排行榜,基于确定性规则引擎对 87 个已发布的 MCP 服务器进行评分。满分 100 分,每个严重发现扣 10 分,高严重性扣 4 分,中等扣 2 分,低扣 1 分。排行榜显示了多个获得满分 100 的服务器(如 magicnpm、Cloudflare MCP 等),同时也揭示了多个服务器存在中等或高严重性问题,包括未限制字符串输入长度、缺少副作用声明等。
本指南介绍了如何使用@ai-sdk/mcp和@ai-sdk/react构建MCP应用程序主机,包括过滤模型可见的工具、读取ui://资源以及在沙箱化iframe中渲染交互式工具UI。
Best Photo Picker 是一款完全本地运行的开源照片管理工具,利用 AI 对照片的清晰度、曝光度、人脸和构图进行评分,帮助用户从海量照片中快速筛选出最佳作品。无需上传任何数据到云端,支持人脸识别、智能去重、时间多样性平衡等功能,并提供 Web 界面和 macOS 原生应用。
Moss是一个亚10毫秒语义搜索运行时,专为对话式AI代理设计。它通过将搜索和嵌入嵌入到应用进程中,消除了对远程向量数据库的需求,从而将查询延迟降至个位数毫秒。支持混合检索、内置嵌入、元数据过滤,并提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架集成。基准测试显示,在10万文档上,Moss的P50延迟为3.1毫秒,而Pinecone为432.6毫秒。
美国政府批准Anthropic向约100家公司和联邦机构发布其Mythos 5模型,结束了为期两周的国家安全争议。
本文介绍了一个基于Python的开源AI音频翻译器,利用Telnyx API实现语音识别、大语言模型翻译和文本转语音的完整流程。用户可上传音频文件,获得翻译后的音频和对齐的转录文本。
AI运营业务指数(ARBI)是一个新的0–100计量指标,评估AI在业务中的深度执行,而不仅仅是是否被采用。尽管AI采用率达到88%,但只有约6%的企业从中获得实际利润,ARBI揭示了主流经济(约30分)与AI原生前沿(约80分)之间50分的执行力差距。该指数权重侧重于自动化深度、价值捕获和收入杠杆,并包含可靠性惩罚。
一款集语言学习、作业辅导、屏幕助手和聊天功能于一体的人工智能桌面宠物。它继承了Shimeji等桌面吉祥物的传统,并融入了实时AI功能。目前正在寻找亚洲联合创始人。
苹果调整Apple Silicon发布时间表,计划2026年底发布入门级M6芯片,但取消M6 Pro和M6 Max,转而开发M7系列。M7芯片将专注于AI和GPU密集型任务,首款M7芯片预计2027年上半年推出。M5 Ultra可能于2026年底发布。
AI 已能处理长期编码任务,如 Claude Opus 4.7 用 14 小时、251 美元复现了包含 16000 行代码和 40+ 命令的生物信息学工具 gotree。但 MirrorCode 基准测试满分仅 56%,仍有提升空间。模型性能随时间快速提升,但存在数据污染问题。项目开源了 22/25 个目标程序。
注重隐私的搜索引擎DuckDuckGo在其AI生成的搜索结果中错误地声称唐纳德·特朗普总统因副总统J.D.万斯传染的狂犬病而去世。
Hush 是一个面向 AI 代理的秘密管理工具,它确保代理在运行时能使用 API 密钥或令牌等秘密,却永远不会在对话记录或输出中看到秘密的明文。它通过操作系统密钥链(如 macOS Keychain、Linux libsecret 和 Windows DPAPI)安全存储秘密,并提供简单的命令行界面来设置、生成和注入秘密。
Framesmith 1.7 是一个开源MCP服务器,让AI编程代理拥有可视化画布,在编写代码之前就能勾画、预览UI设计。它提供质量评分面板、设计系统继承、多断点预览等功能,支持多种MCP客户端集成。
Linux基金会推出Akrites,这是一项协调行业计划,旨在AI攻击者利用漏洞之前,快速修复开源软件中的漏洞。该计划得到了多家大型科技和金融公司的支持,旨在通过提供单一协调流程,减少碎片化和维护者负担。
一个提供全球AI模型和代理的许可证、定价与合规性信息的目录网站。
人工智能的普及正面临早期低潮,广告鼓励雇主停止雇佣人类、AI导致裁员、客服被聊天机器人取代、社交媒体充斥AI内容等问题引发批评。作家兼数字权利活动家科里·多克托罗在新书中探讨如何正确批评AI,并分析AI热潮的驱动因素及保护措施。
本文探讨了如何识别人类和AI在行动中是否选择了善。作者提出三个指标:手段与目的(康德和克尔凯郭尔)、恶习与美德(亚里士多德)、浅思与深思(萨尔茨伯格和斯宾诺莎)。虽然善的本质难以定义,但这些指标可以帮助我们和AI在决策时保持正轨。
更大的上下文窗口虽然有用,但对于编程智能体而言,连续性比上下文更重要。文章区分了上下文和记忆,指出检索不足以解决问题,并介绍了Sigilix提出的记忆原生智能体方法,该方法通过持久可信的底层存储来继承先前的决定和修正,从而避免每次从零开始。文章还讨论了一个较小模型(Boreas)在记忆原生设置下如何胜过更强模型,以及记忆系统的潜在陷阱和设计原则。
本文探讨了AI辅助软件移植过程中产生的可发现证据,包括代码差异、注释模式及移植轨迹,并分析了这些证据对软件验证和审计的影响。
Gartner指出,随着AI编程代币从按座位许可转向按消费定价,开发者面临成本急剧上升的问题,每月账单可能高达2万美元。缺乏成本控制工具和透明度,导致token消费激增却未必带来生产力提升。Gartner建议优化token消耗,采用上下文工程和模型路由策略。预测到2028年,AI编程成本将超过全球平均开发者薪资。
Weave Router是一个开源的智能模型路由工具,可自动为每次请求选择最佳AI模型,支持多种API格式,能降低40-70%的成本。
这款免费的GEO检查器可检测你的网站在ChatGPT、Claude、Perplexity和Gemini等AI搜索引擎中的可见性,涵盖7个技术层,包括llms.txt、结构化数据、服务目录API等,并提供评分和改进建议。
本文通过社会制图方法,分析了围绕人工智能的三种极化立场:技术乐观主义的AI助威、全面拒绝的AI弃权,以及承认风险但寻求干预的AI战略转向。作者认为,放弃不等于道德清白,而参与也不等于认可,关键在于培养辨别力和约束力。
TickerPro 是一个AI辅助的股票研究终端,帮助投资者发现和分析美国股票。它由一对夫妇为简化自己的研究流程而构建,提供个性化推荐、实时数据和叙事驱动分析,并针对标准LLM的不足进行了优化。
一份关于在开源项目中如何避免“AI垃圾”贡献的检查清单,涵盖从理解项目到提交贡献的完整流程,强调信任建立与高质量贡献。
本文对比了四种AI网关在请求路径上的运行时开销,包括延迟、吞吐量、内存、CPU、冷启动时间和镜像大小。测试结果显示,GoModel在几乎所有指标上表现最优,而LiteLLM则因资源消耗巨大而成为短板。文章还讨论了网关的开源中立性和对本地模型部署的影响。
布莱恩·马钱特(Brian Merchant)推出播客《血染机器》(Blood in the Machine),首期探讨AI行业花数亿美元影响选举。嘉宾莫莉·怀特(Molly White)介绍其新项目“科技影响力观察”(Tech Influence Watch),追踪AI和加密公司的政治资金。节目旨在记录硅谷与AI产业的权力集中及全球抵制运动,每周报道工人、活动家和记者的声音。
本指南详细介绍了如何使用Quickchat AI Agent和Telegram Bot API构建一个能够管理群组的AI机器人。机器人可以回答查询、发布公告、置顶消息、禁言或封禁成员,并通过服务器端权限检查确保只有管理员能执行破坏性操作。