Agent

Agent动态

AI基于人类心理做空低价股

2026-07-13 05:03 UTC+8

Fade Engine是一个完全自主的AI系统，通过识别18种小盘股泡沫模式，在模拟账户中实时做空并公开每笔交易。系统在交易时段每五分钟扫描一次，收盘前平仓，所有记录公开透明。

Fade Engine是一个独立的AI系统，用于识别并做空过度拉伸的小盘股
系统在模拟的10,000美元账户上实时交易，所有交易公开

AI辅助研究的SETI家园

2026-07-13 04:45 UTC+8

本文提出将AI用户未使用的推理代币众筹用于科学研究，类比于SETI@home项目。讨论了小型团队利用AI解决数学问题的成功案例，以及众筹推理能力所需的设计挑战。

SETI@home曾利用家用电脑闲置算力分析外星信号。
如今，AI用户可将未使用的token配额贡献给集体研究。

循环工程指南：'自动研究'和'双层自动研究'如何将AI代理转变为自主机器学习ML研究循环

2026-07-13 04:07 UTC+8

本文介绍了循环工程的概念，即AI代理自主迭代实现目标，包含验证器、状态和停止条件三个关键部分。详细阐述了安德烈·卡帕西的自动研究循环和双层自动研究，展示了具体成果：自动研究在700次实验中找到20个改进，使GPT-2训练速度提升11%；双层自动研究通过外层元循环进一步实现了5倍的性能提升。还提供了可复用的构建块和实际操作模板。

循环工程用自主循环取代手动提示，循环包含验证器、状态和停止条件。
卡帕西的自动研究循环一夜运行700次实验，获得20个改进，训练速度提升11%。

AI的记忆。在你的机器上，由你掌控。

2026-07-13 03:44 UTC+8

exxperts 是一个本地优先的智能体运行时，提供持久的 AI 房间，带有受管控的、需审批的记忆功能。所有内容都在本地运行，数据以文件形式存储在你的磁盘上，确保隐私和控制权。它提供 Web 应用和 CLI/TUI 两种界面。

exxperts 提供持久 AI 房间，记忆写入需用户审批，用户完全控制 AI 的记忆。
所有数据都存储在本地，位于 ~/.exxperts 目录下，无遥测数据。

Kote：从AI聊天和Git中捕捉并重用工程上下文的开源工具

2026-07-13 02:56 UTC+8

Kote 是一款开源工具，自动捕捉开发者与 AI 助手的对话、Git 提交记录以及开发上下文，构建可搜索的知识库，帮助开发者快速回忆过去的技术决策和解决方案。支持 VS Code 扩展、GitHub 集成、CLI、浏览器扩展、WhatsApp/Telegram 消息集成等，可自托管部署。

Kote 被动捕捉 AI 会话、Git 活动等上下文，自动组织成知识库。
支持 VS Code CodeLens 显示文件相关笔记，提供 AI 摘要和时间线。

一步陷阱（人工智能研究中的常见错误）

2026-07-13 02:41 UTC+8

在人工智能研究中，一步陷阱是指错误地认为所有或大多数学习到的预测可以是一步预测，而长期预测可以通过迭代一步预测得到。虽然这种想法吸引人，但由于误差累积和计算复杂性问题，在实践中往往效果不佳。本文分析了这一陷阱及其危害，并提出了使用时间抽象模型（如选项和GVF）的解决方案。

一步预测的微小误差会在迭代过程中累积，导致长期预测严重失真。
在随机环境中，长期预测的计算复杂度随预测长度呈指数增长，难以实现。

反对实用性

2026-07-13 01:47 UTC+8

本文探讨了“无用”研究对未来创新的重要性。作者以Folk Computer系统为例，追溯了从施乐帕克到动态地的研究脉络，并呼吁资助那些尚未显现实用价值的范式级工作。

Folk Computer是一个开源物理计算系统，让整个房间成为计算机。
该系统源自艾伦·凯、布雷特·维克多等人的研究传统。

GPT-5.6、Fable 5和Grok 4.5根据同一规格重建Basecamp

2026-07-13 01:02 UTC+8

作者通过Basecamp基准测试评估了GPT-5.6 Sol、Fable 5、Grok 4.5等AI模型在构建前端和后端方面的表现。Fable 5在两个赛道上均获胜，Grok 4.5在速度和成本之间取得了最佳平衡。结果显示，即使是顶级模型在完成度上也有显著差异，尤其是最后10%的打磨工作。

Fable 5在前端和后端基准测试中均得分最高，接近真实Basecamp实现。
Grok 4.5以9.30美元的成本在37分钟内完成构建，速度成本比最优。

OpenAI的AI在AtCoder世界巡回赛决赛中击败所有人类选手

2026-07-13 00:54 UTC+8

OpenAI的AI系统在AtCoder世界巡回赛2026算法组中解出全部五道题，得分8300分，而人类最高分仅4300分。启发式组中，AI得分是人类最佳成绩的七倍以上。60万日元的“人类胜出奖”无人领取。该系统被比作即将发布的GPT-5.6。

OpenAI的AI解出所有五道算法题，得8300分，人类最高4300分
无人解出最难的C题和E题

AI智能照片编辑器：通过文字提示实现专业级图像编辑

2026-07-12 23:56 UTC+8

AI Photo Editor是一款免费在线工具，利用Nano Banana和GPT Image 2模型，通过简单文本提示实现专业级图像编辑。支持多种变换，包括风格迁移、颜色修改、人物转乐高等。提供从基础到专业的订阅计划，具有95%首次成功率、低于1秒生成速度、面部重构和角色一致性等特性。企业级安全认证（SOC 2、GDPR、ISO 27001），无需信用卡即可开始。

通过自然语言提示编辑图像，无需复杂操作。
95%首次尝试成功率，生成速度快于1秒。

Itara是一个开源项目，旨在将分布式系统的拓扑结构（组件、连接、传输方式、故障处理）从代码中分离出来，作为一个独立的、显式的、可验证且可执行的层。它通过一个启动时读取的配置文件和语言特定的接线代理实现，允许通过更改配置文件来改变组件之间的通信方式，而无需修改代码。项目提供Java和Rust的参考实现，并计划支持更多语言。工具生态包括验证、可视化等CLI命令。核心优势包括：将拓扑作为一等公民、可增量采用、跨语言支持、以及通过四个关键事件实现全面的可观测性。

Itara将分布式系统拓扑显式化，通过单一配置文件声明组件、连接和传输方式。
接线代理在启动时解析配置并建立连接，应用运行时零开销。

Linux of AI：减少AI供应商锁定的开源工具集

2026-07-12 22:52 UTC+8

Linux of AI是一个由七个开源项目组成的生态系统，旨在帮助组织构建可移植、可审计、可衡量且不依赖于单一供应商的人工智能基础设施。它通过提供便携式本体、策略代码、模型替换基准测试、审计日志、成本测量等工具，解决供应商锁定、成本不可预测、治理薄弱等问题。该项目采用MIT许可证，所有核心软件免费开源。

一个包含七个开源项目的生态系统，用于减少AI供应商锁定。
提供便携式本体、治理策略、模型替换、审计日志和成本测量工具。

完美命中错误目标：AI代码评审基准的故事

2026-07-12 22:40 UTC+8

本文深入分析了AI代码评审基准的局限性，指出其未能从第一性原理定义问题，忽略了AI代码评审已分化为人类理解和机器验证两个不同问题。作者Shrijith Venkatramana认为，基准衡量的是代理指标而非软件实际成果，并强调了生产结果和严重性的重要性。

AI代码评审基准看似客观权威，但缺乏对问题本质的深入定义。
AI代码评审实际包含两个不同问题：人类理解（优先级推荐）和机器验证（自动化修复）。

Show HN: 智能购物代理可读性分析器 - 检测AI购物代理能否读取您的商店

2026-07-12 22:30 UTC+8

AgentMint.net是一个研究出版物，帮助商家理解并优化AI购物代理如何选择商品。每个事实声明都有来源标注，并提供工具如'代理购物就绪度检查'和'代理选择信号数据库'。

AgentMint.net分析AI购物代理为何选择特定商店和商品。
所有事实声明均标明证据来源。

令人印象深刻的AI演示已死：真正进入生产的是什么

2026-07-12 20:19 UTC+8

AI项目在演示阶段后常常停滞。康fluent的2026年数据流报告显示，只有32%的组织将代理AI投入生产，数据基础设施和技能短缺是主要障碍。实时数据管道和治理对于生产级AI至关重要。

仅32%的组织报告代理AI已投入生产。
数据基础设施和质量是AI成功的主要障碍。

内存制造商受制于繁荣-萧条过山车

2026-07-12 19:09 UTC+8

AI数据中心需求推动内存制造商收入激增，但产能建设滞后可能导致长期高价，若AI需求未达预期，将面临严重衰退。

SK海力士、美光收入翻三倍，三星翻倍
高带宽内存和DDR5短缺推高价格

The Sequence Radar #893：上周AI动态：GPT-5.6、Grok 4.5、Muse Spark 1.1与后聊天机器人栈

2026-07-12 19:02 UTC+8

前沿AI实验室正从聊天机器人转向集成系统，模型作为运行时，频繁发布强大模型和代理。本周亮点包括OpenAI的GPT-5.6（Sol、Terra、Luna），具备程序化工具调用和并行子代理；GPT-Live全双工音频；ChatGPT Work用于创建工件；Meta的Muse Spark 1.1拥有百万token上下文和主动上下文管理；Grok 4.5专注于编码和知识工作。研究方面，OpenAI审计表明SWE-Bench Pro基准30%任务有问题；Anthropic提出GRAM方法可选择性移除危险知识；SkillOpt-Lite优化代理自我进化；DSpark和Nemotron-Labs-Diffusion改进推理效率。行业新闻包括Lovable融资3亿美元，Prime Intellect融资1.3亿美元，SambaNova融资10亿美元等。

OpenAI发布GPT-5.6，分为Sol、Terra、Luna，支持程序化工具调用和并行子代理。
GPT-Live实现全双工音频对话，从回合制转向连续交互。

科学家的副业？用AI和量子计算生成新型肽

2026-07-12 19:00 UTC+8

丹麦技术大学的研究团队将生成式AI模型与量子计算机结合，设计出能与特定蛋白质结合的新型肽，有望加速疫苗开发和个人化免疫疗法，尤其适用于研究不足的人群。

DTU团队使用AI-量子混合系统生成与蛋白质结合的新型肽。
量子集成改善了肽的生成，尤其在数据稀缺时效果显著。

AI代理即将改变支付运营

2026-07-12 18:59 UTC+8

本文讨论AI代理如何通过自动化任务、提高效率和减少错误来变革支付运营领域，并介绍了一个相关的Spotify播客节目。

AI代理正在进入支付运营领域
自动化可提高效率和准确性

Show HN: Runeward — 使用策略门控对AI代理进行沙盒隔离

2026-07-12 17:35 UTC+8

Runeward是一个开源工具，通过声明式配置文件为AI代理提供受治理的执行单元（基于Docker或Kubernetes）。它采用默认拒绝的出站规则、防篡改审计账本、人工介入策略门控以及成本/循环防护栏，支持REST、MCP、CLI和Web仪表板。与普通沙盒相比，它增加了策略执行、审计跟踪和成本控制等治理层。

Runeward为AI代理提供隔离沙盒，并默认拒绝出站网络，从而限制潜在损害。
其治理层包括防篡改的哈希链签名审计账本和人工审批门控。

Attestor：面向AI代理的零信任执行边界

2026-07-12 15:54 UTC+8

Attestor是一个开源的零信任执行边界工具，旨在为AI代理操作提供决策点和事后审计记录。它在代理执行前进行策略检查、审批验证和证据审查，返回准入、限制、审查或阻止等决策，并通过客户拥有的网关强制执行，适用于支付、数据访问、基础设施变更等多种场景。

Attestor在AI代理执行前提供策略检查、审批验证和证据审查，返回结构化决策。
支持影子模式观察代理风险而不实际执行，降低部署风险。

Agent 服务 – 可提示的 AI 代理，带有护栏和可下载包

2026-07-12 15:17 UTC+8

一个可提示的 AI 代理服务，提供安全护栏和可下载的软件包。

提供可提示的 AI 代理
包含安全护栏

AI应当构建自己的研究世界模型

2026-07-12 15:11 UTC+8

本文通过一个ARC-AGI谜题实验，展示了AI如何在没有规则的环境中自主探索、命名事物、发现数学结构并利用离线推理来高效解决问题。实验表明，显式的世界模型比仅依赖神经网络权重更有效。

AI在完全未知的环境中自主命名对象并记录规则，建立显式世界模型。
AI发现并抽象了P和Q两种操作，利用数学符号进行离线推演。

MSK——像CTO一样思考的AI代理

2026-07-12 14:27 UTC+8

MSK是一款基于iPhone的AI CTO代理应用，提供架构审查、扩展建议和创业策略服务。它模拟了拥有15年以上经验、参与过300多个项目、服务过50多家初创公司的首席技术官Moeid Saleem Khan的思维方式。用户可以通过聊天或语音方式咨询技术、架构、扩展、AI、招聘或产品策略等问题。应用免费试用，无需账户，并提供高级订阅服务。

MSK是一款AI CTO代理，提供按需的技术咨询和架构审查。
模拟真实CTO经验，支持聊天和语音模式。

AI笔记工具承诺轻松会议总结，但有人质疑其使用

2026-07-12 09:41 UTC+8

AI笔记工具能快速总结会议要点，但隐私和安全风险令人担忧。语音打印、数据存储和律师-客户特权问题凸显，专家建议谨慎使用并了解数据去向。

AI笔记工具将会议内容转化为数据，存在机密信息泄露风险。
语音打印可能被滥用，用于身份验证或欺诈。

Dismissive Dan 对 Overplane AI 编码工具的评测

2026-07-12 09:02 UTC+8

Overplane 是一款开源工具，将 Markdown 规范转化为代码，并通过 SMT 求解器进行验证。评测者 Dismissive Dan 对其实用性表示怀疑，认为许多开发者已有类似方案，但肯定了其打包和隔离设计。

Overplane 将规范文件转换为代码，使用 AI 代理和 Z3 求解器进行一致性检查。
评测者认为该工具并非创新，但为缺乏基础设施的团队提供了便利。

NVIDIA 基于 Tile 的 GPU 编程编码指南：从 cuTile 和 Triton 内核到 Flash Attention

2026-07-12 08:01 UTC+8

本教程通过 TileGym 探索 NVIDIA 的基于 tile 的 GPU 编程，构建一个可在不同硬件上运行的 Colab 工作流程。我们探测 CUDA 环境，尝试真实的 cuTile 后端，并在标准 Colab GPU 缺乏 cuTile 堆栈时回退到 Triton。我们学习核心 tile 思想：对整个数据块进行操作，而不是单个线程，然后加载、计算和存储它们。我们实现了向量加法、融合 GELU、行级 softmax、分块矩阵乘法和 flash attention，并将每个结果与 PyTorch 进行比较。

介绍 NVIDIA 的 tile 编程模型，将操作应用于数据块而非单个线程。
提供可运行的 Colab 脚本，支持 cuTile 和 Triton 后端。

修复三个Bug，让Qwen3.5-122B在Mac Studio上成为日常驱动

2026-07-12 06:54 UTC+8

作者在Mac Studio上运行Qwen3.5-122B模型时，遇到了三个导致缓存失效的bug，修复后对话预填充时间从几分钟降至亚秒级，大幅提升了长上下文场景下的使用体验。文章还讨论了模型选择、混合注意力机制以及性能指标的正确衡量方式。

Qwen3.5-122B模型在Mac Studio上因混合注意力架构导致前缀缓存频繁失效。
三个Bug分别涉及系统提示中的时间戳、中断时未保存回复以及检查点存储中的垃圾写入。

Show HN：AgentTransfer – 面向AI代理的开源文件传输工具（单一Go二进制文件）

2026-07-12 06:52 UTC+8

AgentTransfer 是一个为 AI 代理设计的开源文件传输工具，允许代理传输最大 5GB 的文件，发现对等体，并在空间中协调。它使用电子邮件作为控制平面，HTTPS 进行数据传输，代理注册无需人工干预。该工具是一个单一的 Go 二进制文件，可以自托管或使用托管实例。

AgentTransfer 使 AI 代理只需一个名称和 API 密钥即可传输最大 5GB 的文件。
功能包括自助注册、内容寻址存储、哈希验证和签名收据。

Mesh LLM：基于iroh的分布式AI计算

2026-07-12 06:38 UTC+8

Mesh LLM是一种新型分布式AI计算系统，通过iroh网络将多台机器的GPU和内存池化，提供一个OpenAI兼容的API。用户可以在本地或对等节点上运行模型，甚至将大型模型拆分到多台机器上。它解决了AI计算成本高、缺乏控制的问题，支持私有部署和公共网格，无需依赖中央服务器。

Mesh LLM将多台机器的GPU资源池化，提供统一的OpenAI兼容API
支持本地运行、路由到对等节点或拆分模型跨多台机器

AI与职位发布：从毁灭到创造？

2026-07-12 06:37 UTC+8

自2025年2月底Claude Code推出以来，美国软件开发职位发布增长了近15%，而整体职位发布下降了7%。AI高暴露职业的职位发布在经历2022-2026年的最大跌幅后，过去一年已出现最大反弹。反弹主要集中在高级和AI相关职位。

美国软件开发职位发布自Claude Code发布以来增长15%，整体市场下降7%。
AI高暴露职业在长期下跌后，过去一年反弹最为显著。

Token Time：AI 代理令牌的“屏幕使用时间”管理工具

2026-07-12 06:13 UTC+8

Token Time 是一款 macOS 菜单栏应用，实时追踪 AI 代理的令牌消耗和费用，并提供屏锁提醒帮助用户控制使用习惯。支持模型细分、本地运行，隐私安全。

实时菜单栏显示令牌数和当日花费
每百万吨（M）令牌触发全屏提醒

Anthropic移除隐藏代码：曾秘密追踪中国AI竞争对手

2026-07-12 05:27 UTC+8

Anthropic承认在Claude Code中隐藏了数月之久的隐写代码，用于检测中国AI实验室和未经授权的转售商，以防范模型蒸馏攻击。公司称已部署更强大的防护措施，并于7月1日移除该代码。此举引发了对透明度的质疑。

Anthropic在Claude Code中嵌入隐写代码，秘密识别中国AI实验室和转售商。
该实验始于3月，旨在防止账户滥用和模型蒸馏。

Show HN: BoundFlow – AI代理的开源控制平面

2026-07-12 05:07 UTC+8

BoundFlow 是一个开源控制平面，用于管理无人值守运行的 LLM 代理和工作流。它提供成本上限、审批门、自动模型切换、重试和回滚等功能，确保代理安全可靠地运行。

开源控制平面，专注于代理的运营层而非推理或提示框架。
支持成本上限、人工审批、自动模型降级和工作流自我修复。

我构建了TradingSpy：本地化、隐私优先的AI交易助手（首个开源版本）

2026-07-12 04:45 UTC+8

TradingSpy是一个开源的本地化AI交易研究工作站，集成市场热力图、新闻催化、策略生成、Backtrader回测和透明代理运行于一个Docker应用。它采用本地优先架构，所有数据存储在本地，无任何隐私担忧，支持多种LLM提供商和广泛的金融市场数据源，适合交易者和开发者进行策略研究、回测和信号分析。

本地优先架构，所有数据存储在本地，零数据隐私问题。
支持AI策略生成、自动回测和基准比较，可循环迭代优化。

我构建了一个免费工具来评估AI Agent输出（人工标注与LLM裁判）

2026-07-12 03:55 UTC+8

Verdict是一个开源、基于浏览器的工具，用于评估AI Agent的输出。它支持人工标注、扎根理论错误分析，以及将LLM裁判与人工标注进行验证，所有操作均在本地进行，数据不会离开您的机器。

Verdict完全在浏览器中运行，无需后端或账户。
支持多种追踪格式，并提供简洁的聊天时间线供审查。

Sovereign AgentOps – 为MCP代理提供自托管宪政AI治理

2026-07-12 03:52 UTC+8

Sovereign AgentOps社区版是一个开源自托管的MCP治理服务器，为AI代理提供Ed25519签名审计追踪、策略执行和离线部署能力。它提供7个演示工具，符合欧盟AI法案要求，商业企业版则拥有91个工具和高级合规功能。

Sovereign AgentOps是一个自托管的MCP治理服务器，为AI代理提供加密审计追踪。
社区版提供7个工具，支持策略执行、收据签名和工作空间限制，可离线部署。

Show HN: Wizard – 自扩展的Rust终端AI代理（一行安装）

2026-07-12 03:34 UTC+8

Wizard是一款自扩展的终端AI代理，基于Rust构建，只需一行命令即可安装。它能够在终端中智能执行任务，提升开发效率。

基于Rust构建的自扩展终端AI代理
一行命令即可安装

Show HN：MCP服务器信任指数

2026-07-12 02:57 UTC+8

一个为MCP服务器提供安全评分的系统，持续扫描工具投毒、提示注入、供应链和凭证风险，每个版本一个评分。目前已有12,629台服务器获得评分，其中45%获得A级评分，高风险的D/F级占10%。

超过12,600台服务器已评分，45%获A级
评分最高的服务器包括mockservercom（100分）和mcp-file-tools（99分）

研究发现AI小说因“愚蠢且糟糕”而易于检测

2026-07-12 02:53 UTC+8

马里兰大学与Google DeepMind的研究表明，AI生成的小说在叙事结构上存在明显缺陷，如过度解释主题、缺乏支线情节和生硬的说教，使其易于被检测。研究人员开发了StoryScope检测器，通过分析叙事特征来区分人机写作，并测试了多个AI模型。研究使用了争议性的Books3数据集，但未公开发布。

AI小说倾向于过度解释主题，77%的AI故事会明确说明寓意，而人类只有52%。
AI模型各有缺陷：GPT滥用梦境序列，Gemini偏好外部描述，Claude事件发展平淡。

物理AI规模化化学初创公司在大药企中获青睐

2026-07-12 02:53 UTC+8

本文介绍了Telescope Innovations公司如何通过其自主驾驶实验室（SDL）平台，利用物理AI解决制药和化工行业中的实验瓶颈，实现高效化学反应优化，并已获得辉瑞、韩国制药协会及欧洲制药公司的部署合同，同时拓展至电池材料回收领域。

Telescope Innovations的SDL平台实现了24/7自主化学实验，大幅提升效率并降低试剂消耗。
公司已获得辉瑞重复订单、韩国KPBMA基础设施合同及欧洲制药公司部署，验证商业可行性。

RAG评估框架对比：RAGAS vs TruLens vs DeepEval

2026-07-12 02:16 UTC+8

本文深入对比了三种主流的RAG评估框架：RAGAS、TruLens和DeepEval。文章首先阐述了RAG需要专门评估的原因，介绍了评估的三个层次（检索质量、生成质量、端到端质量）和关键检索指标（Precision@K、Recall@K、MRR、NDCG）。随后详细解析了RAGAS无需人工标注、利用LLM作为裁判的核心指标和自动测试集生成功能，以及TruLens专注于可观测性、通过日志记录和RAG三元组（上下文相关性、基础性、答案相关性）提供持续监控的能力。文章还简要提及DeepEval，并给出了选择框架的建议。

RAG系统需要专门评估，传统指标BLEU/ROUGE无法捕获检索与生成的失败模式。
RAGAS使用LLM裁判，无需参考答案即可评估忠実度、答案相关性等，并支持自动生成测试集。

值得构建的未来是人性化的

2026-07-12 01:56 UTC+8

本文主张人工智能应当延伸人类的意志和判断力，强调分布式知识、定制化和去中心化对齐，以确保AI服务于多样化的人类需求。

人工智能应延伸人类的意志和判断，而非取代。
知识是隐性的、局部的、分布式的；AI必须去中心化才能从中受益。

反向半人马是AI悖论的答案

2026-07-12 01:23 UTC+8

科里·多克托罗探讨了AI的悖论：为什么有些用户热爱它而另一些则憎恨它。他引入了'半人马'（人类借助AI）和'反向半人马'（人类充当AI的责任吸收器）的概念。他认为AI是一个即将破裂的泡沫，但像Whisper这样的开源模型将留下有益的残余。关键在于谁控制AI，而非技术本身。

当人类选择如何使用AI时，AI可以赋能（半人马）；当老板强加时，AI则变得压迫（反向半人马）。
赫斯特夏季阅读指南丑闻是反向半人马的典型例子，自由撰稿人被迫为AI的错误承担责任。

Show HN：独立版 SearXNG CLI+MCP（无需服务器）

2026-07-12 00:49 UTC+8

SearXNG AI Kit 是一款为终端、代码和 AI 助手设计的 AI 增强型命令行工具、Python 库和 MCP 服务器，支持超过 180 个搜索引擎，提供隐私保护的元搜索功能。

提供 CLI、Python 库和 MCP 服务器，支持 180+ 搜索引擎
支持 AI 聊天和高级研究功能，可配置输出格式

Agentation – 面向AI编程代理的可视化UI注释工具

2026-07-12 00:16 UTC+8

Agentation 是一款用于为AI编程代理提供可视化UI注释的工具。它允许用户通过点击界面元素添加注释，并生成包括CSS选择器、文件路径、React组件树和计算样式在内的结构化输出，使AI代理能够精确定位和修复问题。支持MCP集成，代理可以主动查询和响应注释，将反馈转变为双向对话。

通过点击UI元素添加注释，生成CSS选择器、文件路径、组件树等结构化信息
支持MCP集成，代理可主动查询、澄清和解决注释

免费AI可见性审计工具与代理

2026-07-11 23:59 UTC+8

这个免费工具可检查ChatGPT、Gemini、Claude、Perplexity、Grok和Google AI能否抓取、理解、验证和引用你的网站。报告涵盖全面站点抓取、品牌实体档案、声明级证据、AI意图覆盖、技术可抓取性、结构化数据、信任信号、竞争对手差距以及执行路线图，并附有电商、AI SaaS和B2B服务的案例。

免费审计工具评估AI系统对网站的可见性。
报告覆盖12个维度，包括技术、内容和信任信号。

2026年中AI模型分级

2026-07-11 23:43 UTC+8

作者从个人编码和审计经验出发，对2026年中的主流AI模型进行非正式分级，涵盖Anthropic Fable、OpenAI Sol、Mistral、Gemini和DeepSeek等模型，并融入美国出口管制和欧洲视角的评论。

Fable（Anthropic）被评为B级，虽然流畅但不可靠，常隐藏错误。
Sol（OpenAI）被评为S级，在低级代码和测试方面表现出色，值得信赖。

AI代理架构教育实验室

2026-07-11 23:33 UTC+8

一个基于LangChain和本地Ollama服务器的AI代理架构教育实验室，包含多种代理变体，涵盖聊天记忆、工具调用、RAG、混合和代理RAG等类别，每个变体均可独立运行CLI以研究其机制。

提供多种AI代理架构变体，涵盖聊天、工具调用、RAG和混合模式。
基于LangChain和本地Ollama服务器，支持OpenRouter。

我用AI智能体玩起了“外交”游戏

2026-07-11 23:24 UTC+8

一个GitHub仓库实现了由7个LLM驱动的AI智能体进行完整的外交游戏，涵盖谈判、指令提交和游戏回放。

每个移动阶段，AI智能体通过固定轮数的私人及全局消息进行谈判，然后提交指令。
架构模块化，可轻松切换引擎或LLM后端。

相关标签