Show HN: Tested – 由LLM專家組(Claude、GPT、Gemini、Grok)評分的AI工具
Tested是一個獨立的AI工具評測平台,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、圖像、視頻等多個類別,提供透明分數和定價信息。
- 使用四個LLM代理獨立評分,確保排名公正
- 覆蓋AI聊天、編碼、圖像、視頻等12個類別
Community discovery source; link to original story.
Tested是一個獨立的AI工具評測平台,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、圖像、視頻等多個類別,提供透明分數和定價信息。
一份最新報告從底層重構了AI經濟,捕捉了每一美元的客户需求,無重複計算。報告指出,AI經濟規模超過以往任何技術浪潮,但仍處於早期階段,目前僅能覆蓋基礎設施成本。未來取決於需求增長速度和每個token提供的實際智能。
capframe.ai 發佈了一個 MCP 服務器安全排行榜,基於確定性規則引擎對 87 個已發佈的 MCP 服務器進行評分。滿分 100 分,每個嚴重發現扣 10 分,高嚴重性扣 4 分,中等扣 2 分,低扣 1 分。排行榜顯示了多個獲得滿分 100 的服務器(如 magicnpm、Cloudflare MCP 等),同時也揭示了多個服務器存在中等或高嚴重性問題,包括未限制字符串輸入長度、缺少副作用聲明等。
本指南介紹瞭如何使用@ai-sdk/mcp和@ai-sdk/react構建MCP應用程序主機,包括過濾模型可見的工具、讀取ui://資源以及在沙箱化iframe中渲染交互式工具UI。
Best Photo Picker 是一款完全本地運行的開源照片管理工具,利用 AI 對照片的清晰度、曝光度、人臉和構圖進行評分,幫助用户從海量照片中快速篩選出最佳作品。無需上傳任何數據到雲端,支持人臉識別、智能去重、時間多樣性平衡等功能,並提供 Web 界面和 macOS 原生應用。
Moss是一個亞10毫秒語義搜索運行時,專為對話式AI代理設計。它通過將搜索和嵌入嵌入到應用進程中,消除了對遠程向量數據庫的需求,從而將查詢延遲降至個位數毫秒。支持混合檢索、內置嵌入、元數據過濾,並提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架集成。基準測試顯示,在10萬文檔上,Moss的P50延遲為3.1毫秒,而Pinecone為432.6毫秒。
美國政府批准Anthropic向約100家公司和聯邦機構發佈其Mythos 5模型,結束了為期兩週的國家安全爭議。
本文介紹了一個基於Python的開源AI音頻翻譯器,利用Telnyx API實現語音識別、大語言模型翻譯和文本轉語音的完整流程。用户可上傳音頻文件,獲得翻譯後的音頻和對齊的轉錄文本。
AI運營業務指數(ARBI)是一個新的0–100計量指標,評估AI在業務中的深度執行,而不僅僅是是否被採用。儘管AI採用率達到88%,但只有約6%的企業從中獲得實際利潤,ARBI揭示了主流經濟(約30分)與AI原生前沿(約80分)之間50分的執行力差距。該指數權重側重於自動化深度、價值捕獲和收入槓桿,幷包含可靠性懲罰。
一款集語言學習、作業輔導、屏幕助手和聊天功能於一體的人工智能桌面寵物。它繼承了Shimeji等桌面吉祥物的傳統,並融入了實時AI功能。目前正在尋找亞洲聯合創始人。
蘋果調整Apple Silicon發佈時間表,計劃2026年底發佈入門級M6芯片,但取消M6 Pro和M6 Max,轉而開發M7系列。M7芯片將專注於AI和GPU密集型任務,首款M7芯片預計2027年上半年推出。M5 Ultra可能於2026年底發佈。
AI 已能處理長期編碼任務,如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行代碼和 40+ 命令的生物信息學工具 gotree。但 MirrorCode 基準測試滿分僅 56%,仍有提升空間。模型性能隨時間快速提升,但存在數據污染問題。項目開源了 22/25 個目標程序。
注重隱私的搜索引擎DuckDuckGo在其AI生成的搜索結果中錯誤地聲稱唐納德·特朗普總統因副總統J.D.萬斯傳染的狂犬病而去世。
Hush 是一個面向 AI 代理的秘密管理工具,它確保代理在運行時能使用 API 密鑰或令牌等秘密,卻永遠不會在對話記錄或輸出中看到秘密的明文。它通過操作系統密鑰鏈(如 macOS Keychain、Linux libsecret 和 Windows DPAPI)安全存儲秘密,並提供簡單的命令行界面來設置、生成和注入秘密。
Framesmith 1.7 是一個開源MCP服務器,讓AI編程代理擁有可視化畫布,在編寫代碼之前就能勾畫、預覽UI設計。它提供質量評分面板、設計系統繼承、多斷點預覽等功能,支持多種MCP客户端集成。
Linux基金會推出Akrites,這是一項協調行業計劃,旨在AI攻擊者利用漏洞之前,快速修復開源軟件中的漏洞。該計劃得到了多家大型科技和金融公司的支持,旨在通過提供單一協調流程,減少碎片化和維護者負擔。
一個提供全球AI模型和代理的許可證、定價與合規性信息的目錄網站。
人工智能的普及正面臨早期低潮,廣告鼓勵僱主停止僱傭人類、AI導致裁員、客服被聊天機器人取代、社交媒體充斥AI內容等問題引發批評。作家兼數字權利活動家科裏·多克託羅在新書中探討如何正確批評AI,並分析AI熱潮的驅動因素及保護措施。
本文探討了如何識別人類和AI在行動中是否選擇了善。作者提出三個指標:手段與目的(康德和克爾凱郭爾)、惡習與美德(亞里士多德)、淺思與深思(薩爾茨伯格和斯賓諾莎)。雖然善的本質難以定義,但這些指標可以幫助我們和AI在決策時保持正軌。
更大的上下文窗口雖然有用,但對於編程智能體而言,連續性比上下文更重要。文章區分了上下文和記憶,指出檢索不足以解決問題,並介紹了Sigilix提出的記憶原生智能體方法,該方法通過持久可信的底層存儲來繼承先前的決定和修正,從而避免每次從零開始。文章還討論了一個較小模型(Boreas)在記憶原生設置下如何勝過更強模型,以及記憶系統的潛在陷阱和設計原則。
本文探討了AI輔助軟件移植過程中產生的可發現證據,包括代碼差異、註釋模式及移植軌跡,並分析了這些證據對軟件驗證和審計的影響。
Gartner指出,隨着AI編程代幣從按座位許可轉向按消費定價,開發者面臨成本急劇上升的問題,每月賬單可能高達2萬美元。缺乏成本控制工具和透明度,導致token消費激增卻未必帶來生產力提升。Gartner建議優化token消耗,採用上下文工程和模型路由策略。預測到2028年,AI編程成本將超過全球平均開發者薪資。
Weave Router是一個開源的智能模型路由工具,可自動為每次請求選擇最佳AI模型,支持多種API格式,能降低40-70%的成本。
這款免費的GEO檢查器可檢測你的網站在ChatGPT、Claude、Perplexity和Gemini等AI搜索引擎中的可見性,涵蓋7個技術層,包括llms.txt、結構化數據、服務目錄API等,並提供評分和改進建議。
本文通過社會製圖方法,分析了圍繞人工智能的三種極化立場:技術樂觀主義的AI助威、全面拒絕的AI棄權,以及承認風險但尋求干預的AI戰略轉向。作者認為,放棄不等於道德清白,而參與也不等於認可,關鍵在於培養辨別力和約束力。
TickerPro 是一個AI輔助的股票研究終端,幫助投資者發現和分析美國股票。它由一對夫婦為簡化自己的研究流程而構建,提供個性化推薦、實時數據和敍事驅動分析,並針對標準LLM的不足進行了優化。
一份關於在開源項目中如何避免“AI垃圾”貢獻的檢查清單,涵蓋從理解項目到提交貢獻的完整流程,強調信任建立與高質量貢獻。
本文對比了四種AI網關在請求路徑上的運行時開銷,包括延遲、吞吐量、內存、CPU、冷啓動時間和鏡像大小。測試結果顯示,GoModel在幾乎所有指標上表現最優,而LiteLLM則因資源消耗巨大而成為短板。文章還討論了網關的開源中立性和對本地模型部署的影響。
布萊恩·馬錢特(Brian Merchant)推出播客《血染機器》(Blood in the Machine),首期探討AI行業花數億美元影響選舉。嘉賓莫莉·懷特(Molly White)介紹其新項目“科技影響力觀察”(Tech Influence Watch),追蹤AI和加密公司的政治資金。節目旨在記錄硅谷與AI產業的權力集中及全球抵制運動,每週報道工人、活動家和記者的聲音。
本指南詳細介紹瞭如何使用Quickchat AI Agent和Telegram Bot API構建一個能夠管理羣組的AI機器人。機器人可以回答查詢、發佈公告、置頂消息、禁言或封禁成員,並通過服務器端權限檢查確保只有管理員能執行破壞性操作。