Show HN: Tested – 由LLM專家組(Claude、GPT、Gemini、Grok)評分的AI工具
Tested是一個獨立的AI工具評測平臺,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、影像、影片等多個類別,提供透明分數和定價資訊。
- 使用四個LLM代理獨立評分,確保排名公正
- 覆蓋AI聊天、編碼、影像、影片等12個類別
Community discovery source; link to original story.
Tested是一個獨立的AI工具評測平臺,使用四個頂級LLM(Claude、GPT、Gemini、Grok)作為評審團,對40多種AI工具進行打分,避免付費排名。覆蓋聊天機器人、編碼、影像、影片等多個類別,提供透明分數和定價資訊。
一份最新報告從底層重構了AI經濟,捕捉了每一美元的客戶需求,無重複計算。報告指出,AI經濟規模超過以往任何技術浪潮,但仍處於早期階段,目前僅能覆蓋基礎設施成本。未來取決於需求增長速度和每個token提供的實際智慧。
capframe.ai 釋出了一個 MCP 伺服器安全排行榜,基於確定性規則引擎對 87 個已釋出的 MCP 伺服器進行評分。滿分 100 分,每個嚴重發現扣 10 分,高嚴重性扣 4 分,中等扣 2 分,低扣 1 分。排行榜顯示了多個獲得滿分 100 的伺服器(如 magicnpm、Cloudflare MCP 等),同時也揭示了多個伺服器存在中等或高嚴重性問題,包括未限制字串輸入長度、缺少副作用宣告等。
本指南介紹瞭如何使用@ai-sdk/mcp和@ai-sdk/react構建MCP應用程式主機,包括過濾模型可見的工具、讀取ui://資源以及在沙箱化iframe中渲染互動式工具UI。
Best Photo Picker 是一款完全本地執行的開源照片管理工具,利用 AI 對照片的清晰度、曝光度、人臉和構圖進行評分,幫助使用者從海量照片中快速篩選出最佳作品。無需上傳任何資料到雲端,支援人臉識別、智慧去重、時間多樣性平衡等功能,並提供 Web 介面和 macOS 原生應用。
Moss是一個亞10毫秒語義搜尋執行時,專為對話式AI代理設計。它透過將搜尋和嵌入嵌入到應用程序中,消除了對遠端向量資料庫的需求,從而將查詢延遲降至個位數毫秒。支援混合檢索、內建嵌入、後設資料過濾,並提供Python、TypeScript、Elixir、C等SDK,以及LangChain、LlamaIndex等框架整合。基準測試顯示,在10萬文件上,Moss的P50延遲為3.1毫秒,而Pinecone為432.6毫秒。
美國政府批准Anthropic向約100家公司和聯邦機構釋出其Mythos 5模型,結束了為期兩週的國家安全爭議。
本文介紹了一個基於Python的開源AI音訊翻譯器,利用Telnyx API實現語音識別、大語言模型翻譯和文本轉語音的完整流程。使用者可上傳音訊檔案,獲得翻譯後的音訊和對齊的轉錄文本。
AI運營業務指數(ARBI)是一個新的0–100計量指標,評估AI在業務中的深度執行,而不僅僅是是否被採用。儘管AI採用率達到88%,但只有約6%的企業從中獲得實際利潤,ARBI揭示了主流經濟(約30分)與AI原生前沿(約80分)之間50分的執行力差距。該指數權重側重於自動化深度、價值捕獲和收入槓桿,幷包含可靠性懲罰。
一款集語言學習、作業輔導、螢幕助手和聊天功能於一體的人工智慧桌面寵物。它繼承了Shimeji等桌面吉祥物的傳統,並融入了即時AI功能。目前正在尋找亞洲聯合創始人。
蘋果調整Apple Silicon釋出時間表,計劃2026年底釋出入門級M6晶片,但取消M6 Pro和M6 Max,轉而開發M7系列。M7晶片將專注於AI和GPU密集型任務,首款M7晶片預計2027年上半年推出。M5 Ultra可能於2026年底釋出。
AI 已能處理長期編碼任務,如 Claude Opus 4.7 用 14 小時、251 美元復現了包含 16000 行程式碼和 40+ 命令的生物資訊學工具 gotree。但 MirrorCode 基準測試滿分僅 56%,仍有提升空間。模型效能隨時間快速提升,但存在資料汙染問題。專案開源了 22/25 個目標程式。
注重隱私的搜尋引擎DuckDuckGo在其AI生成的搜尋結果中錯誤地聲稱唐納德·特朗普總統因副總統J.D.萬斯傳染的狂犬病而去世。
Hush 是一個面向 AI 代理的秘密管理工具,它確保代理在執行時能使用 API 金鑰或令牌等秘密,卻永遠不會在對話記錄或輸出中看到秘密的明文。它透過作業系統金鑰鏈(如 macOS Keychain、Linux libsecret 和 Windows DPAPI)安全儲存秘密,並提供簡單的命令列介面來設定、生成和注入秘密。
Framesmith 1.7 是一個開源MCP伺服器,讓AI程式設計代理擁有視覺化畫布,在編寫程式碼之前就能勾畫、預覽UI設計。它提供質量評分面板、設計系統繼承、多斷點預覽等功能,支援多種MCP客戶端整合。
Linux基金會推出Akrites,這是一項協調行業計劃,旨在AI攻擊者利用漏洞之前,快速修復開源軟體中的漏洞。該計劃得到了多家大型科技和金融公司的支援,旨在透過提供單一協調流程,減少碎片化和維護者負擔。
一個提供全球AI模型和代理的許可證、定價與合規性資訊的目錄網站。
人工智慧的普及正面臨早期低潮,廣告鼓勵僱主停止僱傭人類、AI導致裁員、客服被聊天機器人取代、社交媒體充斥AI內容等問題引發批評。作家兼數字權利活動家科裡·多克託羅在新書中探討如何正確批評AI,並分析AI熱潮的驅動因素及保護措施。
本文探討了如何識別人類和AI在行動中是否選擇了善。作者提出三個指標:手段與目的(康德和克爾凱郭爾)、惡習與美德(亞里士多德)、淺思與深思(薩爾茨伯格和斯賓諾莎)。雖然善的本質難以定義,但這些指標可以幫助我們和AI在決策時保持正軌。
更大的上下文視窗雖然有用,但對於程式設計智慧體而言,連續性比上下文更重要。文章區分了上下文和記憶,指出檢索不足以解決問題,並介紹了Sigilix提出的記憶原生智慧體方法,該方法透過持久可信的底層儲存來繼承先前的決定和修正,從而避免每次從零開始。文章還討論了一個較小模型(Boreas)在記憶原生設定下如何勝過更強模型,以及記憶系統的潛在陷阱和設計原則。
本文探討了AI輔助軟體移植過程中產生的可發現證據,包括程式碼差異、註釋模式及移植軌跡,並分析了這些證據對軟體驗證和審計的影響。
Gartner指出,隨著AI程式設計代幣從按座位許可轉向按消費定價,開發者面臨成本急劇上升的問題,每月賬單可能高達2萬美元。缺乏成本控制工具和透明度,導致token消費激增卻未必帶來生產力提升。Gartner建議最佳化token消耗,採用上下文工程和模型路由策略。預測到2028年,AI程式設計成本將超過全球平均開發者薪資。
Weave Router是一個開源的智慧模型路由工具,可自動為每次請求選擇最佳AI模型,支援多種API格式,能降低40-70%的成本。
這款免費的GEO檢查器可檢測你的網站在ChatGPT、Claude、Perplexity和Gemini等AI搜尋引擎中的可見性,涵蓋7個技術層,包括llms.txt、結構化資料、服務目錄API等,並提供評分和改進建議。
本文透過社會製圖方法,分析了圍繞人工智慧的三種極化立場:技術樂觀主義的AI助威、全面拒絕的AI棄權,以及承認風險但尋求干預的AI戰略轉向。作者認為,放棄不等於道德清白,而參與也不等於認可,關鍵在於培養辨別力和約束力。
TickerPro 是一個AI輔助的股票研究終端,幫助投資者發現和分析美國股票。它由一對夫婦為簡化自己的研究流程而構建,提供個性化推薦、即時資料和敘事驅動分析,並針對標準LLM的不足進行了最佳化。
一份關於在開源專案中如何避免“AI垃圾”貢獻的檢查清單,涵蓋從理解專案到提交貢獻的完整流程,強調信任建立與高質量貢獻。
本文對比了四種AI閘道器在請求路徑上的執行時開銷,包括延遲、吞吐量、記憶體、CPU、冷啟動時間和映象大小。測試結果顯示,GoModel在幾乎所有指標上表現最優,而LiteLLM則因資源消耗巨大而成為短板。文章還討論了閘道器的開源中立性和對本地模型部署的影響。
布萊恩·馬錢特(Brian Merchant)推出播客《血染機器》(Blood in the Machine),首期探討AI行業花數億美元影響選舉。嘉賓莫莉·懷特(Molly White)介紹其新專案“科技影響力觀察”(Tech Influence Watch),追蹤AI和加密公司的政治資金。節目旨在記錄矽谷與AI產業的權力集中及全球抵制運動,每週報道工人、活動家和記者的聲音。
本指南詳細介紹瞭如何使用Quickchat AI Agent和Telegram Bot API構建一個能夠管理群組的AI機器人。機器人可以回答查詢、釋出公告、置頂訊息、禁言或封禁成員,並透過伺服器端許可權檢查確保只有管理員能執行破壞性操作。