研究 — AI 主題新聞

研究動態

Show HN：AI主觀評估，AI打造的街機遊戲

2026-07-13 05:01 UTC+8

一個AI街機基準測試項目，讓多個編碼模型在相同限制下獨立創作遊戲，由玩家評判趣味性。

項目設置192×144像素、6鍵的街機平台，要求AI模型一次性生成可玩遊戲。
參與模型包括Grok 4.5、GPT-5.6-sol、Fable 5等，遊戲如Catacomb、Sky Shards、Forge。

愛思唯爾全球調查：3000名研究人員僅不到一半有足夠時間做研究，但認為AI可帶來變革

2026-07-13 04:38 UTC+8

愛思唯爾發佈《未來研究者》報告，基於對113個國家3200多名研究人員的調查，揭示研究人員面臨時間不足、資金壓力等挑戰，但AI工具採用率從2024年的37%躍升至58%。中國研究人員對AI的信心遠高於美國和英國。同時，研究人員的國際流動意願下降，但跨學科合作增加。

僅45%的研究人員有足夠時間做研究，68%表示發表壓力增大。
AI工具使用率從2024年的37%增至58%，但僅32%認為機構有良好AI治理。

循環工程指南：'自動研究'和'雙層自動研究'如何將AI代理轉變為自主機器學習ML研究循環

2026-07-13 04:07 UTC+8

本文介紹了循環工程的概念，即AI代理自主迭代實現目標，包含驗證器、狀態和停止條件三個關鍵部分。詳細闡述了安德烈·卡帕西的自動研究循環和雙層自動研究，展示了具體成果：自動研究在700次實驗中找到20個改進，使GPT-2訓練速度提升11%；雙層自動研究通過外層元循環進一步實現了5倍的性能提升。還提供了可複用的構建塊和實際操作模板。

循環工程用自主循環取代手動提示，循環包含驗證器、狀態和停止條件。
卡帕西的自動研究循環一夜運行700次實驗，獲得20個改進，訓練速度提升11%。

AI客户逐漸認同“小而美”的理念

2026-07-13 03:53 UTC+8

OpenAI和Anthropic致力於構建大型通用模型，但微軟等公司正轉向開發小型專用模型，以降低成本並提高效率。微軟的MAI模型家族正在取代OpenAI的模型，用於其產品中的AI功能。

微軟開發了MAI系列小型專用模型，正在取代OpenAI的通用模型。
小型模型在特定任務上更高效、更經濟，可部署多個實例。

Kote：從AI聊天和Git中捕捉並重用工程上下文的開源工具

2026-07-13 02:56 UTC+8

Kote 是一款開源工具，自動捕捉開發者與 AI 助手的對話、Git 提交記錄以及開發上下文，構建可搜索的知識庫，幫助開發者快速回憶過去的技術決策和解決方案。支持 VS Code 擴展、GitHub 集成、CLI、瀏覽器擴展、WhatsApp/Telegram 消息集成等，可自託管部署。

Kote 被動捕捉 AI 會話、Git 活動等上下文，自動組織成知識庫。
支持 VS Code CodeLens 顯示文件相關筆記，提供 AI 摘要和時間線。

反對實用性

2026-07-13 01:47 UTC+8

本文探討了“無用”研究對未來創新的重要性。作者以Folk Computer系統為例，追溯了從施樂帕克到動態地的研究脈絡，並呼籲資助那些尚未顯現實用價值的範式級工作。

Folk Computer是一個開源物理計算系統，讓整個房間成為計算機。
該系統源自艾倫·凱、佈雷特·維克多等人的研究傳統。

Soulless – Spotify上隱藏的AI藝術家名單

2026-07-13 01:46 UTC+8

Soulless是一個社區驅動的項目，旨在揭露Spotify上隱藏的AI生成音樂藝術家。該項目列出了232位被檢測為AI的藝術家，並公開了他們的月聽眾數和預估收入。此外，Soulless還提供了開源的AI音樂檢測工具，以及相關的資源列表，幫助人們識別AI生成音樂。

Soulless項目識別出232位AI生成的Spotify藝術家，並公開其月聽眾和收入數據。
檢測工具採用集成方法，融合SONICS頻譜圖模型和lofcz聲碼器指紋檢測。

GPT-5.6、Fable 5和Grok 4.5根據同一規格重建Basecamp

2026-07-13 01:02 UTC+8

作者通過Basecamp基準測試評估了GPT-5.6 Sol、Fable 5、Grok 4.5等AI模型在構建前端和後端方面的表現。Fable 5在兩個賽道上均獲勝，Grok 4.5在速度和成本之間取得了最佳平衡。結果顯示，即使是頂級模型在完成度上也有顯著差異，尤其是最後10%的打磨工作。

Fable 5在前端和後端基準測試中均得分最高，接近真實Basecamp實現。
Grok 4.5以9.30美元的成本在37分鐘內完成構建，速度成本比最優。

OpenAI的AI在AtCoder世界巡迴賽決賽中擊敗所有人類選手

2026-07-13 00:54 UTC+8

OpenAI的AI系統在AtCoder世界巡迴賽2026算法組中解出全部五道題，得分8300分，而人類最高分僅4300分。啓發式組中，AI得分是人類最佳成績的七倍以上。60萬日元的“人類勝出獎”無人領取。該系統被比作即將發佈的GPT-5.6。

OpenAI的AI解出所有五道算法題，得8300分，人類最高4300分
無人解出最難的C題和E題

AI與寫作的未來：作家圓桌討論對藝術的影響

2026-07-13 00:50 UTC+8

在一場圓桌討論中，作家與文化評論家探討了人工智能對語言、創造力和社會的深遠影響。他們指出，AI既增強了也削弱了語言能力，並可能清晰劃分機器與人類靈魂的界限。儘管存在焦慮，但AI也帶來了研究、可及性和診斷方面的機遇。

AI被視為一種去中心化技術，其進展之迅速如同從萊特兄弟到747客機。
作家發現AI既磨礪又鈍化語言能力，需要加倍投入閲讀和寫作訓練。

利用AI讓歷史講述銀行擠兑的故事

2026-07-13 00:40 UTC+8

研究人員編制了1863-1934年間超過3000次銀行擠兑的數據庫，發現大多數擠兑並未導致銀行倒閉，並分析了時空模式。

大多數銀行擠兑並未導致倒閉。
銀行擠兑在1873、1893、1907和大蕭條等重大危機期間激增。

Show HN: 智能購物代理可讀性分析器 - 檢測AI購物代理能否讀取您的商店

2026-07-12 22:30 UTC+8

AgentMint.net是一個研究出版物，幫助商家理解並優化AI購物代理如何選擇商品。每個事實聲明都有來源標註，並提供工具如'代理購物就緒度檢查'和'代理選擇信號數據庫'。

AgentMint.net分析AI購物代理為何選擇特定商店和商品。
所有事實聲明均標明證據來源。

印度塔塔諮詢服務公司計劃招募多達8900名AI部署工程師，尋求AI收購

2026-07-12 20:48 UTC+8

塔塔諮詢服務（TCS）計劃組建一支多達8900人的前沿部署工程師團隊，並尋求AI收購，押注AI將創造新業務而非破壞外包。CEO K·克里蒂瓦桑否認AI會顛覆外包模式，但AI收入增長從上一季度的28%放緩至13%。TCS每年投入約10億美元用於人才培養和AI普及。

TCS計劃將1%至1.5%的員工培養為前沿部署工程師，以加速AI採用
公司正在評估AI、數據安全和網絡安全領域的收購

SlimeBallBench · AI模型玩史萊姆足球

2026-07-12 20:36 UTC+8

SlimeBallBench是一個新的AI基準測試，讓AI模型在史萊姆足球遊戲中競技，評估其決策和策略能力。

SlimeBallBench測試AI在史萊姆足球遊戲中的表現
該基準評估AI的決策和策略制定能力

AI數據中心的鬥爭才剛剛開始

2026-07-12 20:00 UTC+8

近年來，AI數據中心因高能耗和環境問題引發廣泛抗議。從2015年蘋果在愛爾蘭的數據中心項目受阻，到如今美國各地社區反對新建項目，民眾、地方政府和國會都在採取行動。本文回顧了這場鬥爭的起源、現狀及未來走向。

2015年蘋果在愛爾蘭的數據中心計劃因居民抗議最終擱淺。
2026年第一季度，美國已有833個活躍抗議團體，至少75個項目被推遲或阻撓。

人工智能反彈波及大學：法學院學生被禁止使用筆記本電腦和手機

2026-07-12 19:25 UTC+8

芝加哥大學宣佈，從今年秋季開始，將在一年級法學院課堂上禁止使用手機、平板和筆記本電腦，以應對人工智能的衝擊，確保學生學會不依賴AI進行批判性和獨立性思考。同時，學校將推行AI韌性教學和倫理使用AI的課程。

芝加哥大學禁止一年級法學院學生在課堂上使用電子設備，旨在遏制AI依賴。
禁令於今年秋季生效，教授有權決定特定技術活動的設備使用。

科學家的副業？用AI和量子計算生成新型肽

2026-07-12 19:00 UTC+8

丹麥技術大學的研究團隊將生成式AI模型與量子計算機結合，設計出能與特定蛋白質結合的新型肽，有望加速疫苗開發和個人化免疫療法，尤其適用於研究不足的人羣。

DTU團隊使用AI-量子混合系統生成與蛋白質結合的新型肽。
量子集成改善了肽的生成，尤其在數據稀缺時效果顯著。

四分之一的長篇社交媒體帖子由AI生成

2026-07-12 18:58 UTC+8

一項新研究發現，社交平台上的長篇內容中，有25%完全由AI生成。領英（LinkedIn）和X平台尤為嚴重，分別有41%和25%的長篇帖子被檢測為AI生成。該研究由AI檢測平台Pangram進行，分析了超過100萬條帖子。

Pangram研究顯示，25%的長篇社交媒體帖子完全由AI生成。
領英上41%的長篇帖子為AI生成，X上為25%。

追求新技能、迴歸基礎、推動集體行動：軟件工程師如何適應人工智能

2026-07-12 18:00 UTC+8

曾經穩定高薪的軟件工程職業正受到人工智能的衝擊。工程師們通過學習新技能、專注於基礎知識和組織集體行動來適應。行業面臨裁員、就業不足以及從編寫代碼轉向審查AI生成代碼的變化。

人工智能正在改變軟件工程，谷歌75%的代碼現已由AI編寫。
像Matt這樣的工程師避免使用AI以保持技能，而George Dover等人則通過提升技能保持競爭力。

流行AI模型的政治中立性基準

2026-07-12 16:21 UTC+8

一項新的基準測試顯示，來自12個實驗室的18個AI模型的108個測量位置中，有97個位於左傾。結果呈現一致的進步傾向，但在經濟、外交政策和宗教方面存在例外。xAI的Grok模型最接近中心，而許多模型拒絕回答某些問題，影響了得分。

97/108的測量位置左傾
環境維度進步傾向最強（-0.82）

AI發現Linux內核漏洞，潛伏15年未被發現

2026-07-12 13:56 UTC+8

Nebula Security藉助AI工具VEGA發現Linux內核中存在15年的提權漏洞（CVE-2026-43499），可讓任何登錄用户獲取root權限。該漏洞自2011年起默認存在於幾乎所有主流發行版中，已在4月修復，但補丁分發不均。

Linux內核存在15年的use-after-free漏洞，影響所有主流發行版。
Nebula Security使用AI工具VEGA發現該漏洞，並獲得$92,337獎勵。

Dismissive Dan 對 Overplane AI 編碼工具的評測

2026-07-12 09:02 UTC+8

Overplane 是一款開源工具，將 Markdown 規範轉化為代碼，並通過 SMT 求解器進行驗證。評測者 Dismissive Dan 對其實用性表示懷疑，認為許多開發者已有類似方案，但肯定了其打包和隔離設計。

Overplane 將規範文件轉換為代碼，使用 AI 代理和 Z3 求解器進行一致性檢查。
評測者認為該工具並非創新，但為缺乏基礎設施的團隊提供了便利。

Mira Murati的Thinking Machines Lab提出基於可定製模型權重的以人為中心AI技術方案

2026-07-12 08:46 UTC+8

Thinking Machines Lab發佈報告《值得構建的未來以人為本》，主張AI應分佈式、可定製、由用户塑造。報告提出四個技術方向：訓練強多模態模型、提供用户微調工具、拓寬人機交互通道、開放研究。論證隱性本地知識要求AI分佈式，並通過Tinker API實現可擁有權重的LoRA微調。對比集中凍結AI，強調去中心化對齊。

Thinking Machines Lab提出以人為中心的AI技術方案，強調分佈式和可定製。
報告指出隱性、本地知識要求AI分佈式，而非集中凍結。

sqlite-utils 4.1 是 4.0 之後的第一個小版本，引入了多項新功能，包括通過 --code 選項允許用户在 insert 和 upsert 命令中直接嵌入 Python 代碼生成行數據，以及通過 --type 選項覆蓋列類型，支持對 CSV 或 TSV 中的郵政編碼等字段強制存儲為文本。此外，新增了 drop-index 命令和從標準輸入讀取查詢的功能。還添加了在 transform 中切換 STRICT 模式的能力。

引入 --code 選項，允許通過 Python 代碼生成行數據進行插入或更新
新增 --type 選項，用於在創建表時覆蓋列類型

從標準病理切片推斷腫瘤中的多細胞相互作用

2026-07-12 07:04 UTC+8

斯坦福醫學研究人員開發了一種人工智能平台，能夠從標準的腫瘤組織顯微切片中預測細胞鄰域，揭示腫瘤內細胞之間的複雜相互作用。該平台在非小細胞肺癌中識別出10種細胞鄰域，其中一種富含中性粒細胞的鄰域與較差的預後和免疫治療耐藥性相關。這項技術有望為癌症研究和臨牀決策提供新的工具。

斯坦福團隊開發了名為CANVAS的AI平台，可從H&E染色切片推斷腫瘤細胞鄰域。
通過對457名非小細胞肺癌患者的1800多萬細胞進行分析，確定了10種不同的細胞鄰域。

法學院禁止AI：歷史重演

2026-07-12 04:18 UTC+8

芝加哥大學法學院宣佈禁止一年級學生使用手機和筆記本電腦，引發關於AI在教育中角色的討論。本文回顧45年前哈佛法學院禁止便攜式計算機的歷史，指出技術恐懼的循環。作者分享個人經歷，強調工具變革如何改變工作方式，並質疑當前政策的合理性。

芝加哥大學法學院禁止一年級學生使用手機和筆記本電腦，引發爭議。
45年前哈佛法學院曾禁止便攜式計算機，理由類似。

AI意見分歧指數：8個模型對“最佳工具”的認同次數為0

2026-07-12 04:12 UTC+8

一個公開、嚴謹、持續更新的測量指標，記錄不同AI引擎在推薦B2B工具時的分歧程度。最新數據顯示，在16個類別中，8個AI模型從未就同一最佳工具達成一致，平均配對一致性僅為44%。該指數採用可復現的研究方法，每月更新，並提供原始數據。

在16個B2B軟件類別中，8個AI模型從未選出相同的單一最佳工具。
引擎間的平均配對一致性為44%，Fleiss' kappa係數為0.41，表明僅中等程度的一致。

我構建了一個免費工具來評估AI Agent輸出（人工標註與LLM裁判）

2026-07-12 03:55 UTC+8

Verdict是一個開源、基於瀏覽器的工具，用於評估AI Agent的輸出。它支持人工標註、紮根理論錯誤分析，以及將LLM裁判與人工標註進行驗證，所有操作均在本地進行，數據不會離開您的機器。

Verdict完全在瀏覽器中運行，無需後端或賬户。
支持多種追蹤格式，並提供簡潔的聊天時間線供審查。

RAG評估框架對比：RAGAS vs TruLens vs DeepEval

2026-07-12 02:16 UTC+8

本文深入對比了三種主流的RAG評估框架：RAGAS、TruLens和DeepEval。文章首先闡述了RAG需要專門評估的原因，介紹了評估的三個層次（檢索質量、生成質量、端到端質量）和關鍵檢索指標（Precision@K、Recall@K、MRR、NDCG）。隨後詳細解析了RAGAS無需人工標註、利用LLM作為裁判的核心指標和自動測試集生成功能，以及TruLens專注於可觀測性、通過日誌記錄和RAG三元組（上下文相關性、基礎性、答案相關性）提供持續監控的能力。文章還簡要提及DeepEval，並給出了選擇框架的建議。

RAG系統需要專門評估，傳統指標BLEU/ROUGE無法捕獲檢索與生成的失敗模式。
RAGAS使用LLM裁判，無需參考答案即可評估忠実度、答案相關性等，並支持自動生成測試集。

AI代理架構教育實驗室

2026-07-11 23:33 UTC+8

一個基於LangChain和本地Ollama服務器的AI代理架構教育實驗室，包含多種代理變體，涵蓋聊天記憶、工具調用、RAG、混合和代理RAG等類別，每個變體均可獨立運行CLI以研究其機制。

提供多種AI代理架構變體，涵蓋聊天、工具調用、RAG和混合模式。
基於LangChain和本地Ollama服務器，支持OpenRouter。

HoverSource：一鍵從像素到源文件

2026-07-11 23:24 UTC+8

HoverSource 是一款開發者工具，通過懸停並按下 Alt+C 即可獲取 UI 元素的源文件路徑和行號，大幅減少 AI 代理的探索步驟和令牌消耗。支持 React、Next.js 等多種框架，零配置。

只需懸停並按下 Alt+C，即可複製 UI 元素的源文件信息
與 AI 代理集成，減少 73.9% 的步驟和 94.5% 的令牌消耗

“Ghostcommit”將提示注入隱藏在圖片中，欺騙AI代理竊取秘密

2026-07-11 22:06 UTC+8

研究人員開發了一種惡意拉取請求，通過將惡意指令隱藏在PNG圖片中，誘騙AI代碼審查員通過審查，隨後編碼代理讀取圖片並竊取倉庫秘密。

攻擊利用AI代碼審查員不打開PNG圖片的漏洞，隱藏指令。
編碼代理讀取圖片後，會打開倉庫的.env文件並泄露密鑰。

Kairos Engine – 一種在策略造成實際損失前將其扼殺的量化驗證管道

2026-07-11 21:24 UTC+8

Kairos Engine 是一個端到端的量化研究平台，用於在外匯和貴金屬市場中尋找可盈利的交易信號。它通過隱馬爾可夫模型進行市場狀態分類，利用多個時間序列基礎模型組成預測集成，並結合真實經紀商成本模型進行嚴格回測驗證。該引擎的價值不僅在於批准一種策略，更在於拒絕那些無法通過檢驗的策略。

Kairos Engine 使用四狀態隱馬爾可夫模型和四個時間序列基礎模型進行市場狀態分類和預測。
該平台對XAUUSD的逐筆數據進行了為期一年的回測，包括221筆交易。

AI佔據三分之二的風險投資，你的勝率仍是六分之一

2026-07-11 20:26 UTC+8

2025年，AI公司佔據了美國風險投資額的65%，但大部分資金流向了大公司，小型種子輪融資反而縮減。文章分析了種子輪融資的成本、成功率（約六分之一）、以及是否應該融資的決策框架，並提供了融資策略和替代方案。

AI公司吸收了大量風險投資，但小型種子輪融資數量和金額均下降20%。
種子輪融資中位數需出讓20%股份，到A輪時創始團隊僅持有36%。

Show HN: 用於Google Chat的AI助手，翻譯任意文件並保留佈局

2026-07-11 20:00 UTC+8

AnyFile Translator 是一款AI翻譯助手，可在Google Chat中直接翻譯文件、網頁鏈接和文本，保留原始佈局和格式，支持超過100種語言。它還具備AI寫作功能，可生成並翻譯內容。適合國際團隊和全球客户使用。

翻譯PDF、Word、PPT等文件並保留佈局
支持100多種語言，可直接在聊天中使用

人工智能監控與社會進步

2026-07-11 19:33 UTC+8

人工智能監控系統將能夠跟蹤公共和私人行為，並立即執行規則，導致寒蟬效應，損害個人自由、民主和社會進步。本文探討了監控技術如何通過恐懼和順從抑制異議、創造力和創新，並呼籲採取政策行動。

AI監控系統結合人臉識別、數字跟蹤和數據庫，實現即時執法。
中國和美國等國家正在大規模部署AI監控，用於社會控制。

諾貝爾化學獎得主奧馬爾·亞吉加入清華大學領導AI材料實驗室

2026-07-11 18:14 UTC+8

2025年諾貝爾化學獎得主奧馬爾·亞吉離開美國，加入清華大學領導新的人工智能驅動研究中心，旨在利用AI加速材料設計與合成，應對水資源短缺、碳中和等環境挑戰。

亞吉將領導團隊探索AI如何變革材料設計與合成，大幅縮短研發週期。
他因金屬有機框架（MOFs）研究獲2025年諾貝爾獎，該材料具有超高表面積，可用於碳捕獲、空氣取水等。

文檔仍然在你媽媽的檔案櫃裏

2026-07-11 17:41 UTC+8

本文認為基於文件夾的傳統文檔管理已過時。它將文檔比作繼承自1970年代辦公室隱喻的檔案櫃，迫使知識被放入單一位置。AI檢索系統揭示了文件夾的侷限性，提倡通過連接的知識圖譜實現多路徑發現。

文檔的文件夾結構源於1970年代的辦公室隱喻，不符合知識的實際運作方式。
人們像覓食者一樣尋找信息，而非瀏覽層級，往往難以找到所需內容。

人類可讀但AI無法識別的字體

2026-07-11 17:36 UTC+8

Ghost Font是一種利用運動、噪聲和誘餌來隱藏文字的實驗性反AI字體，對人類可讀，但當前AI模型難以識別，包括Claude Fable和GPT Sol 5.6 Ultra。它通過視頻中的移動點來呈現信息，單幀截圖無法讀取，幷包含誘餌消息來誤導AI代理。

Ghost Font通過移動的點組成字母，視頻暫停時靜態點與背景融合，無法讀取。
高級AI模型如GPT Sol 5.6 Ultra分析19分鐘後仍產生幻覺。

幾分鐘內創建高轉化率的AI UGC廣告

2026-07-11 13:58 UTC+8

AIUGCAds.net 提供一個人工智能平台，可在幾分鐘內生成逼真的UGC風格視頻廣告，無需真人創作者、拍攝或剪輯。該平台服務於電商店鋪、代發商、DTC品牌、營銷機構及平台賣家，支持從產品鏈接或圖片生成帶有AI演員、配音和產品演示的廣告視頻。

利用AI在2分鐘內生成UGC視頻廣告，無需僱傭創作者或拍攝。
提供100+逼真的AI演員和多種語言、口音的配音。

Krbn：一款鉛筆風格3D渲染器，輸出SVG

2026-07-11 13:51 UTC+8

Krbn是一個基於網絡的引擎，用於非真實感的鉛筆風格渲染，專為抽象和技術場景設計。它通過分析幾何體生成筆觸，而非傳統的光柵化，支持精確的輪廓線、隱藏線處理、交叉陰影線等功能。該項目使用TypeScript編寫，採用MIT許可證，並利用AI輔助開發。

Krbn是一個鉛筆風格3D渲染器，輸出SVG格式。
它使用解析方法計算輪廓和隱藏線，而非基於像素的渲染。

關於人工智能在同行評審中我們尚未進行的對話

2026-07-11 13:36 UTC+8

本文探討了人工智能在學術同行評審中應用的重要但常被忽視的議題，引用Christian Bird的研究觀點，分析了AI輔助評審的潛在利弊。

AI在同行評審中的應用日益增加，但相關討論不足
Christian Bird的研究關注AI評審的公平性和準確性

管理小型本地AI預算（Mac M2 16GB）

2026-07-11 12:17 UTC+8

本文介紹了millfolio如何通過混合標籤系統高效處理本地AI推理：使用確定性字符串和引用標籤覆蓋大多數交易，僅對模糊尾部使用設備端AI標籤。標籤在索引時計算一次並存儲，查詢時不重複運行。回填使用批處理、去重和優先級調度器以避免過載。性能數據顯示每個不同描述約650ms，有效行速8.5行/秒。系統包含預覽機制，用户可在保存前驗證標籤效果。

millfolio使用三種標籤類型：字符串、引用和AI標籤，僅對不確定情況使用AI。
標籤僅計算一次並存儲，實現快速查詢而不重新運行AI。

Aicon Solutions：打造AI增強的思維工具的產品工作室

2026-07-11 11:22 UTC+8

Aicon Solutions 是一家專注於構建 AI 增強型思維工具的小型產品工作室，幫助用户在不確定的環境下思考、決策和行動。他們強調“增強而非替代”、“本地優先、尊重數據”，並已推出 nodx、LaoMOS 和 Still Employed? 等產品。

Aicon Solutions 打造 AI 增強的思維工具，優化思考而非產出。
已推出決策思考工作空間 nodx、多智能體協調系統 LaoMOS 以及趣味簽到應用 Still Employed?。

選擇正確的AI智能體記憶策略：決策樹方法

2026-07-11 08:43 UTC+8

學習如何使用決策樹方法為AI智能體選擇合適的記憶策略，將信息分類為工作記憶、語義記憶、情景記憶或程序記憶層。

AI智能體的記憶策略應經過精心設計，而非事後考慮。
一個包含五個問題的決策樹有助於將信息分類到正確的記憶層：工作、語義、情景或程序記憶。

哪種“AI科學家”適合你的實驗室？一份困惑者指南

2026-07-11 07:58 UTC+8

本文探討了多種專為科學研究設計的AI工具，如Anthropic的Claude Science、Google DeepMind的Co-Scientist和開源平台Biomni。這些工具能加速基因組分析、假設生成和實驗設計等任務。科學家分享了使用經驗，並建議研究人員多嘗試不同工具，從小任務開始驗證輸出，同時保持謹慎。

Anthropic發佈Claude Science平台，專注於生物學研究。
Google DeepMind的Co-Scientist通過挖掘文獻提出科學假設。

以太坊部署AI代理尋找漏洞，發現libp2p安全問題

2026-07-11 07:09 UTC+8

以太坊基金會協議安全團隊使用多個AI代理協調工作，成功發現libp2p gossip子協議中的一個可遠程觸發的panic漏洞（CVE-2026-34219）。真正的挑戰不是找到漏洞，而是從大量AI生成的候選結果中區分真實漏洞與虛假警報，這凸顯了人工判斷在安全審計中的關鍵作用。

以太坊基金會使用AI代理協同工作，發現libp2p的核心組件漏洞
大部分AI生成的候選結果是誤報或重複，需要嚴格驗證流程

將生產AI代理遷移至GPT 5.6

2026-07-11 04:40 UTC+8

Ploy公司將其AI代理從Claude Opus 4.8遷移至OpenAI新發布的GPT-5.6 Sol，獲得了速度提升2.2倍、成本降低27%以及視覺評分提高的成績。遷移過程中遇到了工具調用參數填充、提示緩存機制差異和推理重放等問題，並通過一系列工程優化得以解決。

GPT-5.6 Sol在完成時間、成本和視覺評分上均優於Claude Opus 4.8
遷移中遇到工具調用參數全量填充問題，通過架構變換解決

AI獲得小腦：新型憶晶體管實現高效異常檢測

2026-07-11 03:16 UTC+8

西北大學研究人員受小腦啓發，開發出一種新型憶晶體管，能以極低能耗快速檢測異常事件。在實驗中，該設備僅用五分之一個心跳時間就識別出心律失常，準確率超98%，能耗僅為傳統AI的萬分之一。

小腦啓發的新型憶晶體管僅關注意外事件，大幅降低能耗
在心律失常檢測中，設備在毫秒內以98%準確率識別異常

OpenWiki Brains：AI代理的主動記憶框架

2026-07-11 00:46 UTC+8

OpenWiki Brains 是 LangChain 推出的新框架，通過連接 Gmail、Notion、Git 等多種來源，為 AI 代理提供主動的 Wiki 式記憶，並自動更新本地 Wiki。

OpenWiki Brains 將外部信息轉化為代理可用的本地 Wiki 記憶。
支持個人大腦（Personal Brain）和代碼大腦（Code Brain）兩種模式。

研究

相關標籤