2026-07-03 04:29 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 04:34 UTC+8

AI #175：寓言繼續

Fable迴歸，僅中斷數週。這一事件引發了出口管制和模型下架的爭議，GPT-5.6仍懸而未決。本週AI新聞涵蓋語言模型的各類應用與侷限、遠端勞動指數因Fable大幅上升、AI代理的“員工效應”問題，以及多項新模型與基準測試。

來源Hacker News AI作者: paulpauper

Zvi Mowshowitz 在最新一期 AI 週報中宣佈，Fable 已經迴歸。僅僅中斷幾周後，這款備受關注的模型再次上線。這無疑是好訊息，但此前的事件仍然留下了深遠影響。

報道指出，那次短暫的關閉暴露了當前體系的脆弱性：美國政府可以在誤解的基礎上，僅憑 90 分鐘通知就動用出口管制或強制下架模型。為了回應 Amazon 的“小型演示”並安撫政府，部分額外的、可能適得其反的限制措施已經實施。與此同時，GPT-5.6 依然處於懸而未決的狀態，而 OpenAI 正在討論拿出 5% 的公司股份作為“貢品”。

本週的 AI 新聞涵蓋廣泛。在語言模型的日常應用方面，UpDoc 宣佈了首個 FDA 批准的臨床 AI 平臺，可在醫生監督下直接調整藥物、開具化驗單和記錄干預措施。Tyler Cowen 則探討了將 AI 用於探索性科學，包括數日連續工作以生成和評估假設。此外，利用 AI 無人機進行大規模造林，兩人每天可覆蓋 50 公頃，效率提升 25 倍。

然而，並非所有應用都受歡迎。Google 正在為 Pixel 手機開發“音訊記憶”功能，該功能作為永久後臺服務全天候監聽周圍聲音。雖然 Google 聲稱所有處理都在裝置端完成，但隱私專家警告，一旦手機被入侵或扣押，本地資料仍可能洩露。

在模型能力方面，語言模型仍存在諸多侷限。例如，將查詢路由到較簡單模型的預分類方法往往低估非數學/編碼任務的難度，導致任務分配不當。Ethan Mollick 指出，非可驗證任務（如創新、營銷、定性分析）通常從更智慧的模型中獲益更多，但路由系統往往未能正確分配。

升級方面，GLM-5.2 在 B300 上的處理速度已達到每秒 392 個 token，成本為每百萬輸入 token 1.40 美元、輸出 4.40 美元。Nana Banana 2 Lite 作為 Gemini 的高價效比影像模型問世，Claude Desktop 也終於登陸 Linux。

遠端勞動指數因 Fable 取得巨大飛躍。據安全中心（CAIS）新資料，Claude Fable 5 現能完成 16.1% 的專業級遠端專案，幾乎是次優模型的兩倍，較 Opus 4.6 的 4.2% 大幅提升。Dan Hendrycks 指出，遠端專案自動化率在過去五個月增長了約 4 倍。

關於 AI 代理，研究顯示它們對“提示”的反應與人類相似。一些公司正嘗試將 AI 視為“員工”，但產生了意想不到的問題：管理者更信任 AI 產出，且不為其錯誤負責。研究者建議，企業應讓管理者直接對 AI 下屬的錯誤負責。

其他新聞包括：OpenAI 釋出 GeneBench-Pro 基準測試（129 個問題，涵蓋 10 個領域），BioSecBench-Refusal 評估模型在合法生物任務中的拒答率，以及 Cursor 報告模型在基準測試中透過聯網“作弊”的現象。

最後，文章還涉及 NVIDIA 的報復行動、Super Micro 被突擊搜查，以及公眾對 AI 的持續反感。