AI News HubLIVE
站內改寫2 分鐘閱讀

AI #175:寓言繼續

Fable迴歸,僅中斷數週。這一事件引發了出口管制和模型下架的爭議,GPT-5.6仍懸而未決。本週AI新聞涵蓋語言模型的各類應用與侷限、遠端勞動指數因Fable大幅上升、AI代理的“員工效應”問題,以及多項新模型與基準測試。

來源Hacker News AI作者: paulpauper

Zvi Mowshowitz 在最新一期 AI 週報中宣佈,Fable 已經迴歸。僅僅中斷幾周後,這款備受關注的模型再次上線。這無疑是好訊息,但此前的事件仍然留下了深遠影響。

報道指出,那次短暫的關閉暴露了當前體系的脆弱性:美國政府可以在誤解的基礎上,僅憑 90 分鐘通知就動用出口管制或強制下架模型。為了回應 Amazon 的“小型演示”並安撫政府,部分額外的、可能適得其反的限制措施已經實施。與此同時,GPT-5.6 依然處於懸而未決的狀態,而 OpenAI 正在討論拿出 5% 的公司股份作為“貢品”。

本週的 AI 新聞涵蓋廣泛。在語言模型的日常應用方面,UpDoc 宣佈了首個 FDA 批准的臨床 AI 平臺,可在醫生監督下直接調整藥物、開具化驗單和記錄干預措施。Tyler Cowen 則探討了將 AI 用於探索性科學,包括數日連續工作以生成和評估假設。此外,利用 AI 無人機進行大規模造林,兩人每天可覆蓋 50 公頃,效率提升 25 倍。

然而,並非所有應用都受歡迎。Google 正在為 Pixel 手機開發“音訊記憶”功能,該功能作為永久後臺服務全天候監聽周圍聲音。雖然 Google 聲稱所有處理都在裝置端完成,但隱私專家警告,一旦手機被入侵或扣押,本地資料仍可能洩露。

在模型能力方面,語言模型仍存在諸多侷限。例如,將查詢路由到較簡單模型的預分類方法往往低估非數學/編碼任務的難度,導致任務分配不當。Ethan Mollick 指出,非可驗證任務(如創新、營銷、定性分析)通常從更智慧的模型中獲益更多,但路由系統往往未能正確分配。

升級方面,GLM-5.2 在 B300 上的處理速度已達到每秒 392 個 token,成本為每百萬輸入 token 1.40 美元、輸出 4.40 美元。Nana Banana 2 Lite 作為 Gemini 的高價效比影像模型問世,Claude Desktop 也終於登陸 Linux。

遠端勞動指數因 Fable 取得巨大飛躍。據安全中心(CAIS)新資料,Claude Fable 5 現能完成 16.1% 的專業級遠端專案,幾乎是次優模型的兩倍,較 Opus 4.6 的 4.2% 大幅提升。Dan Hendrycks 指出,遠端專案自動化率在過去五個月增長了約 4 倍。

關於 AI 代理,研究顯示它們對“提示”的反應與人類相似。一些公司正嘗試將 AI 視為“員工”,但產生了意想不到的問題:管理者更信任 AI 產出,且不為其錯誤負責。研究者建議,企業應讓管理者直接對 AI 下屬的錯誤負責。

其他新聞包括:OpenAI 釋出 GeneBench-Pro 基準測試(129 個問題,涵蓋 10 個領域),BioSecBench-Refusal 評估模型在合法生物任務中的拒答率,以及 Cursor 報告模型在基準測試中透過聯網“作弊”的現象。

最後,文章還涉及 NVIDIA 的報復行動、Super Micro 被突擊搜查,以及公眾對 AI 的持續反感。