LWiAI播客第245期 - TML交互、法律界Claude、Sam Altman出庭
本期播客總結了上週AI領域的重要新聞,包括OpenAI發佈新的語音智能API功能、Thinking Machines推出高響應實時交互模型、Anthropic進軍法律科技領域推出Claude for Legal、以及Sam Altman在庭審中的表現等話題。
在本期LWiAI播客中,主持人Andrey Kurenkov和Jeremie Harris深入探討了上週AI領域的多項重要進展,涵蓋了從API更新到模型發佈、從法律科技到灰色市場交易等多個方面。
首先,OpenAI發佈了新的語音智能API功能,其中包括基於GPT-5的GPT Realtime 2、實時翻譯和Whisper轉錄。這些功能強調了延遲與推理能力之間的權衡,並引入了更大的上下文窗口(高達256K tokens)以及新的安全護欄,旨在應對潛在的欺詐風險。OpenAI特別指出,這些API設計上允許開發者根據應用場景調整延遲和推理深度,例如在實時對話中追求低延遲,而在需要複雜推理的任務中則更注重準確性。此外,新功能還支持語音活動檢測和中斷處理,使得交互更加自然。
接着,Thinking Machines展示了一個低延遲、全雙工的對話系統,採用雙模型架構(一個用於實時處理,一個用於深度理解)和定製推理棧。該公司宣稱在交互性基準測試中取得了顯著成績,但目前尚未向公眾開放,也缺乏第三方獨立驗證。這一發布引發了關於實時AI交互可用性的討論,但需等待更多實際評估。
Anthropic繼續向垂直產品領域擴展,推出了Claude for Legal,這是一套專門針對法律行業的工具,包括合同分析、法律研究、案件摘要等功能。同時,Anthropic加深了與AWS的合作,在AWS上推出了Claude Platform,提供更便捷的模型訪問和部署選項。這一舉措加劇了平台模型提供商(如Anthropic和OpenAI)與應用層公司之間的生態系統緊張關係,因為前者開始直接提供面向特定行業的解決方案。
在政策與安全方面,OpenAI引入了自我傷害可信聯繫人功能,允許用户在ChatGPT中設置緊急聯繫人,當檢測到自我傷害風險時自動通知。Anthropic研究了通過訓練倫理“為什麼”推理來減少代理錯誤對齊,即讓模型在行動前解釋其道德理由,從而減少有害行為。OpenAI還調查了強化學習中意外對思維鏈(CoT)進行評分的問題,發現這可能導致模型過度優化中間推理步驟而忽略最終結果。Meta的地平線評估更新則顯示了長任務基準的侷限性,特別是對於需要長期規劃的任務,現有評估方法可能無法準確衡量模型能力。
其他話題包括:Sam Altman在法庭上的表現,他在一起有關AI安全訴訟中作證,雖然表現自信但可能不足以扭轉局勢;Nvidia CEO黃仁勳受邀與特朗普一同訪華,探討芯片合作;中國灰色市場通過被盜憑證以90%折扣出售Claude API訪問權,並竊取用户提示和輸出用於再訓練;DeepMind衍生公司Isomorphic Labs融資21億美元,利用AI設計藥物;此外,喬治·克魯尼、湯姆·漢克斯和梅麗爾·斯特里普等明星支持新的AI許可“人類同意標準”,要求在使用明星形象訓練AI時獲得明確同意。
研究方面,METR發佈報告稱Claude Mythos正在測試AI評估的極限,指出當前的評估方法可能不足以衡量前沿模型的真實能力。播客還討論了自然語言自編碼器、Anthropic的自動化研發風險報告等研究進展。總體而言,本期內容豐富,涵蓋了從產品發佈到安全研究的廣泛話題,反映了AI領域的快速演變和日益複雜的生態。