AI News HubLIVE
站内改写4 分鐘閱讀

本週AI:生產可行性探討

本週節目中,主持人Andreas Welsch與嘉賓討論了OpenAI進入個人金融領域、元認知在AI輔助工作中的重要性、對Token指標的反感以及前向部署工程師的角色。核心問題:AI行業擅長產出,但尚未明確什麼產出真正有價值。

來源O'Reilly AI & ML Radar作者: Michelle Smith

在本週的《本週AI》節目中,主持人、AI諮詢公司Intelligence Briefing創始人Andreas Welsch邀請了Savvi AI聯合創始人兼CEO Maya Mikhailov以及生成式AI與智能自動化領導者Doug Shannon,共同探討了從業者正在面對的多個相互關聯的話題:OpenAI進軍個人金融領域、元認知在AI輔助技術工作中的作用、對基於Token的生產力指標日益增長的反對聲音,以及前向部署工程師這一新興角色。這些故事共同描繪了一個行業圖景:這個行業擅長生產輸出,但仍需釐清什麼輸出才具有價值。

為什麼OpenAI想要你的銀行數據

當OpenAI宣佈與金融機構合作分析用户交易數據時,媒體報道聚焦於消費者利益:一種更智能的支出跟蹤方式,類似於Credit Karma或Minit,但界面更具對話性。然而,這並非該公司的全部興趣所在,甚至不是主要目標。Maya重新定義了其中的利害關係:“OpenAI想要做的是弄清楚消費者意圖。”能夠訪問用户的金融數據,與其説是幫助人們管理資金,不如説是完善一個可供公司變現的用户畫像。OpenAI已經能夠通過聊天曆史構建出令人驚訝的精準用户畫像。加入交易數據後,就能獲得之前缺失的細節:某人在為什麼存錢、他們焦慮什麼、錢實際花在了哪裏。這對廣告商來説是一項價值巨大的數據資產。

我們以前見過這種模式。正如Andreas所指出的,公司長期持有(並利用)可能具有侵入性的數據來推薦產品。Target預測懷孕的故事已過去十多年,但仍在商學院被教授——包括Andreas本人——因為它恰恰説明了如何結合行為數據推斷用户未明確披露的信息,並突顯了有效推薦與過度個性化之間的微妙界限,讓消費者意識到公司掌握了他們多少信息。Maya表示,公司的畫像構建能力沒有改變,但AI聊天增加了新的變數。對話式界面讓信息披露感覺自然,因此基於聊天曆史的知識圖譜非常強大。而且,這些工具也更適合分享推薦。“通過這種友好、吸引人的風格,”Maya解釋道,“這些推薦會比我在普通搜索引擎中輸入的隻言片語更加牢固。”

元認知作為專業技能

當你將思考委託給一個通過大量輸入平均化得出答案的系統時,你需要知道答案何時足夠好、何時不夠。Doug説:“我們本質上正在被平均化。”模型在幕後做了許多工作來尋找一個均值響應。人類的工作是質疑問題本身,超越第一個答案,並知道自己的判斷是否仍在參與。這就是Doug一直推動重新關注元認知(即“對思考的思考”)的原因。Doug和Maya一致認為,將與你工作無關的認知負荷卸載是可以的。但卸載對你工作價值核心的推理——Doug稱之為“認知投降”——則會使組織陷入麻煩。

未來的優勢不會來自對AI的訪問權限。每個人都將擁有某種訪問權限。優勢將來自知道該卸載什麼、該質疑什麼、什麼永遠不應該離開人類判斷。這既是一個技能發展問題,也是一個哲學問題。使用AI工具最有效的人不是使用最多的人,而是那些理解什麼該交付、什麼該保留的人。這需要領域知識、判斷模型答案是否看似合理但實際錯誤的洞察力,以及足夠理解這些系統工作原理以識別何時你在被給予一個平均值而非答案的流暢度。

Token消耗最大化與錯誤激勵

關於“Token最大化”的爭論似乎到了緊要關頭。亞馬遜在員工通過編寫低效代碼來刷Token用量後,廢除了AI生產力排行榜。還有一家公司據報道在一個月內燒掉了5億美元的Anthropic Token,原因是沒有設定限制。Maya認為,鼓勵Token最大化的公司正在激勵錯誤的指標。“這就像通過麪粉用量來判斷哪家麪包店最好。正確的問題是‘我們在製作優質產品嗎?’”

Andreas分享了他自己的“氛圍編碼”經歷,以此説明Token消耗和技術債務如何在實踐中累積。一個開發者從適度計劃開始,在半小時內通過運行代理耗盡了額度。他們升級到更高等級,支付五倍的價格,但現在沉沒成本邏輯開始起作用。正如Andreas所指出的,現在他們覺得“應該也從訂閲中獲得五倍的價值”,於是範圍從單一工具擴展到一個統一的業務操作系統。三週後,累積的複雜性已經超出了評估能力:反覆的安全審計不斷發現新問題,每次審計都會產生需要大多數氛圍編碼人員不具備的網絡安全專業知識的建議。這就是Doug關於元認知觀點的應用:構建者在主動理解系統實際運作上投入越多,他們判斷系統是否有效的洞察力就越好。對於參與度較低的用户,風險在於接受輸出、發佈債務,並在之後發現後果。

大多數錯位源於高管對AI的期望與從業者日常處理的事務之間的差距。Maya解釋説,高管看到了一種可能改變生產力曲線的能力。工程師和分析師則生活在技術債務、版本控制問題和監管約束之中,這些不會因為有了更好的代碼補全工具而消失。排行榜問題就是這種脱節的一種症狀。GitHub最近將Copilot從無限使用改為基於使用量的定價,這可能比任何內部政策變化更快地重新調整這些激勵措施。當更多CFO看到實際賬單時,排行榜將全部消失。

Doug指出了與LLM“認知投降”相關的另一個問題。當組織鼓勵員工在沒有治理的情況下將內部流程、專有邏輯和機構知識輸入基礎模型時,他們不僅僅是在增加Token賬單。他們正在放棄使自己與眾不同的運營知識。流程文檔、工作流邏輯以及關於為何做出某些決策的機構記憶都是知識產權的一種形式。一旦它們被編碼到通用模型中,組織從中獲得優勢就會減少。

前向部署工程師不足以單獨解決問題

這些挑戰的答案是否就是將熟練的工程師直接部署到客户環境中,以彌合模型產出與組織實際需求之間的差距?這就是AI公司推廣的前向部署工程師(FDE)方法的承諾。Doug和Maya都對此模式提出了一些批評。

Maya的反對是結構性的。企業AI部署並非在現有基礎設施上添加能力。組織擁有隔離的數據、遺留系統和監管約束,這些不是任何前向部署工程師單憑技術技能就能解決的。她説:“你不能‘僅僅在上面撒一些AI,然後它就能通過一些Token包工作。’”工程師必須瞭解為什麼某些數據不能使用、為什麼某個特定模型不能在受監管環境中部署的背景。剛進入組織的前向部署工程師缺乏這種理解,可能會撤銷經過仔細考慮且基於未明確記錄原因做出的決策。

Doug的擔憂在於溝通。根據他的經驗,前向部署工程師往往帶着強大的技術直覺和有限的組織背景進入。他們很快投入工作,但難以與整個利益相關者堆棧進行溝通。這就是業務分析師存在的原因——在工程師解決客户問題之前,理解客户的問題和實際流程。跳過這一步,就會得到技術上正確但解決錯誤問題的輸出。

Maya和Doug都強調,企業級AI部署從根本上是一個語境問題。模型是能幹的。困難的是知道應用哪種能力、在哪裏應用、以及存在哪些約束條件。這種知識不在模型中;它存在於那些在組織內工作時間足夠長、瞭解事物為何如此的人身上。

測量問題

本期節目中所有話題都回歸到同一個問題:我們到底在測量什麼?我們通過這些測量設置了什麼激勵?Token數量和代碼行數並不總是與公司想要的結果相關。需要人類專業知識和業務的語境知識來弄清楚想要實現什麼目標,以及測量什麼以確保實現目標。

在下週一《本週AI》節目中,RecoMind創始人Miguel Fierro將與主持人Christina Stathopoulos討論負責任的AI、多模態內容創作,以及LLM如何改變個性化和用户理解。Miguel還將進行現場演示,提供下一代推薦體驗的預覽——在這裏註冊。我們將繼續每週五在Radar上發佈摘要,並在YouTube、Spotify、Apple或其他播客平台上發佈完整劇集。