埃隆,別再試圖讓Grok成功了
路透社的一份報告顯示,埃隆·馬斯克的AI聊天機器人Grok表現不佳,美國政府很少使用它,在400多個AI供應商引用中僅出現3次。儘管馬斯克大肆宣揚,但Grok在質量和採用率上落後於OpenAI、谷歌和Anthropic等競爭對手,這對其在SpaceX鉅額IPO估值中的作用提出了質疑。
文章情報
要點
- Grok在400多個美國政府AI用例中僅出現3次,且主要用於基本任務。
- 政府消息來源和公開排名顯示Grok不如競爭對手。
- SpaceX的IPO將其28.5萬億美元的市場估值很大程度上依賴於Grok的潛力。
- Grok的有爭議行為以及馬斯克承認使用OpenAI模型進行訓練進一步削弱了其可信度。
為甚麼重要
這條新聞值得關注,因為Grok在400多個美國政府AI用例中僅出現3次,且主要用於基本任務。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
路透社最新報道揭示了埃隆·馬斯克旗下的AI聊天機器人Grok面臨的殘酷現實:這款號稱“求真”的聊天機器人並不出色,使用者也寥寥無幾。報道通過對400多個美國政府AI使用案例的審查發現,Grok或xAI僅出現在其中三個案例中,而且都是用於文檔撰寫或社交媒體管理這類基本任務,並且總是與微軟和OpenAI等競爭對手並列。相比之下,OpenAI的模型出現了230多次,谷歌和Anthropic的出現次數也達數十次。
在另一個收錄了更雄心勃勃的政府AI項目(用户規模較小)的數據庫中,Grok同樣只出現了三次:兩次是用於選舉援助委員會的日常行政工作,一次是勞倫斯利弗莫爾國家實驗室的能源部試點項目,用於文檔摘要和一般研究。而同一數據庫中有140條涉及微軟和OpenAI,至少10條涉及Anthropic,數十條涉及谷歌的Gemini。
當然,這些清單並不全面,許多案例未註明具體供應商,AI的定義也各不相同。數據也未涵蓋情報機構或五角大樓——xAI去年獲得了後者2億美元的合同,並在Anthropic被列入黑名單後最近獲准在機密網絡上運營。儘管如此,Grok的表現依然堪憂。它出現的頻率遠低於競爭對手,而且基本都是輔助性工作,與馬斯克多年來吹噓的“世界級前沿模型”相去甚遠。
接受路透社採訪的人士解釋説,原因很簡單:Grok不如競爭對手。“它根本不是最好的模型,”一位不願透露姓名的五角大樓消息人士説,並補充説員工們更傾向於使用Gemini或Claude。公開的AI模型排名也支持這一觀點。Anthropic、谷歌和OpenAI佔據前列,而Grok除了偶爾在圖像或視頻類別中,很少進入前十。
這對馬斯克來説很尷尬,對今年早些時候吸收了xAI的SpaceX來説更是如此。SpaceX的IPO文件顯示,該公司將AI(特別是Grok)置於其投資者宣傳的核心。SpaceX聲稱已經識別出“人類歷史上最大的可操作總目標市場”:一個驚人的28.5萬億美元的機會,但遺憾的是,沒有提供實現這一目標的時間表。幾乎所有估計價值都來自AI,尤其是企業AI,而不是火箭或衞星。
路透社指出,Grok在政府機構的表現可能暗示了它在其他工作場所的表現。作為xAI進軍企業客户的一部分,馬斯克據説已強迫銀行購買Grok訂閲,如果它們希望參與SpaceX的IPO——但如果這些銀行覺得物有所值,這些交易可能只是短期解決方案。
更尷尬的是,馬斯克最近承認xAI使用了OpenAI的模型來幫助訓練和改進Grok。這一過程稱為“蒸餾”,在公司使用自己的模型時是標準做法,但涉及使用競爭對手的系統時則更具爭議。Grok甚至連它訓練所用的模型都打不過。
在面向公眾的消費版中,Grok刻意令人生厭。馬斯克將其標榜為ChatGPT等工具的一個更少偏見、更少審查的替代品,但這導致了產品缺乏證據標準、對馬斯克不健康的痴迷,以及長期以來冒犯性、陰謀論和色情輸出的記錄。即使工作場所的護欄有所不同,企業也可能不會歡迎這種東西。Grok的光榮記錄包括讚揚阿道夫·希特勒、對大屠殺死亡人數提出質疑、在X上傳播數百萬張未經同意的色情深度偽造圖片(包括兒童圖片),以及驅動一個種族主義和跨性別恐懼症的維基百科仿製品和辛辣的動漫女友。我們也不要忘記它自稱“MechaHitler”的時候。如果Grok是人類員工,人事部門可能早就介入調查了。
SpaceX似乎意識到了問題。在其文件中,該公司警告Grok的“辛辣”或“失控”模式會帶來“高風險”,包括聲譽損害、監管審查和訴訟。用企業的話説:這個聊天機器人會讓我們吃官司。
Grok的名字來源於羅伯特·海因萊因的《異鄉異客》,大致意思是深刻理解某事。這裏需要理解的事情並不複雜:馬斯克花了數十億美元建造了一個不那麼出色、不那麼受歡迎、卻莫名其妙地成為SpaceX天文估值關鍵因素的聊天機器人。祝你好運。