Ahmad Osman談本地AI為何正在迎頭趕上
在AI工程師世界博覽會(AIEWF)的兩場爆滿研討會之後,Ahmad Osman論證了本地AI——從筆記型電腦、手機到企業級基礎設施——正在快速追趕雲端AI。開源模型與閉源前沿模型之間的差距持續縮小,本地AI生態系統正從模型本身擴充套件到完整的工具和基礎設施層。
Ahmad Osman在今年的AI工程師世界博覽會(AIEWF)上主持了兩場爆滿的研討會,主題是本地AI——即在個人電腦、工作站或專用硬體上執行人工智慧模型。作為Osmantic的創始人,他長期以來一直倡導本地AI,而這一主題如今已成為AIEWF的主要議題之一。
AIEWF上浮現的一個關鍵主題是,開源大語言模型正逐漸成為大型專有前沿模型的可信替代品。由於大多數本地AI系統依賴開源模型,這一轉變強化了Osman的主張。正如他對Latent Space所說,“開源模型與閉源前沿模型之間的差距正在不斷縮小。”
在名為“開源AI必須贏”的網站上,Osman更明確地闡述了這一論點,他寫道:“無需請求許可就能研究、構建、修復、部署、審計、改編、教學、儲存和執行智慧系統,這具有存在意義上的重要性。”
在AIEWF上,Osman舉辦了兩場關於本地LLM和工作站代理的研討會。這些研討展示了該領域的發展速度——從在手機和筆記型電腦上執行的模型,到專用的GPU工作站和企業級基礎設施。與會者不僅限於硬體愛好者,還包括正在考慮購買第一臺AI電腦的學生,以及關注模型路由、私有基礎設施和資料控制的企業高管。
以下是Latent Space對Ahmad Osman的採訪,他解釋了為何本地AI正吸引更多關注,模型和硬體格局發生了怎樣的變化,以及他為何預計更多開發者和企業將開始把本地AI視為重要基礎設施。
讓本地AI變得可觸可感
Latent Space: 能總結一下研討會的內容以及與會者尋求什麼嗎?
Ahmad Osman: 這是一個兩部分組成的研討會,需求遠超我們的空間容量。有些人不得不被拒之門外。
我帶來了一個我們準備好的網站來演示本地AI。這基本上是一個硬體競技場,人們可以比較DGX Spark、AMD Strix Halo機器和其他裝置。你可以讓它們相互對抗,或與前沿雲模型比較,親眼看到效能、輸出質量、速度和延遲。
主要想法是讓本地AI感覺真實。人們對此的認知仍停留在2022年,當時模型的能力弱得多。但自那以後一切都有了顯著改善。
與前沿模型之間仍有差距——大約4到8個月——但本地和開源模型正在迎頭趕上。我們希望人們能直接與這些系統互動,而不只是聽到理論論證。
演示背後的軟體是開源的,可在GitHub上獲取。第二場研討會則進一步展示瞭如何設定並執行完整系統。
模型只是系統的一部分
Latent Space: 當人們認為本地AI只是在自己的機器上執行模型時,他們忽略了什麼?
Osman: 關於ChatGPT或Claude Code這樣的產品存在一個很大的誤解。它們帶有圍繞模型和代理的完整基礎設施。這不僅僅是單一事物。
我的一位朋友買了一塊RTX 5090來執行Qwen 3.5。他將Claude Code連線到這個模型,並讓它改變GPU的RGB燈光,但失敗了。然後他使用了託管版的Claude Code服務,成功了。
我問他是否給了本地模型網際網路搜尋許可權。他沒有。模型的訓練資料有一個截止日期,而他需要的軟體和文件已經更改了。
一旦我們讓本地系統訪問搜尋端點,它就能完成任務。
這就是關鍵:當你使用託管代理時,你不僅在使用一個模型。你還在使用它周圍的搜尋、工具、基礎設施和其他服務。
透過我們的開源部署系統,我們試圖提供完整的體驗——從聊天介面、文件攝取,到代理、揹帶和搜尋工具。這個端到端層在本地AI生態系統中一直缺失。
興趣涵蓋學生、愛好者和企業
Latent Space: 哪些人參加了研討會?他們主要是硬體愛好者,還是試圖構建隱私應用的人?
Osman: 觀眾非常廣泛。
在第二場研討會結束時,一名學生問我她上大學前應該買什麼硬體。英特爾的一位高管問我們如何能讓軟體以特定方式在Windows上執行,以改善使用者體驗。
有些人是愛好者。其他人則提出了非常注重企業的問題。共同點是他們都對執行自己可以控制的東西感興趣,無論是在MacBook上執行模型、在家使用GPU,還是專用的高階企業硬體叢集。
人們詢問了企業模型路由、資料收集、追蹤、代理沙盒和延遲等問題。還有人問我家裡有多少塊GPU。答案是22塊RTX 3090。
興趣的廣度讓我驚訝。這是我第一次主持AI研討會,幸運的是我連續辦了兩場。
你可能不需要購買GPU
Latent Space: 開發者需要去買GPU來實驗本地AI嗎?
Osman: 這取決於你想使用的模型大小。
你可以在MacBook上執行一個四位元的Qwen模型。在另一個極端,一個非常大的前沿級開源模型可能需要多塊RTX Pro 6000 GPU。
但更廣泛的趨勢是模型正變得高效得多。在現代手機上,你現在可以執行一個效能超過幾年前人們用在雲端的系統,且不會耗盡裝置記憶體。
這顯示了在相對短時間內模型效率取得了多大進步。
模型和硬體共同進步
Latent Space: 進步主要來自更好的軟體和模型,還是硬體?
Osman: 模型已經有了顯著改善。
架構變得更高效,許多小改進累積起來。一旦前沿實驗室證明某種能力是可能的,開源生態系統就能逆向工程並找到更高效的重現方式。
我們看到擁有數百億引數的模型能夠提供以前需要更大系統才能實現的效能。其中一些模型可以在2020年釋出的RTX 3090上執行。兩年前,那樣的硬體上達到那樣的能力是不現實的。
這仍然是一個非常新的領域,我們不知道最終狀態會是什麼。但我們知道系統將繼續改進。
混合AI與主權AI的興起
Latent Space: 你預計會有更多應用結合本地和雲端AI嗎?
Osman: 是的。邊緣模型將變得更受歡迎,這不僅僅關乎消費者。
企業越來越意識到,他們依賴的模型可能不會始終以相同形式對其可用。提供商可以改變質量、定價、訪問許可權或政策。
這激勵著企業轉向專用硬體和安全計算。這不一定非得在本地。公司可以使用他們控制的專用託管硬體。
好處是模型質量不會意外變化,訪問不會突然被移除,公司保留對其智慧財產權、資料、隱私和合規義務的控制。
開源模型也在繼續縮小與前沿專有系統的差距。我們已經看到Llama、Mistral、Qwen、DeepSeek、GLM和Kimi模型的快速演進。每一代都在縮小差距。
專業模型可能是真正的機會
Latent Space: 你認為這對企業意味著什麼?
Osman: 我長期以來一直認為,對於許多商業用例來說,較小、專業的模型是未來。
企業可能從一個通用模型開始,收集員工使用時的追蹤、訊息和反饋。隨著時間的推移,這些資料可以支援針對公司特定工作定製的更專業模型。
這可以提高效能、降低成本,並讓系統對企業更有用。
我還認為開源模型公司可能會越來越多地透過微調、強化學習或專業商業部署的許可來實現盈利。
隨著更多公司不再完全依賴雲端API並確保自己的計算能力,這些實驗室將有動力繼續釋出強大的開源模型,同時在企業將其改編用於專有用例時獲取價值。
更廣泛的方向是走向更大的主權:公司和個人控制他們的模型、計算和資料,同時仍受益於開源生態系統的快速進步。