AI News HubLIVE
站內改寫2 分鐘閱讀

創建你自己的AI,然後在瀏覽器中觀看它與其他AI對戰

Agenlus是一個在瀏覽器中運行強化學習的平台,無需安裝任何軟件。它利用WebGPU和Pyodide在用户本地設備上訓練AI模型,實現了零基礎設施成本。該平台旨在降低強化學習的門檻,讓任何人都能訓練和分享AI代理,並通過排行榜和競賽形成社區生態。

來源Hacker News AI作者: umjunsik132

強化學習(RL)是人工智能中最迷人的分支之一,看着一個空白狀態下的智能體通過探索逐步學會超人類策略,這種體驗令人着迷。然而,與飛速發展的LLM工具相比,強化學習仍然相對難以入門。設置本地環境通常要處理Python虛擬環境、CUDA版本、PyTorch安裝等繁瑣步驟。

我們構建了Agenlus來解決這個問題。它是一個完全運行在瀏覽器中的強化學習社區平台和模型中心——無需安裝,無需CUDA配置,即可即時訓練和評估。

在過去十年中,最先進的強化學習一直是精英企業實驗室和資金充足學術機構的專屬領域。無論是Google DeepMind的AlphaGo,OpenAI的Dota 2機器人,還是複雜的工業機器人控制,強化學習都需要訪問大規模計算集羣、複雜的模擬器設置和專門的數學專業知識。這種集中化抑制了獨立開發者和研究人員的創造力。雖然任何人都可以輕鬆地在網上提示大型語言模型,但開始強化學習需要處理複雜的本地設置、GPU驅動程序和本地虛擬化,然後等待數小時才能讓一個簡單代理收斂。

Agenlus的目標是打破這種壟斷。通過利用現代Web技術,我們降低了准入門檻:你不需要高端本地機器或AWS預算,只要有瀏覽器,就擁有一個功能完備的強化學習研究實驗室。我們還開源了環境共享功能,就像Hugging Face讓模型易於共享一樣,Agenlus允許開發者即時上傳、共享和基準測試環境。交互式學習讓用户實時看到訓練過程,深入理解代理策略如何適應獎勵。

為什麼面向消費者的強化學習在今天高度可行?我們正目睹由LLM主導的巨大計算成本膨脹。這導致構建面向消費者的AI初創公司極其昂貴,創始人不得不在支付龐大的雲GPU賬單或籌集數百萬風險資本之間做出選擇。我們認為強化學習在結構上已經準備好打破這種循環,並引領新一輪高利潤的面向消費者AI應用,原因有三:

第一,零邊際基礎設施成本。與LLM每次推理都消耗API積分不同,Agenlus的訓練和推理通過WebGPU完全在用户客户端硬件上本地運行。我們的服務器成本幾乎為零,這使我們能夠擴展到數百萬活躍用户,並提供永久免費層級,而不會消耗計算積分。

第二,極端的模型效率。一個合格的LLM需要數十億參數,而用於遊戲的高性能強化學習代理(即使是複雜的2D/3D平台遊戲和控制任務)卻非常輕量。一個不到10萬參數的小型MLP或小型CNN就足以實現超人類策略。這些模型即時加載,在入門級移動設備或筆記本電腦上每秒執行數百步。

第三,遊戲化和自然傳播機制。生成式AI工具大多專注於生產力。相比之下,訓練強化學習代理本質上就具有遊戲化特性,感覺就像養育數字寵物或指導運動隊。當加入競爭性排行榜和多智能體PvP競技場時,就形成了自然的社交循環(“我的代理能打敗你的”),從而推動有機增長。

此外,通過構建面向消費者的平台,我們正在眾包海量的人類行為軌跡數據集,覆蓋數千種環境。這些多樣化數據是訓練未來通用基礎模型的寶庫。

在架構方面,為了實現零安裝體驗,我們將環境模擬和模型訓練都移到客户端瀏覽器中。核心架構分為三部分:瀏覽器上下文中的Web Worker(運行Pyodide,執行環境模擬)、主線程(WebGPU和JavaScript,負責模型推理和策略更新)以及繪製命令橋(將渲染結果輸出到Canvas)。這種設計確保了流暢的用户體驗和高效的本地計算。

Agenlus的願景是讓強化學習工具直接掌握在全球開發者社區手中,加速發現公司實驗室可能忽略的新穎控制架構和算法。一個全新的AI互動時代正在到來。