Show HN: Brontosaurus,一個語音驅動的生成式AI畫布
Brontosaurus是一個基於網路的生成式畫布,透過語音命令幾乎瞬間建立小部件。受Thinking Machines和Ink & Switch的啟發,它強調人機協作,以速度為核心,讓使用者透過語音快速將想法變為現實。
Brontosaurus是一個創新的基於網路的生成式畫布,使用者只需透過語音說出想要看到的內容,它就能在不到一秒的時間內構建出一個小部件。底層代理執行在OpenAI的gpt-oss-120b模型上,由Cerebras以每秒3000個令牌的驚人速度提供服務,使得整個過程感覺像魔術一樣。
這個專案受到了兩篇部落格文章的啟發。第一篇來自Thinking Machines,他們釋出了一個互動模型。從技術角度來看,他們設計了一種多模態(語音+視覺+文本)模型連線到更強大的後臺代理,該代理可以悄無聲息地執行請求而不打斷對話流程。從哲學角度來看,他們認為當前關於AI代理的討論錯誤地將重點放在代理的自主性上,即代理接收任務後可以連續工作數小時,而忽視了人類與AI的協作。Brontosaurus正是秉持這種協作精神,優先考慮以思維速度進行創造,讓使用者感覺一切皆有可能。
第二篇部落格來自Ink & Switch,他們提出了一個生成式畫布的願景,稱為“chitter chatter”。這篇文章像日記一樣溫暖友好,描繪了軟體的可塑性。受此啟發,作者決定構建類似於Brontosaurus的東西。
在技術層面,Brontosaurus採用了多代理編排。有兩種代理型別:Conductor(指揮者)和Builder(構建者),都執行在gpt-oss-120b模型上。當使用者點選空格鍵時,網頁應用開始監聽語音;再次點選時,透過Chrome內建的Web Speech API進行語音轉文字。文本被傳遞給Conductor代理,同時傳遞當前畫布上小部件的JSON陣列。Conductor代理可以執行多種工具呼叫:移動或調整小部件大小、刪除、清除、建立和編輯。建立和編輯指令會傳送給Builder代理,Builder代理返回一個完整的自包含HTML文件,經過清理後在iframe中渲染。
設計上的巧妙之處在於:Conductor代理可以用一條指令進行多次工具呼叫;arrange呼叫不需要等待Builder代理完成即可移動小部件;Builder代理可以並行執行,同時建立多個小部件。
未來仍有很大的改進空間。例如,gpt-oss-120b模型已經存在9個月,引數只有120B,這意味著成本極低,但輸出質量還有提升空間。如果使用更強大的模型,雖然成本增加,但可能構建出更復雜的小部件。此外,作者曾嘗試透過Exa AI新增即時搜尋功能,但延遲約0.9秒,破壞了即時體驗。最重要的改進是虛擬檔案系統,它可以讓小部件持續存在,並允許使用者迭代,同時使Brontosaurus能夠有選擇地將小部件內容納入上下文,從而實現更智慧的命令。
儘管存在這些待改進之處,但Brontosaurus當前架構已經能夠產生令人驚歎的效果。作者邀請使用者提出創意,並承諾會嘗試並回複影片。這個專案不僅展示了技術上的突破,更體現了人機協作的哲學思考。