Sun:面向智能體的協作式語音API
Sun是一款專為實時協作語音交互設計的AI模型,區別於單一用户與AI對話的工具,它支持多説話人輪換、大型上下文窗口,並允許在單一音頻通道中運行多個智能體,適用於會議、課堂討論、多智能體工作流等場景。
今日在Product Hunt上發佈的Sun,是一款革命性的協作式語音API,專為智能體(agent)設計,旨在解決傳統語音AI在多人場景中的侷限性。與OpenAI Realtime、Gemini Live等僅支持一對一對話的模型不同,Sun從一開始就為多人協作而構建——無論是銷售電話、課堂辯論、多智能體工作流還是團隊頭腦風暴,它都能輕鬆應對。
Sun的核心優勢在於其多説話人輪換機制(multi-speaker turn-taking),能夠準確識別誰在説話、何時可以打斷,並允許多達三名參與者共享發言權。此外,它擁有比ChatGPT Realtime和Gemini Live大10倍的上下文窗口,確保長時間對話中的信息不丟失。Sun還引入了智能體感知的插話功能(agent-aware barge-in),超越傳統的語音活動檢測(VAD),使智能體能更自然地介入對話。
該產品由Anand聯合創立,他在Product Hunt上解釋説:“每個實時語音API都是為一對一對話設計的,一旦第三個人加入,就會出問題。”Sun的API支持在同一音頻通道中運行多個智能體,例如讓兩個AI互相辯論或協作完成任務。
Sun目前提供免費試用,用户可在瀏覽器中體驗其演示(https://demo.getsun.io),無需信用卡。團隊鼓勵開發者測試並反饋任何問題,同時詢問用户最希望集成的平台(如LiveKit、Daily、Vonage、Twilio或自定義WebRTC)。
對於評論中提到的“讓會議智能體像Fireflies或Otter那樣參與對話”的用例,Anand確認Sun完全支持——它不僅能監聽,還能在適當時刻發言,進行總結、回答問題或調節討論。這意味着企業可以構建一個主動參與的會議助手,而不僅僅是被動記錄。Sun的推出可能重新定義實時語音AI在多參與者場景下的應用邊界,為開發者提供前所未有的靈活性和控制力。