创建你自己的AI,然后在浏览器中观看它与其他AI对战
Agenlus是一个在浏览器中运行强化学习的平台,无需安装任何软件。它利用WebGPU和Pyodide在用户本地设备上训练AI模型,实现了零基础设施成本。该平台旨在降低强化学习的门槛,让任何人都能训练和分享AI代理,并通过排行榜和竞赛形成社区生态。
强化学习(RL)是人工智能中最迷人的分支之一,看着一个空白状态下的智能体通过探索逐步学会超人类策略,这种体验令人着迷。然而,与飞速发展的LLM工具相比,强化学习仍然相对难以入门。设置本地环境通常要处理Python虚拟环境、CUDA版本、PyTorch安装等繁琐步骤。
我们构建了Agenlus来解决这个问题。它是一个完全运行在浏览器中的强化学习社区平台和模型中心——无需安装,无需CUDA配置,即可即时训练和评估。
在过去十年中,最先进的强化学习一直是精英企业实验室和资金充足学术机构的专属领域。无论是Google DeepMind的AlphaGo,OpenAI的Dota 2机器人,还是复杂的工业机器人控制,强化学习都需要访问大规模计算集群、复杂的模拟器设置和专门的数学专业知识。这种集中化抑制了独立开发者和研究人员的创造力。虽然任何人都可以轻松地在网上提示大型语言模型,但开始强化学习需要处理复杂的本地设置、GPU驱动程序和本地虚拟化,然后等待数小时才能让一个简单代理收敛。
Agenlus的目标是打破这种垄断。通过利用现代Web技术,我们降低了准入门槛:你不需要高端本地机器或AWS预算,只要有浏览器,就拥有一个功能完备的强化学习研究实验室。我们还开源了环境共享功能,就像Hugging Face让模型易于共享一样,Agenlus允许开发者即时上传、共享和基准测试环境。交互式学习让用户实时看到训练过程,深入理解代理策略如何适应奖励。
为什么面向消费者的强化学习在今天高度可行?我们正目睹由LLM主导的巨大计算成本膨胀。这导致构建面向消费者的AI初创公司极其昂贵,创始人不得不在支付庞大的云GPU账单或筹集数百万风险资本之间做出选择。我们认为强化学习在结构上已经准备好打破这种循环,并引领新一轮高利润的面向消费者AI应用,原因有三:
第一,零边际基础设施成本。与LLM每次推理都消耗API积分不同,Agenlus的训练和推理通过WebGPU完全在用户客户端硬件上本地运行。我们的服务器成本几乎为零,这使我们能够扩展到数百万活跃用户,并提供永久免费层级,而不会消耗计算积分。
第二,极端的模型效率。一个合格的LLM需要数十亿参数,而用于游戏的高性能强化学习代理(即使是复杂的2D/3D平台游戏和控制任务)却非常轻量。一个不到10万参数的小型MLP或小型CNN就足以实现超人类策略。这些模型即时加载,在入门级移动设备或笔记本电脑上每秒执行数百步。
第三,游戏化和自然传播机制。生成式AI工具大多专注于生产力。相比之下,训练强化学习代理本质上就具有游戏化特性,感觉就像养育数字宠物或指导运动队。当加入竞争性排行榜和多智能体PvP竞技场时,就形成了自然的社交循环(“我的代理能打败你的”),从而推动有机增长。
此外,通过构建面向消费者的平台,我们正在众包海量的人类行为轨迹数据集,覆盖数千种环境。这些多样化数据是训练未来通用基础模型的宝库。
在架构方面,为了实现零安装体验,我们将环境模拟和模型训练都移到客户端浏览器中。核心架构分为三部分:浏览器上下文中的Web Worker(运行Pyodide,执行环境模拟)、主线程(WebGPU和JavaScript,负责模型推理和策略更新)以及绘制命令桥(将渲染结果输出到Canvas)。这种设计确保了流畅的用户体验和高效的本地计算。
Agenlus的愿景是让强化学习工具直接掌握在全球开发者社区手中,加速发现公司实验室可能忽略的新颖控制架构和算法。一个全新的AI互动时代正在到来。