Coplot: 通过可视化支持研究过程
研究过程中,可视化工具帮助研究人员更清晰地理解数据和工作。Cohere Labs 开发了 co/plot,一个快速迭代且保持数据准确性的可视化工具,已在多个项目中得到验证,并开源供社区使用。
研究的影响力往往取决于研究人员能否清晰呈现自己的工作——既包括研究过程中的自我理解,也包括与他人分享时的沟通效果。可视化在这一过程中扮演着关键角色,它帮助研究人员实时理解实验数据、决定下一步方向、识别工作中的瓶颈。从图表到柱状图、表格、折线图,这些伴随论文或博客呈现的可视化成果,其实是长期数据分析与意义探索的最终输出。
在 Cohere Labs,我的职责之一就是制作这些可视化图表,支持团队探索研究问题。随着我制作越来越多的图表,我发现现有工作流程很难在快速迭代的同时保持可重复性和数据准确性。这是一个真正的瓶颈。许多研究者使用的 Matplotlib 难以快速迭代——微小的改动往往需要重新运行整个脚本。而设计工具 Figma 虽然能产出精美的图表,却无法可靠地导入数据,这意味着需要手动描摹 Matplotlib 的图表,增加了准确性风险。这两种方式都拖慢了工作进度,使得数据可视化难以充分发挥在研究过程中的作用。
于是我开始尝试新的方法。最初我的目标是创建一个简单的样式工具,生成适用于 Matplotlib 的样式规则。但随着与团队深入合作,我们意识到可以构建一个更有用的工具。我们称之为 co/plot:一个可以快速原型化、自带可定制样式、且保持数据准确性的工具。
在构建 Tiny Aya 项目期间,co/plot 经受了全面测试。在模型构建过程中,我扩展了它的功能以支持我们评估的 70 多种语言;在撰写技术报告时,我优化了它的样式,使研究结果更加清晰精美。同时,我不断将工具交给研究人员使用,根据他们的反馈改进用户体验。
在这个过程中,co/plot 对我们工作流程的影响逐渐显现。样式更美观、更易读的图表帮助我们做出了更好的决策。这些图表不仅对技术报告有帮助,对整个研究过程也至关重要。
作为开放科学的坚定信仰者,我们决定将 co/plot 公开发布。除了论文和模型,发布工具能够提高整个领域的研究基线。来自开放科学社区的独立研究者已经在使用 co/plot 更清晰地梳理他们的发现,这意味着他们可以更快迭代、获得更好的反馈、更自信地分享工作。在我看来,这正是意义所在:当可视化工具的水平提升,更多的研究者能够做出更清晰的工作,得出更清晰的结论,好的想法也能从意想不到的地方涌现。
数据可视化领域正在快速变化,研究者使用的工具决定了他们如何与数据互动。制作图表、尝试不同表示方式并观察结果,这一迭代过程本身就是研究者理解发现的一部分。co/plot 正是基于这一信念构建的:制作图表的过程与图表本身同样重要,研究工具应该支持这一过程,而不是将其抽象化。我们期待继续开发 co/plot,发布更多塑造我们研究过程的工具,并倾听社区的意见,让这些工具更好地为研究者服务。