AI News HubLIVE
站内改写3 分钟阅读

加速研究人员和开发者构建多语言AI的新开放数据集

GitHub发布多语言仓库数据集(CC0-1.0),包含超过80百万分类行,涵盖4000万以上公共仓库的README、问题和PR的语言分类。该数据集旨在帮助研究人员和开发者发现非英语开发者内容,促进多语言AI工具的开发。

来源GitHub AI & ML作者: Natalie Guevara

软件是用编程语言编写的,但人类语言是开发者协作的核心。开发者通过README解释项目如何工作,在问题中寻求帮助,在拉取请求中审查、讨论和改进代码。这种协作通常以英语进行,但并非总是如此。随着人工智能在软件开发中扮演越来越重要的角色,多语言开发者内容比以往任何时候都更加重要。

今天,GitHub发布了GitHub多语言仓库数据集(GitHub Multilingual Repositories Dataset),这是一个仓库级别的元数据集,旨在帮助研究人员和开发者发现包含非英语自然语言内容的公共GitHub仓库。在构建数据集时,我们发现语言分布在README、问题和拉取请求之间存在差异:韩语是问题文本中最常见的非英语语言,但在README中仅排名第五;葡萄牙语在非英语README中排名第一,涉及超过300万个仓库。

该数据集现已在GitHub上以CC0-1.0许可发布。这是GitHub兑现2025年作为微软欧洲数字承诺一部分所做出的承诺,即让多语言数据更容易获取,包括面向开源AI开发者。

数据集中的内容

GitHub多语言仓库数据集并非仓库内容的原始转储,而是一个元数据集,帮助开发者和研究者找到可能发生多语言协作的仓库。该数据集涵盖了超过8000万条分类记录,涉及超过4000万个仓库。对于每个公共仓库,我们提供:

  • README、最活跃问题以及最活跃拉取请求的语言分类,使用每个文本的前150个字符作为输入样本(少于20字符的文本被排除)。
  • 来自fastText、gcld3和lingua-py三个分类器的分类结果,每个带有置信度分数。数据集仅包含置信度大于0.5的分类结果。
  • 仓库元数据:创建时间戳、磁盘使用量、星标数、分支数、主要编程语言、SPDX许可证、问题和拉取请求数量以及快照日期。

我们特意没有将三个分类器合并为单一标签。不同的分类器有不同的覆盖范围和置信度校准,尤其是对于资源较少的语言。通过公开所有三个分类器,你可以自行决定严格程度。例如,想要高精度的希腊语子集?可以要求三个分类器都同意并超过一定置信度阈值。想要对罗曼语族进行广泛召回?一个分类器可能就足够了。

你可以用它构建什么

该数据集专为通用网页文本难以完成的工作而设计:

  • 发现可能包含特定语言的开发者文档或协作的仓库。
  • 研究非英语开发者社区如何使用问题、拉取请求和README。
  • 为AI编码工具、文档生成器或审查助手构建评估集,这些工具需要跨语言表现良好。
  • 利用数据支持的多语言多样性论点,鼓励决策者扩展新开发者工具和AI功能的语言覆盖范围。
  • 衡量欧洲及其他代表性不足的语言在开源中的表现。

注意事项

语言识别在软件仓库中尤其困难。仓库文本通常较短,可能包含徽章、模板、安装命令、代码片段、用户名或混合语言内容。150个字符的样本可能无法代表整个仓库。分类器在覆盖范围和校准方面也因语言而异,尤其是对于资源较少的语言。

因此,该数据集不应被视为语言识别的基准真相。相反,它被设计为一个透明的发现工具。用户可以检查分类、置信度分数和来源,然后选择适合自己研究或开发工作流程的精度和召回权衡。

该数据集也不应用于推断仓库所有者、贡献者或社区的敏感属性。信号是仓库级别的元数据,而非个人级别的属性。

为什么开放多语言数据很重要

如今,许多欧洲语言在用于构建和评估AI系统的在线文本中仍然代表性不足。这给AI工具带来了风险——它们可能对某些开发者、语言和社区效果良好,而将其他群体抛在后面。开放数据有助于缩小这一差距。我们构建这个数据集是因为开发者内容与通用网页文本不同。README、问题和拉取请求包含了软件协作的语言:安装说明、错误报告、功能请求、审查评论和社区规范。这些背景信息有助于构建更理解开发者实际工作方式的AI系统。

通过使多语言开发者内容信号更容易发现和分析,该数据集为研究人员、开源开发者和模型构建者提供了另一种研究软件开发中语言代表性的工具。它有助于识别差距,支持更好的评估,并为欧洲及其他地区的开发者提供更具包容性的AI工具。这也反映了一个更广泛的原则:为开发者构建AI时,应包括开发者实际使用的社区、语言和工作流程。

下一步计划

我们将在6月16日于斯特拉斯堡举办的开放创新对话中心(Open Innovation Dialogue Hub)讨论该数据集以及开放数据对多语言AI的重要性。该活动由微软开放创新中心、欧洲委员会和GitHub共同组织,将汇集政策制定者、研究人员、文化机构和开放创新领导者,讨论AI、语言多样性、文化遗产和开放数据。

多语言AI需要多语言开发者社区。我们希望这个数据集能帮助更多人研究、支持和构建这些社区。通过在GitHub上以CC0-1.0发布,我们邀请研究人员、开源维护者和模型构建者使用、批判、扩展它,并在此基础上构建评估集和工具。

如果你用它做出了有趣的东西,我们很乐意听取你的反馈。