AI模型可访问性检查器
AIMAC项目由GAAD基金会与ServiceNow合作推出,评估了37个顶尖AI模型生成的网页在可访问性方面的表现。结果显示,OpenAI的GPT 5.4 Mini和GPT 5.3 Codex在可访问性债务上达到0.00,排名前两位。阿里巴巴的Qwen和Z.ai的GLM 4.7 Flash也表现突出。低对比度文本是AI生成页面中最常见的可访问性问题,占84.2%。
人工智能正以前所未有的速度编写代码,但这些代码对残障人士是否友好?AIMAC(AI模型可访问性检查器)项目给出了答案。该项目由GAAD基金会与ServiceNow合作推出,于2026年6月20日更新,旨在推动AI模型默认生成可访问的代码。
AIMAC团队对顶尖AI模型进行了测试,让它们为28个不同的类别构建网页,然后审计这些页面的可访问性。每个生成的页面都被公开并排展示,以便比较不同模型如何处理相同的设计挑战。项目还测量了破折号的使用频率,作为写作风格的小信号。
在排行榜上,OpenAI的模型占据了主导地位。GPT 5.4 Mini和GPT 5.3 Codex以0.00的中位可访问性债务并列第一,这意味着至少一半的类别中它们完全没有可访问性问题。GPT 5.5、GPT 5.5 Pro和开源模型gpt oss 120b也位列前五。阿里巴巴的Qwen系列表现强劲,Qwen3.5 397B A17B以4.09的债务排名第六,成本仅为0.76美元。Z.ai的GLM 4.7 Flash以4.19的债务和0.10美元的成本排名第七,展示了极高的性价比。
Google的模型在早期测试中表现不佳,但新发布的Gemini 3.1 Pro Preview已提升至第8位,债务为4.40,表明基准测试正在推动进步。Anthropic的Claude模型则令人失望,其最佳结果Claude Haiku 4.5仅排名第11位,债务为4.57,成本2.30美元。Claude Fable 5虽然被宣传为强大到危险的模型,但在可访问性上仅排名第17位。Anthropic声称以“全球利益”为核心,但其模型在可访问性上的表现引发了质疑。
AI生成页面中最常见的可访问性问题是低对比度文本,占所有页面的84.2%,这与人工构建的网站问题一致。其他常见问题包括空链接、缺少表单标签、空按钮、目标尺寸过小和仅用颜色区分链接。AIMAC还追踪了破折号的使用,发现不同模型的使用频率差异巨大,从0到754个不等,但破折号对屏幕阅读器用户的实际影响有限。
总的来说,AIMAC项目提供了一面镜子,照出了AI模型在可访问性方面的现状。虽然部分模型表现优异,但整体仍有很大改进空间。项目希望激励模型开发者优先考虑可访问性,让AI生成的代码默认对残障人士友好。