2026-06-30 23:21 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 23:28 UTC+9

AIモデルアクセシビリティチェッカー

AIMACプロジェクトは、GAAD財団とServiceNowの協力により、37の主要AIモデルが生成したウェブページのアクセシビリティを28カテゴリにわたって評価しました。OpenAIのGPT 5.4 MiniとGPT 5.3 Codexが中央値0.00のアクセシビリティ債務で首位を分け合いました。AlibabaのQwenやZ.aiのGLM 4.7 Flashも良好な結果を示しました。低コントラストテキストがAI生成ページで最も一般的な問題であり、84.2%のページに見られました。

ソースHacker News AI著者: MavisBacon

記事インテリジェンス

エンジニア上級

要点

AIMACは37のAIモデルが28カテゴリで生成したウェブページのアクセシビリティを評価
OpenAIのGPT 5.4 MiniとGPT 5.3 Codexがアクセシビリティ債務0.00で首位
低コントラストテキストが最も一般的な問題で、AI生成ページの84.2%に影響
AnthropicのClaudeモデルはアクセシビリティで平凡な結果に、安全性の主張と対照的

重要な理由

このニュースが重要なのは、AIMACは37のAIモデルが28カテゴリで生成したウェブページのアクセシビリティを評価ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

人工知能はかつてないほど多くのコードを書いているが、それは障害を持つ人々にとってアクセシブルなのだろうか？AIMAC（AIモデルアクセシビリティチェッカー）プロジェクトがその答えを提供する。このプロジェクトはGAAD財団とServiceNowのパートナーシップによるイニシアチブで、2026年6月20日に更新され、AIモデルがデフォルトでアクセシブルなコードを生成することを目標としている。

AIMACチームはトップAIモデルをテストし、28の異なるカテゴリでウェブページを構築させ、そのアクセシビリティを監査した。生成された各ページは公開され、並べて比較できるようになっている。また、プロジェクトはダッシュの使用頻度も追跡し、書き方のスタイルの小さなシグナルとして記録した。

ランキングでは、OpenAIのモデルが支配的だった。GPT 5.4 MiniとGPT 5.3 Codexは中央値0.00のアクセシビリティ債務で同率首位となり、少なくとも半分のカテゴリでアクセシビリティ違反がゼロだったことを意味する。GPT 5.5、GPT 5.5 Pro、オープンウェイトのgpt oss 120bもトップ5に入った。AlibabaのQwenシリーズは好調で、Qwen3.5 397B A17Bが債務4.09で6位、コストは0.76ドルだった。Z.aiのGLM 4.7 Flashは債務4.19、コスト0.10ドルで7位となり、非常にコストパフォーマンスの高い結果を示した。

Googleのモデルは初期テストでは振るわなかったが、新しいGemini 3.1 Pro Previewは8位にまで上昇し、債務は4.40だった。これはベンチマークが進歩を促進したことを示している。AnthropicのClaudeモデルは期待外れで、最良の結果はClaude Haiku 4.5の11位（債務4.57、コスト2.30ドル）だった。危険なほど強力と宣伝されたClaude Fable 5はアクセシビリティで17位に留まった。Anthropicは「グローバルな利益」を掲げているが、そのモデルのアクセシビリティ実績は疑問を投げかけている。

AI生成ページで最も一般的なアクセシビリティ問題は低コントラストテキストで、全ページの84.2%に見られた。これは人間が作ったウェブサイトと同様の傾向である。その他の一般的な問題としては、空のリンク、フォームラベルの欠落、空のボタン、ターゲットサイズの小ささ、色のみによるリンクの区別などが挙げられる。AIMACはダッシュの使用も追跡し、モデルによって0から754まで大きなばらつきがあることがわかったが、ダッシュがスクリーンリーダーユーザーに与える実際の影響は限定的だった。

全体として、AIMACプロジェクトはAIモデルのアクセシビリティに関する現在の状況を映し出す鏡となっている。一部のモデルは優れた成績を収めたが、全体的には改善の余地が大きい。このプロジェクトは、モデル開発者にアクセシビリティを優先させることを促し、AIが生成するコードがデフォルトで障害を持つ人々に優しいものになることを目指している。