AI是否遵守架构规则?我们测量了,就连Opus也忽视了60%
一项新的测量表明,即使是最先进的AI模型也经常忽视架构规则,其中Opus模型在测试中忽略了60%的规则。这引发了对AI可靠性和安全性的担忧。
一项来自Hunch Blog的实验评估了当前AI模型在遵守架构规则方面的表现。研究人员设计了一系列测试,要求模型在生成代码或设计时遵循特定的架构约束。结果令人惊讶:即使是表现最佳的模型Opus,也在60%的情况下忽视了这些规则。其他模型的表现更差。这一发现对AI在实际应用中的可靠性和安全性提出了重要问题。