AI News HubLIVE
站内改写2 分钟阅读

AI幻象:为何我认为炒作难以持续

文章认为,AI尤其是大语言模型无法实现100%的可靠性,需要人工验证,从而削弱了效率提升。作者以自动驾驶汽车和代码生成为例,指出炒作和高昂估值缺乏合理性,因为瓶颈仍在人工监督。

来源Hacker News AI作者: louwrentius

如果我们退后一步观察,一切事物都可以被视为一个黑箱——我们不了解其内部机制,但可以通过输入和观察输出来学习。假设一个大型语言模型(LLM)就是这样的黑箱。通过观察,我们发现其输出在99%的情况下是正确的(这个数字是假设的,实际可能更差,但关键点不在于具体数值,而在于它不是100%)。

计算机以正确性和可靠性著称。我们知道,当对输入A执行一个函数时,我们总会得到输出X,无论情况如何。当然,数据包可能丢失,内存可能出错,但这些错误是可预测的。我们有校验和重传机制、有ECC内存,数据格式也能检测丢失或损坏。整个世界的运转都依赖于这种确定性。

试想一个不可信赖的系统:1加1并不总是等于2,只有99%的情况下成立。这样的系统有多大价值?这或许取决于具体情况,但有一点是确定的:我们不能信任它的输出,必须进行人工检查。无论检查方式如何,正确性验证都需要人工参与。

这在自动驾驶汽车领域已经显现。技术确实令人印象深刻,但它们并非真正的全自动驾驶。驾驶员必须坐在方向盘后,保持注意力集中,随时准备在AI犯错时接管。然而,人们容易分心和厌倦。要么我们继续自己驾驶,要么需要100%的可靠性,这样我们才能移除方向盘,在行驶中读书。只有100%才算足够,99%不行。如果因为那1%的出错可能而仍然需要“驾驶”,那实际上解决了什么问题?

在LLM的情况下,让人工检查输出能节省多少时间?与当前AI供应商收取的补贴价格相比,这些节省的时间能证明运行成本合理吗?以编写代码为例,LLM可能在一周内创造出100名工程师一年才能验证的功能特性。所以无论LLM有多快,人类总是无法绕过的瓶颈。

也就是说,如果我们关心正确性、质量、稳定性等。但如果不在乎,那无论有没有LLM,何必还要做这件事呢?

因此,我认为AI炒作不可能实现那些巨额估值所基于的天价承诺。我并不否认AI可能有价值,但可能比人们让我们相信的要低几个数量级。

另外,我也不理解为什么组织将LLM作为流程的核心部分,却发现模型不断被调整和修改,导致输出变得 wildly unpredictable。有时候,当光线恰好在某个角度照射LLM,你眯起眼睛,它看起来就像加密货币。至少我是这么看的。

(作者注:本文忽略了能源浪费、污染、知识产权盗窃、版权侵犯、AI引发的自残等问题,列表还可以继续。)