2026-06-19站内改写2 分钟阅读更新: 2026-06-19

损失函数小白指南（模型如何知道自己错了）

本文用简单的比喻和实例解释了机器学习中损失函数的概念，包括均方误差、平均绝对误差和交叉熵损失，以及它们如何帮助模型改进。

来源KDnuggets作者: Kanwal Mehreen

损失函数是机器学习中一个核心但常被误解的概念。本文旨在用通俗易懂的方式解释它是什么、为什么需要它以及常见类型。

什么是损失函数？

简单来说，损失函数衡量模型预测的“错误程度”。模型做出预测后，损失函数将其与正确答案比较，输出一个数值：数值越高，错误越严重。训练过程中，模型不断调整自身以降低这个数值。这就像玩飞镖：你需要知道飞镖离靶心有多远才能改进。损失函数就是那个距离测量工具。

常见损失函数

均方误差（MSE）

MSE常用于数值预测（如房价）。它计算每个预测值与实际值之差的平方，然后取平均。平方的作用有二：消除正负误差抵消，并放大对大错误的惩罚。例如，预测房价时，差1000美元和差20万美元应受到不同惩罚。Python实现如下：

def mean_squared_error(predictions, actuals):
    squared_errors = [(p - a) ** 2 for p, a in zip(predictions, actuals)]
    return sum(squared_errors) / len(squared_errors)

平均绝对误差（MAE）

MAE也衡量预测与实际的差距，但直接取绝对值而非平方。它对大错误的惩罚较温和，适合数据中存在异常值且不希望模型过度反应的情况。例如，误差10分代价10，误差20分代价20。代码：

def mean_absolute_error(predictions, actuals):
    absolute_errors = [abs(p - a) for p, a in zip(predictions, actuals)]
    return sum(absolute_errors) / len(absolute_errors)

交叉熵损失

用于分类任务（如判断邮件是否为垃圾邮件）。模型输出各类别概率，交叉熵不仅关注分类是否正确，还关注模型对正确类别的置信度。正确且自信→低损失；错误且自信→高损失。

损失 vs 准确率

准确率只统计正确预测的数量，而损失反映错误的大小。两个模型可能有相同准确率，但一个在错误上更离谱，损失会更高。

训练循环

模型预测 → 损失函数计算错误 → 优化器更新模型 → 重复。训练初期损失高，随后快速下降并逐渐平缓。若验证损失开始上升，可能是过拟合的信号——模型可能记住了训练数据而非学习通用模式。

总结

损失函数是模型的“错题本”，它让训练有了明确目标：降低这个分数。理解损失函数后，梯度下降、反向传播、优化等概念会更容易掌握。记住：模型猜测，损失函数打分，模型根据得分调整——这就是机器学习的核心。