2026-04-18站内改写

我理解LLM架构的工作流程

一种学习导向的工作流程，用于理解新发布的开源权重模型。从官方技术报告开始，但论文往往不够详细；然后利用Hugging Face上的配置文件和参考实现来获取架构细节。这个过程主要是手动的，适合开源权重模型，并且手动操作是学习架构的最佳练习之一。

文章情报

工程师进阶

要点

从官方技术报告开始，但论文现在往往不够详细
利用Hugging Face上的配置文件和参考实现来获取架构细节
这个过程主要是手动的，适合开源权重模型
手动操作是学习架构的最佳练习之一

为什么重要

这条新闻值得关注，因为从官方技术报告开始，但论文现在往往不够详细。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

过去几个月，很多人问我，我在文章、演讲和LLM-Gallery中使用的LLM架构草图是如何生成的。因此，我认为记录一下我通常遵循的流程会很有用。

简而言之，我通常从官方技术报告开始。但如今，论文往往不如以前详细，特别是对于大多数来自工业实验室的开源权重模型。好在如果权重在Hugging Face模型中心共享，并且模型在Python transformers库中得到支持，我们就可以直接检查配置文件（config file）和参考实现（reference implementation），从而获取更多架构细节。毕竟，“工作的代码”不会说谎。

需要说明的是，这个流程主要适用于开源权重模型，并不适用于像ChatGPT、Claude或Gemini这类权重和细节都专有的模型。此外，这故意是一个相当手动化的过程。你可以自动化部分步骤，但如果你目标是学习这些架构是如何工作的，那么亲手做几次仍然是最好的练习之一。