新手完全指南：5 分钟搞懂 AI 背后的 LLM 到底是如何运作的

本文用通俗易懂的语言为你拆解 LLM（大语言模型）的底层运作机制，包括下一个词预测、Token、训练三阶段、参数以及幻觉的由来。

Enivia

2026年6月9日 • 6 分钟阅读

如今还有谁没用过 AI 工具吗？

无论是豆包，DeepSeek，还是 ChatGPT，Claude，这些 Agent 或 AI 工具的背后都藏着一个共同的名字：LLM（大语言模型）。

日常生活中，我们早就习惯了让 AI 解决各种疑难杂症。但你是否也会好奇，当你输入一个问题时，LLM 是如何能够给出流畅自信且长达数段的回答？

读完这篇文章，你会对 LLM 产生全新的理解。

到底什么是 LLM

LLM 是 Large Language Model（大语言模型）的缩写。

我们来逐字拆解一下它背后的含义：

单词	含义	通俗理解
Large	数百亿甚至数千亿个内部设置（参数）	规模极其庞大——基于海量互联网数据训练而成
Language	处理各种文本——包括文字、代码、符号等	它的整个世界就是由语言构成的
Model	一个寻找数学规律的工具	一个超强悍的概率猜测机器

在底层，LLM 本质上就是一个高级版的“自动补全”工具。

它并没有人类那样的“思考”、“认知”或“理解”能力。实际上，它只是阅读了海量文本，并以惊人的精准度学习接下来会出现的词语。

你可以把 LLM 理解为手机上的输入法自动补全，只不过它吞下了互联网上的大部分网页、书籍、代码和维基百科，然后将“预测下一个词”这个动作练习了上万亿次。

唯一的核心机制：预测下一个词

LLM 的所有功能都源于这一项基础技能：猜测接下来会出现什么。

LLM 运作机制概览图

想象一下，如果我让你补全这个句子：

“天空是_____“

你的大脑会瞬间浮现出几个候选词：蓝色的、多云的、低沉的、晴朗的。你还会对它们进行排序，“蓝色的”可能性显然要比“意大利面”高得多。

这种排序正是 LLM 所做的事情：它会为词表中的每个词分配一个概率。

模型在看到 “天空是…” 之后“脑补”的画面就像这样：

蓝色的      ████████████████████████████  62%
晴朗的      ████████                       18%
多云的      █████                          12%
低沉的      ██                              5%
意大利面    ▌                               1%

模型会选择一个词（通常是概率较高的那个，同时加入一点点随机性以保证多样性），把它拼到句子后面，然后重复这套流程：预测下一个词，再下一个词，再下一个词。

当数千次这样的预测连在一起时，就生成了文章、代码、诗歌和邮件。

这就像一针一线地织围巾。每一针（每个词）都取决于前面的针脚。模型从来不会提前规划好“整条围巾”的样子，它只是不断地织出最合理的一针，直到你让它停下为止。

Token：AI 到底是如何阅读的

在进行任何预测之前，模型会先将文本切分成“token”。

Token 切分和文本理解示意图

这里有一个容易被忽略但至关重要的细节：LLM 阅读单词的方式和人类不同。

它们会将文本拆解为 token，这些 token 可能是一个完整的单词、单词的一部分、甚至只是单个字符。

模型完全是在用这些 token 以及与它们关联的数字进行思考。

“上下文窗口”（Context window）和计费都是以 token 而非单词为单位计算的。当一个工具宣称它能处理 “128K token” 时，这意味着它能同时记住大约 300 页书的内容。这也解释了为什么 LLM 有时会数错单词里的字母，因为它们看到的不是字母，而是 token。

文本	预估 token 数	备注
`cat`	1 个 token	常见短词 = 1 个片段
`unbelievable`	3 到 4 个 token	被拆分为 un · believ · able 这样的片段
1 页文本（约 500 个单词）	约 650 个 token	1 个英文单词 ≈ 1.3 个 token

LLM 是如何训练出来的（分三个阶段）

训练能将一个空白的概率机器改造成得力助手。

LLM 训练阶段示意图

刚出厂的原生模型是无法直接使用的，就像是一个没有任何记忆的大脑。

要把它打造成 ChatGPT 或 Claude，需要经历三个主要阶段：

预训练——“阅读整个互联网”：向模型输入海量文本（书籍、网站、代码），让它重复上百亿次“预测下一个 token”的任务。在这个过程中，它吸收了语法、事实、推理模式和写作风格。这个阶段耗资巨大且耗时漫长，这也是 LLM 中“大（Large）”的由来。
监督微调——“学习如何当好助手”：人类编写示例对话，向模型展示理想的回答方式。模型借此学会如何提供帮助：回答问题、执行指令、保持礼貌。
人类反馈强化学习（RLHF）——“学习人类的偏好”：人类对模型的回答进行评分。模型会收到反馈，引导它生成人们喜欢的回答，并规避有害或无用的回答。这是一种“精细打磨”，能让模型显得友好且安全。

阶段	目标	参与者	效果
预训练	学习语言 and 事实	主要是机器 + 数据	知识渊博，但废话连篇
微调	学习如何作答	人类编写的示例	表现得像个助手
RLHF	学习人类偏好	人类评估员	实用、安全、礼貌

模型的“知识”在训练结束的那一刻就定格了。这就是为什么 LLM 可能不知道训练截止日期之后发生的事件（除非它接入了实时搜索或外部工具）。

模型内部到底有什么？

模型的内部并没有存放事实的数据库，相反，模型学到的所有内容都被压缩成了参数：一个数以亿计的数字“旋钮”（通常也称为权重/weights）。

在训练过程中，这些“旋钮“会被一次又一次地微调，直到模型擅长做出准确的预测。

你可以将训练好的 LLM 想象成对其阅读过所有内容的有损压缩摘要。就像一张分辨率较低、有些模糊的互联网 JPEG 格式照片。

这也是 LLM 有时会被称为“黑盒”的原因。

即使是开发这些模型的工程师，也无法指出某一个特定的“旋钮“并说“这就是存储法国首都的地方”。

这些知识其实是分散并融合在百亿级数字的协同运作之中的。

想象一个拥有 1750 亿个旋钮的巨型调音台。训练过程就是把每个旋钮一次只挪动一丝一毫，直到放出来的音乐（即预测结果）听起来完全正确。没人能告诉你某一个旋钮具体是起什么作用的，但它们合在一起，就能谱写出动听的乐章。

为什么 LLM 会煞有介事地胡说八道

“幻觉”是预测机制的一种固有特征，而非随机出现的程序缺陷。

LLM 幻觉产生原因示意图

由于 LLM 唯一擅长的就是生成读起来通顺合理的文章，所以它有时会输出一些听起来底气十足但完全错误的内容，这就是幻觉。

模型并没有撒谎，因为它根本没有“真实”的概念。

它只是在预测“合适”的词，而一个错误的事实完全可以像正确的事实一样流畅地拼入句子。

一本书名是编造的，或者一个数据是瞎写的，在统计学规律上，它们看起来和真的一模一样。

切勿盲目相信 LLM 提供的具体事实、数据、引用文献、法律或医学信息。你应该把它当成一个聪明、高效、但偶尔会过度自信的员工，在关键事情上，务必进行核实。

✅ 适合发挥其优势的场景	⚠️ 需要仔细核实的场景
起草、重写、总结	具体的事实、日期、数据
头脑风暴与写大纲	文献引用和引言（经常是编造的）
深入浅出地解释概念	数学与精确计算
翻译和调整语气	训练截止日期之后的最新新闻
编写和调试代码	法律、医疗、财务建议