新手完全指南:5 分钟搞懂 AI 背后的 LLM 到底是如何运作的
本文用通俗易懂的语言为你拆解 LLM(大语言模型)的底层运作机制,包括下一个词预测、Token、训练三阶段、参数以及幻觉的由来。
如今还有谁没用过 AI 工具吗?
无论是豆包,DeepSeek,还是 ChatGPT,Claude,这些 Agent 或 AI 工具的背后都藏着一个共同的名字:LLM(大语言模型)。
日常生活中,我们早就习惯了让 AI 解决各种疑难杂症。但你是否也会好奇,当你输入一个问题时,LLM 是如何能够给出流畅自信且长达数段的回答?
读完这篇文章,你会对 LLM 产生全新的理解。
到底什么是 LLM
LLM 是 Large Language Model(大语言模型)的缩写。
我们来逐字拆解一下它背后的含义:
| 单词 | 含义 | 通俗理解 |
|---|---|---|
| Large | 数百亿甚至数千亿个内部设置(参数) | 规模极其庞大——基于海量互联网数据训练而成 |
| Language | 处理各种文本——包括文字、代码、符号等 | 它的整个世界就是由语言构成的 |
| Model | 一个寻找数学规律的工具 | 一个超强悍的概率猜测机器 |
在底层,LLM 本质上就是一个高级版的“自动补全”工具。
它并没有人类那样的“思考”、“认知”或“理解”能力。实际上,它只是阅读了海量文本,并以惊人的精准度学习接下来会出现的词语。
你可以把 LLM 理解为手机上的输入法自动补全,只不过它吞下了互联网上的大部分网页、书籍、代码和维基百科,然后将“预测下一个词”这个动作练习了上万亿次。
唯一的核心机制:预测下一个词
LLM 的所有功能都源于这一项基础技能:猜测接下来会出现什么。
想象一下,如果我让你补全这个句子:
“天空是_____“
你的大脑会瞬间浮现出几个候选词:蓝色的、多云的、低沉的、晴朗的。你还会对它们进行排序,“蓝色的”可能性显然要比“意大利面”高得多。
这种排序正是 LLM 所做的事情:它会为词表中的每个词分配一个概率。
模型在看到 “天空是…” 之后“脑补”的画面就像这样:
蓝色的 ████████████████████████████ 62%
晴朗的 ████████ 18%
多云的 █████ 12%
低沉的 ██ 5%
意大利面 ▌ 1%
模型会选择一个词(通常是概率较高的那个,同时加入一点点随机性以保证多样性),把它拼到句子后面,然后重复这套流程:预测下一个词,再下一个词,再下一个词。
当数千次这样的预测连在一起时,就生成了文章、代码、诗歌和邮件。
这就像一针一线地织围巾。每一针(每个词)都取决于前面的针脚。模型从来不会提前规划好“整条围巾”的样子,它只是不断地织出最合理的一针,直到你让它停下为止。
Token:AI 到底是如何阅读的
在进行任何预测之前,模型会先将文本切分成“token”。
这里有一个容易被忽略但至关重要的细节:LLM 阅读单词的方式和人类不同。
它们会将文本拆解为 token,这些 token 可能是一个完整的单词、单词的一部分、甚至只是单个字符。
模型完全是在用这些 token 以及与它们关联的数字进行思考。
“上下文窗口”(Context window)和计费都是以 token 而非单词为单位计算的。 当一个工具宣称它能处理 “128K token” 时,这意味着它能同时记住大约 300 页书的内容。 这也解释了为什么 LLM 有时会数错单词里的字母,因为它们看到的不是字母,而是 token。
| 文本 | 预估 token 数 | 备注 |
|---|---|---|
cat | 1 个 token | 常见短词 = 1 个片段 |
unbelievable | 3 到 4 个 token | 被拆分为 un · believ · able 这样的片段 |
| 1 页文本(约 500 个单词) | 约 650 个 token | 1 个英文单词 ≈ 1.3 个 token |
LLM 是如何训练出来的(分三个阶段)
训练能将一个空白的概率机器改造成得力助手。
刚出厂的原生模型是无法直接使用的,就像是一个没有任何记忆的大脑。
要把它打造成 ChatGPT 或 Claude,需要经历三个主要阶段:
- 预训练——“阅读整个互联网”:向模型输入海量文本(书籍、网站、代码),让它重复上百亿次“预测下一个 token”的任务。在这个过程中,它吸收了语法、事实、推理模式和写作风格。这个阶段耗资巨大且耗时漫长,这也是 LLM 中“大(Large)”的由来。
- 监督微调——“学习如何当好助手”:人类编写示例对话,向模型展示理想的回答方式。模型借此学会如何提供帮助:回答问题、执行指令、保持礼貌。
- 人类反馈强化学习(RLHF)——“学习人类的偏好”:人类对模型的回答进行评分。模型会收到反馈,引导它生成人们喜欢的回答,并规避有害或无用的回答。这是一种“精细打磨”,能让模型显得友好且安全。
| 阶段 | 目标 | 参与者 | 效果 |
|---|---|---|---|
| 预训练 | 学习语言 and 事实 | 主要是机器 + 数据 | 知识渊博,但废话连篇 |
| 微调 | 学习如何作答 | 人类编写的示例 | 表现得像个助手 |
| RLHF | 学习人类偏好 | 人类评估员 | 实用、安全、礼貌 |
模型的“知识”在训练结束的那一刻就定格了。 这就是为什么 LLM 可能不知道训练截止日期之后发生的事件(除非它接入了实时搜索或外部工具)。
模型内部到底有什么?
模型的内部并没有存放事实的数据库,相反,模型学到的所有内容都被压缩成了参数:一个数以亿计的数字“旋钮”(通常也称为权重/weights)。
在训练过程中,这些“旋钮“会被一次又一次地微调,直到模型擅长做出准确的预测。
你可以将训练好的 LLM 想象成对其阅读过所有内容的有损压缩摘要。就像一张分辨率较低、有些模糊的互联网 JPEG 格式照片。
这也是 LLM 有时会被称为“黑盒”的原因。
即使是开发这些模型的工程师,也无法指出某一个特定的“旋钮“并说“这就是存储法国首都的地方”。
这些知识其实是分散并融合在百亿级数字的协同运作之中的。
想象一个拥有 1750 亿个旋钮的巨型调音台。 训练过程就是把每个旋钮一次只挪动一丝一毫,直到放出来的音乐(即预测结果)听起来完全正确。 没人能告诉你某一个旋钮具体是起什么作用的,但它们合在一起,就能谱写出动听的乐章。
为什么 LLM 会煞有介事地胡说八道
“幻觉”是预测机制的一种固有特征,而非随机出现的程序缺陷。
由于 LLM 唯一擅长的就是生成读起来通顺合理的文章,所以它有时会输出一些听起来底气十足但完全错误的内容,这就是幻觉。
模型并没有撒谎,因为它根本没有“真实”的概念。
它只是在预测“合适”的词,而一个错误的事实完全可以像正确的事实一样流畅地拼入句子。
一本书名是编造的,或者一个数据是瞎写的,在统计学规律上,它们看起来和真的一模一样。
切勿盲目相信 LLM 提供的具体事实、数据、引用文献、法律或医学信息。 你应该把它当成一个聪明、高效、但偶尔会过度自信的员工,在关键事情上,务必进行核实。
| ✅ 适合发挥其优势的场景 | ⚠️ 需要仔细核实的场景 |
|---|---|
| 起草、重写、总结 | 具体的事实、日期、数据 |
| 头脑风暴与写大纲 | 文献引用和引言(经常是编造的) |
| 深入浅出地解释概念 | 数学与精确计算 |
| 翻译和调整语气 | 训练截止日期之后的最新新闻 |
| 编写和调试代码 | 法律、医疗、财务建议 |
如何高效使用 LLM
了解模型底层的运作机制,能让你的使用能力大大提升。
以下是直接源自 LLM 工作原理的几条核心原则:
- 提供丰富的上下文:模型仅能获取当前对话中的信息以及它此前训练学到的知识。因此,你提供的相关细节越丰富,它的预测就越精准。
- 明确输出要求:对格式、语气、长度以及目标受众提出具体要求。例如,“用 3 条要点向一个 12 岁的孩子解释”显然比“解释这个概念”要有效得多。
- 多次迭代,不要指望一蹴而就:把交互过程当成一种双向沟通。像指导资历较浅的同事一样,逐步优化和调整它的回答。
- 核实关键内容:可以用它来写初稿和拓展思路,但在涉及有实际后果的事情上,务必进行事实核查。
写 Prompt 是一门手艺。你输入的质量很大程度上决定了输出的质量。 学会写出优质的 prompt 是从 AI 中获取价值的最佳途径,甚至不需要任何编程基础。
核心要点总结
- LLM 是一个庞大的“下一个词预测器“,相当于超级版的输入法自动补全。
- 它读取的是 token,而不是单纯的英文单词或字母。
- 它的训练分为三个阶段:预训练 → 微调 → 人类反馈。
- 它的“知识”存在于数以亿计的数字旋钮中,而不是存在于数据库中。
- 它的会出现“幻觉”,也就是一本正经地胡说八道,所以务必核实事实。
- 提供更好的上下文 + 更清晰的 prompt = 产出显著提升的效果。