AI

新手完全指南:5 分钟搞懂 AI 背后的 LLM 到底是如何运作的

本文用通俗易懂的语言为你拆解 LLM(大语言模型)的底层运作机制,包括下一个词预测、Token、训练三阶段、参数以及幻觉的由来。

Enivia
6 分钟阅读

如今还有谁没用过 AI 工具吗?

无论是豆包,DeepSeek,还是 ChatGPT,Claude,这些 Agent 或 AI 工具的背后都藏着一个共同的名字:LLM(大语言模型)

日常生活中,我们早就习惯了让 AI 解决各种疑难杂症。但你是否也会好奇,当你输入一个问题时,LLM 是如何能够给出流畅自信且长达数段的回答?

读完这篇文章,你会对 LLM 产生全新的理解。

到底什么是 LLM

LLM 是 Large Language Model(大语言模型)的缩写。

我们来逐字拆解一下它背后的含义:

单词含义通俗理解
Large数百亿甚至数千亿个内部设置(参数)规模极其庞大——基于海量互联网数据训练而成
Language处理各种文本——包括文字、代码、符号等它的整个世界就是由语言构成的
Model一个寻找数学规律的工具一个超强悍的概率猜测机器

在底层,LLM 本质上就是一个高级版的“自动补全”工具

它并没有人类那样的“思考”、“认知”或“理解”能力。实际上,它只是阅读了海量文本,并以惊人的精准度学习接下来会出现的词语

你可以把 LLM 理解为手机上的输入法自动补全,只不过它吞下了互联网上的大部分网页、书籍、代码和维基百科,然后将“预测下一个词”这个动作练习了上万亿次。

唯一的核心机制:预测下一个词

LLM 的所有功能都源于这一项基础技能:猜测接下来会出现什么

LLM 运作机制概览图

想象一下,如果我让你补全这个句子:

“天空是_____“

你的大脑会瞬间浮现出几个候选词:蓝色的、多云的、低沉的、晴朗的。你还会对它们进行排序,“蓝色的”可能性显然要比“意大利面”高得多。

这种排序正是 LLM 所做的事情:它会为词表中的每个词分配一个概率

模型在看到 “天空是…” 之后“脑补”的画面就像这样:

蓝色的      ████████████████████████████  62%
晴朗的      ████████                       18%
多云的      █████                          12%
低沉的      ██                              5%
意大利面    ▌                               1%

模型会选择一个词(通常是概率较高的那个,同时加入一点点随机性以保证多样性),把它拼到句子后面,然后重复这套流程:预测下一个词,再下一个词,再下一个词。

当数千次这样的预测连在一起时,就生成了文章、代码、诗歌和邮件。

这就像一针一线地织围巾。每一针(每个词)都取决于前面的针脚。模型从来不会提前规划好“整条围巾”的样子,它只是不断地织出最合理的一针,直到你让它停下为止。

Token:AI 到底是如何阅读的

在进行任何预测之前,模型会先将文本切分成“token”。

Token 切分和文本理解示意图

这里有一个容易被忽略但至关重要的细节:LLM 阅读单词的方式和人类不同

它们会将文本拆解为 token,这些 token 可能是一个完整的单词、单词的一部分、甚至只是单个字符。

模型完全是在用这些 token 以及与它们关联的数字进行思考。

“上下文窗口”(Context window)和计费都是以 token 而非单词为单位计算的。 当一个工具宣称它能处理 “128K token” 时,这意味着它能同时记住大约 300 页书的内容。 这也解释了为什么 LLM 有时会数错单词里的字母,因为它们看到的不是字母,而是 token。

文本预估 token 数备注
cat1 个 token常见短词 = 1 个片段
unbelievable3 到 4 个 token被拆分为 un · believ · able 这样的片段
1 页文本(约 500 个单词)约 650 个 token1 个英文单词 ≈ 1.3 个 token

LLM 是如何训练出来的(分三个阶段)

训练能将一个空白的概率机器改造成得力助手。

LLM 训练阶段示意图

刚出厂的原生模型是无法直接使用的,就像是一个没有任何记忆的大脑。

要把它打造成 ChatGPT 或 Claude,需要经历三个主要阶段:

  1. 预训练——“阅读整个互联网”:向模型输入海量文本(书籍、网站、代码),让它重复上百亿次“预测下一个 token”的任务。在这个过程中,它吸收了语法、事实、推理模式和写作风格。这个阶段耗资巨大且耗时漫长,这也是 LLM 中“大(Large)”的由来。
  2. 监督微调——“学习如何当好助手”:人类编写示例对话,向模型展示理想的回答方式。模型借此学会如何提供帮助:回答问题、执行指令、保持礼貌。
  3. 人类反馈强化学习(RLHF)——“学习人类的偏好”:人类对模型的回答进行评分。模型会收到反馈,引导它生成人们喜欢的回答,并规避有害或无用的回答。这是一种“精细打磨”,能让模型显得友好且安全。
阶段目标参与者效果
预训练学习语言 and 事实主要是机器 + 数据知识渊博,但废话连篇
微调学习如何作答人类编写的示例表现得像个助手
RLHF学习人类偏好人类评估员实用、安全、礼貌

模型的“知识”在训练结束的那一刻就定格了。 这就是为什么 LLM 可能不知道训练截止日期之后发生的事件(除非它接入了实时搜索或外部工具)。

模型内部到底有什么?

模型的内部并没有存放事实的数据库,相反,模型学到的所有内容都被压缩成了参数:一个数以亿计的数字“旋钮”(通常也称为权重/weights)。

在训练过程中,这些“旋钮“会被一次又一次地微调,直到模型擅长做出准确的预测。

你可以将训练好的 LLM 想象成对其阅读过所有内容的有损压缩摘要。就像一张分辨率较低、有些模糊的互联网 JPEG 格式照片。

这也是 LLM 有时会被称为“黑盒”的原因。

即使是开发这些模型的工程师,也无法指出某一个特定的“旋钮“并说“这就是存储法国首都的地方”。

这些知识其实是分散并融合在百亿级数字的协同运作之中的。

想象一个拥有 1750 亿个旋钮的巨型调音台。 训练过程就是把每个旋钮一次只挪动一丝一毫,直到放出来的音乐(即预测结果)听起来完全正确。 没人能告诉你某一个旋钮具体是起什么作用的,但它们合在一起,就能谱写出动听的乐章。

为什么 LLM 会煞有介事地胡说八道

“幻觉”是预测机制的一种固有特征,而非随机出现的程序缺陷。

LLM 幻觉产生原因示意图

由于 LLM 唯一擅长的就是生成读起来通顺合理的文章,所以它有时会输出一些听起来底气十足但完全错误的内容,这就是幻觉。

模型并没有撒谎,因为它根本没有“真实”的概念。

它只是在预测“合适”的词,而一个错误的事实完全可以像正确的事实一样流畅地拼入句子。

一本书名是编造的,或者一个数据是瞎写的,在统计学规律上,它们看起来和真的一模一样。

切勿盲目相信 LLM 提供的具体事实、数据、引用文献、法律或医学信息。 你应该把它当成一个聪明、高效、但偶尔会过度自信的员工,在关键事情上,务必进行核实。

✅ 适合发挥其优势的场景⚠️ 需要仔细核实的场景
起草、重写、总结具体的事实、日期、数据
头脑风暴与写大纲文献引用和引言(经常是编造的)
深入浅出地解释概念数学与精确计算
翻译和调整语气训练截止日期之后的最新新闻
编写和调试代码法律、医疗、财务建议

如何高效使用 LLM

了解模型底层的运作机制,能让你的使用能力大大提升。

以下是直接源自 LLM 工作原理的几条核心原则:

  1. 提供丰富的上下文:模型仅能获取当前对话中的信息以及它此前训练学到的知识。因此,你提供的相关细节越丰富,它的预测就越精准。
  2. 明确输出要求:对格式、语气、长度以及目标受众提出具体要求。例如,“用 3 条要点向一个 12 岁的孩子解释”显然比“解释这个概念”要有效得多。
  3. 多次迭代,不要指望一蹴而就:把交互过程当成一种双向沟通。像指导资历较浅的同事一样,逐步优化和调整它的回答。
  4. 核实关键内容:可以用它来写初稿和拓展思路,但在涉及有实际后果的事情上,务必进行事实核查。

写 Prompt 是一门手艺。你输入的质量很大程度上决定了输出的质量。 学会写出优质的 prompt 是从 AI 中获取价值的最佳途径,甚至不需要任何编程基础。

核心要点总结

  1. LLM 是一个庞大的“下一个词预测器“,相当于超级版的输入法自动补全。
  2. 它读取的是 token,而不是单纯的英文单词或字母。
  3. 它的训练分为三个阶段:预训练 → 微调 → 人类反馈。
  4. 它的“知识”存在于数以亿计的数字旋钮中,而不是存在于数据库中。
  5. 它的会出现“幻觉”,也就是一本正经地胡说八道,所以务必核实事实。
  6. 提供更好的上下文 + 更清晰的 prompt = 产出显著提升的效果。
Enivia's Blog
AI 资讯· 热门文章 · Agent 工具 · Vibe Coding · 技术热点 · 效率工具
© 2026 Enivia's Blog. Built with curiosity and code.