大模型到底是怎么工作的?——用人话讲清 AI 底层原理

大模型到底是怎么工作的?——用人话讲清 AI 底层原理

2026/03/289 分钟
分类:学习思考
标签:#AI#人工智能#教程#大语言模型

【让普通人也能驾驭 AI】欢迎访问我们的网站

你每天用 ChatGPT、用 DeepSeek、用 Kimi,但有没有想过一个问题:这些 AI 到底是怎么「懂」你说的话的?
别慌,这篇文章不是要教你当 AI 科学家,而是用最通俗的方式帮你搞懂几个核心概念。就像你不需要懂发动机原理才能开车,但懂了之后你会知道什么时候该换挡、什么时候该踩刹车——理解原理能帮你更好地使用 AI。
而且说真的,大模型的核心思想并没有那么复杂。难的是数学推导和工程实现,但「这东西在干什么」其实几分钟就能搞明白。

AI 大脑
AI 大脑

🔤 第一步:AI 怎么「看懂」文字?——Token 化

电脑不认识汉字,也不认识英文。电脑只认识数字。所以 AI 做的第一件事就是把文字变成数字
这个过程叫做 Token 化(Tokenization)。简单说就是把一句话切成一个个小块(Token),然后给每个小块一个编号。
比如「我喜欢吃火锅」可能被切成:我 / 喜欢 / 吃 / 火锅,然后变成 [3521, 8842, 2156, 15673] 这样的数字序列。
为什么这很重要? 因为 Token 的数量直接决定了 AI 处理文本的成本和速度。你听到的「100 万 token 上下文窗口」,就是说 AI 一次能「看到」多长的文本。中文大约 1 个汉字 ≈ 1.5-2 个 token,所以 100 万 token 大约等于 50-70 万字——差不多一本长篇小说。

Token 化过程
Token 化过程

🧩 第二步:核心引擎——Transformer 架构

2017 年,Google 发表了一篇改变人类历史的论文:《Attention Is All You Need》(注意力就是你所需要的一切)。这篇论文提出了 Transformer 架构,它是目前所有主流大模型(ChatGPT、Claude、Gemini、DeepSeek、Kimi、豆包……)的底层引擎。
Transformer 到底在干什么?一句话:它让 AI 学会了「注意力」。
想象你在读一本侦探小说。第一章提到「管家有一把旧钥匙」,第七章提到「书房的锁被人打开了」。一个好读者会自动在大脑中把这两个信息联系起来——「管家的钥匙会不会就是打开书房的那把?」
Transformer 做的事情本质上一样:在一大段文字中,自动判断哪些词和哪些词之间关系更紧密,然后建立连接。这就是所谓的「自注意力机制」(Self-Attention)。
传统方法(RNN)是一个字一个字地读,像蜗牛爬——读到第 100 个字的时候,前面的内容已经「忘」了大半。Transformer 的革命性在于:它可以同时看到所有文字,一口气建立所有关联。这就是为什么它快、准、强。

Transformer 注意力
Transformer 注意力

🎓 第三步:AI 怎么变「聪明」?——预训练 + 微调 + 对齐

大模型的训练分三个阶段,就像培养一个人才:

阶段一:预训练(Pre-training)——「读万卷书」

把互联网上几乎所有的文本(网页、书籍、论文、代码……)扔给 AI 读。AI 的任务很简单:预测下一个词。
比如给 AI 看「今天天气真」,让它猜下一个字。如果它猜「好」得 1 分,猜「差」得 0.5 分,猜「桌」得 0 分。通过几万亿次这样的训练,AI 就「学会」了语言的规律。
这个阶段消耗的算力最多、成本最高。DeepSeek 训练一个模型只花了 29 万美元,而 GPT-5 花了几千万美元——差距主要在于训练效率和架构优化。

阶段二:指令微调(SFT)——「拜师学艺」

预训练完的 AI 像一个「读了很多书但不会说人话」的书呆子。它能续写文字,但不会按你的要求回答问题。
指令微调就是给它大量的「问题-优质回答」的样本,教它「用户问这种问题的时候,应该这样回答」。这一步让 AI 从「会续写」变成「会回答」。

阶段三:对齐(Alignment)——「学做人」

光会回答还不够,AI 还需要学会「什么该说什么不该说」。这就是人类反馈强化学习(RLHF)的作用——人工标注员评估 AI 的回答质量,告诉它哪个回答更好、哪个回答有问题。AI 根据这些反馈不断调整。
DeepSeek 在这一步用了一种叫 GRPO 的方法,不需要额外训练奖励模型,直接用组内排名来优化——更便宜,效果也不差。这也是为什么 DeepSeek 能用极低成本训练出高质量模型的秘密之一。

训练过程
训练过程

🔥 一些常听到但不太懂的概念

AI 核心概念
AI 核心概念

参数量

你经常听到「GPT-5 有几万亿参数」「DeepSeek V4 用了 MoE 架构」。参数量就是模型里的「旋钮」数量——旋钮越多,模型能学到的模式越复杂。但参数量不是越大越好,DeepSeek 用更少的参数达到了接近的效果,靠的是更聪明的架构(MoE 混合专家模型:不是每个问题都激活所有参数,而是只激活相关的「专家」模块)。

上下文窗口(Context Window)

AI 一次能「看到」的文本长度。Claude 4.6 Opus 有 100 万 token,意味着你可以一口气扔进去一本小说让它分析。上下文越长,AI 理解你的意图就越准确。

幻觉(Hallucination)

AI 一本正经地胡说八道。比如你问「爱因斯坦的第三任妻子是谁」,AI 可能会编造一个名字。这是因为 AI 的本质是「预测下一个词」,它追求的是「听起来合理」而不是「事实正确」。
RAG 架构
RAG 架构

RAG(检索增强生成)

为了解决幻觉问题,RAG 的做法是:先去数据库或互联网里检索相关信息,再把检索到的内容和用户的问题一起交给 AI 回答。这样 AI 的回答就有了「参考资料」,大大减少瞎编的概率。Perplexity 的 Pro Search 本质上就是一个高级 RAG 系统。
Agent 智能体
Agent 智能体

Agent(智能体)

AI 不只是回答问题,而是能自己规划步骤、调用工具、完成任务。比如你说「帮我调研三家竞品,生成对比报告,做成 PPT」,Agent 会自动拆解成多个子任务:搜索 → 阅读 → 分析 → 写报告 → 制作 PPT,全程自主执行。Kimi 的 Agent 功能和 Claude Code 都是这个路线。

🎬 最佳学习视频推荐

想深入了解?以下是各种背景的人都能找到合适入口的视频资源:

零基础入门(不需要编程和数学)

3Blue1Brown
3Blue1Brown
  • 3Blue1Brown 的神经网络系列:用动画可视化的方式讲解神经网络和 Transformer 原理,不需要任何数学基础。这可能是全世界最好的 AI 原理科普视频
    • 平台:YouTube / B站搬运
    • 时长:每集约 20 分钟,共约 10 集
    • 适合:完全零基础的人
  • Andrej Karpathy - Introduction to Transformers:前 OpenAI 研究总监亲自讲解 Transformer 原理,言简意赅,1 小时搞懂核心概念
    • 平台:YouTube
    • 时长:约 1 小时
    • 适合:有一点技术背景的入门者

系统学习(有编程基础)

李宏毅老师
李宏毅老师
  • 李宏毅老师的机器学习/生成式AI课程:台湾大学教授,中文讲解最透彻、最幽默的 AI 课程。B站有大量搬运视频。2025 版课程已经覆盖了最新的大模型技术
    • 平台:B站 / 课程主页
    • 时长:完整课程约 40 小时
    • 适合:有 Python 基础、想系统学习的人
    • 强烈推荐理由:中文最好的 AI 课程,没有之一
  • 李沐「动手学深度学习」D2L:前亚马逊首席科学家,代码驱动的深度学习教程。2025 版有 171 集,从数学基础到最新模型全覆盖
    • 平台:B站 / 在线书籍
    • 时长:完整约 80 小时
    • 适合:想动手写代码实现的开发者
  • 吴恩达 DeepLearning.AI 系列课程:AI 教育界的教父级人物。15 门免费课程覆盖从机器学习基础到 Agent 开发。英文授课但有中文字幕
硬核学习
硬核学习

硬核深入(想当研究员/工程师)

  • Andrej Karpathy - Build nanoGPT:从零手搓一个 GPT 模型,代码逐行讲解。看完之后你真正理解大模型的每一行代码在做什么
    • 平台:YouTube
    • 时长:约 3 小时
    • 适合:有 Python + PyTorch 基础的开发者
  • 李沐论文精读系列:精读 Transformer、BERT、GPT、ViT 等重要论文,B站最好的论文导读
    • 平台:B站
    • 关键视频:《Attention Is All You Need》论文精读
    • 适合:想读论文但读不进去的人
  • 斯坦福 CS224N(NLP with Deep Learning):NLP 领域最经典的研究生课程,2025 版已更新到最新的 LLM 技术
    • 平台:YouTube / 课程主页
    • 时长:约 30 小时
    • 适合:想往 NLP/LLM 研究方向发展的人
NVIDIA
NVIDIA
  • NVIDIA 深度学习培训中心(DLI):加入 NVIDIA 开发者计划,新用户可免费学习一门价值 600 元的收费课程。涵盖生成式 AI 和大语言模型的实战课程

    📚 推荐阅读材料

    • 《动手学深度学习》在线版zh.d2l.ai ——李沐团队出品,代码 + 理论一体
    分享到:

    相关文章

    返回首页