大模型到底是怎么工作的？——用人话讲清 AI 底层原理

2026/03/2811 分钟

分类：学习思考

标签：#AI#人工智能#教程#大语言模型

【让普通人也能驾驭 AI】欢迎访问我们的网站

网站：https://hyphentech.top

你每天用 ChatGPT、用 DeepSeek、用 Kimi，但有没有想过一个问题：这些 AI 到底是怎么「懂」你说的话的？

别慌，这篇文章不是要教你当 AI 科学家，而是用最通俗的方式帮你搞懂几个核心概念。就像你不需要懂发动机原理才能开车，但懂了之后你会知道什么时候该换挡、什么时候该踩刹车——理解原理能帮你更好地使用 AI。

而且说真的，大模型的核心思想并没有那么复杂。难的是数学推导和工程实现，但「这东西在干什么」其实几分钟就能搞明白。

🔤 第一步：AI 怎么「看懂」文字？——Token 化

电脑不认识汉字，也不认识英文。电脑只认识数字。所以 AI 做的第一件事就是把文字变成数字。

这个过程叫做 Token 化（Tokenization）。简单说就是把一句话切成一个个小块（Token），然后给每个小块一个编号。

比如「我喜欢吃火锅」可能被切成：我 / 喜欢 / 吃 / 火锅，然后变成 [3521, 8842, 2156, 15673] 这样的数字序列。

为什么这很重要？ 因为 Token 的数量直接决定了 AI 处理文本的成本和速度。你听到的「100 万 token 上下文窗口」，就是说 AI 一次能「看到」多长的文本。中文大约 1 个汉字 ≈ 1.5-2 个 token，所以 100 万 token 大约等于 50-70 万字——差不多一本长篇小说。

🧩 第二步：核心引擎——Transformer 架构

2017 年，Google 发表了一篇改变人类历史的论文：《Attention Is All You Need》（注意力就是你所需要的一切）。这篇论文提出了 Transformer 架构，它是目前所有主流大模型（ChatGPT、Claude、Gemini、DeepSeek、Kimi、豆包……）的底层引擎。

Transformer 到底在干什么？一句话：它让 AI 学会了「注意力」。

想象你在读一本侦探小说。第一章提到「管家有一把旧钥匙」，第七章提到「书房的锁被人打开了」。一个好读者会自动在大脑中把这两个信息联系起来——「管家的钥匙会不会就是打开书房的那把？」

Transformer 做的事情本质上一样：在一大段文字中，自动判断哪些词和哪些词之间关系更紧密，然后建立连接。这就是所谓的「自注意力机制」（Self-Attention）。

传统方法（RNN）是一个字一个字地读，像蜗牛爬——读到第 100 个字的时候，前面的内容已经「忘」了大半。Transformer 的革命性在于：它可以同时看到所有文字，一口气建立所有关联。这就是为什么它快、准、强。

Transformer 注意力

🎓 第三步：AI 怎么变「聪明」？——预训练 + 微调 + 对齐

大模型的训练分三个阶段，就像培养一个人才：

阶段一：预训练（Pre-training）——「读万卷书」

把互联网上几乎所有的文本（网页、书籍、论文、代码……）扔给 AI 读。AI 的任务很简单：预测下一个词。

比如给 AI 看「今天天气真」，让它猜下一个字。如果它猜「好」得 1 分，猜「差」得 0.5 分，猜「桌」得 0 分。通过几万亿次这样的训练，AI 就「学会」了语言的规律。

这个阶段消耗的算力最多、成本最高。DeepSeek 训练一个模型只花了 29 万美元，而 GPT-5 花了几千万美元——差距主要在于训练效率和架构优化。

阶段二：指令微调（SFT）——「拜师学艺」

预训练完的 AI 像一个「读了很多书但不会说人话」的书呆子。它能续写文字，但不会按你的要求回答问题。

指令微调就是给它大量的「问题-优质回答」的样本，教它「用户问这种问题的时候，应该这样回答」。这一步让 AI 从「会续写」变成「会回答」。

阶段三：对齐（Alignment）——「学做人」

光会回答还不够，AI 还需要学会「什么该说什么不该说」。这就是人类反馈强化学习（RLHF）的作用——人工标注员评估 AI 的回答质量，告诉它哪个回答更好、哪个回答有问题。AI 根据这些反馈不断调整。

DeepSeek 在这一步用了一种叫 GRPO 的方法，不需要额外训练奖励模型，直接用组内排名来优化——更便宜，效果也不差。这也是为什么 DeepSeek 能用极低成本训练出高质量模型的秘密之一。

🔥 一些常听到但不太懂的概念

参数量

你经常听到「GPT-5 有几万亿参数」「DeepSeek V4 用了 MoE 架构」。参数量就是模型里的「旋钮」数量——旋钮越多，模型能学到的模式越复杂。但参数量不是越大越好，DeepSeek 用更少的参数达到了接近的效果，靠的是更聪明的架构（MoE 混合专家模型：不是每个问题都激活所有参数，而是只激活相关的「专家」模块）。

上下文窗口（Context Window）

AI 一次能「看到」的文本长度。Claude 4.6 Opus 有 100 万 token，意味着你可以一口气扔进去一本小说让它分析。上下文越长，AI 理解你的意图就越准确。

幻觉（Hallucination）

AI 一本正经地胡说八道。比如你问「爱因斯坦的第三任妻子是谁」，AI 可能会编造一个名字。这是因为 AI 的本质是「预测下一个词」，它追求的是「听起来合理」而不是「事实正确」。

RAG（检索增强生成）

为了解决幻觉问题，RAG 的做法是：先去数据库或互联网里检索相关信息，再把检索到的内容和用户的问题一起交给 AI 回答。这样 AI 的回答就有了「参考资料」，大大减少瞎编的概率。Perplexity 的 Pro Search 本质上就是一个高级 RAG 系统。

Agent（智能体）

AI 不只是回答问题，而是能自己规划步骤、调用工具、完成任务。比如你说「帮我调研三家竞品，生成对比报告，做成 PPT」，Agent 会自动拆解成多个子任务：搜索 → 阅读 → 分析 → 写报告 → 制作 PPT，全程自主执行。Kimi 的 Agent 功能和 Claude Code 都是这个路线。

🎬 最佳学习视频推荐

想深入了解？以下是各种背景的人都能找到合适入口的视频资源：

零基础入门（不需要编程和数学）

3Blue1Brown

3Blue1Brown 的神经网络系列：用动画可视化的方式讲解神经网络和 Transformer 原理，不需要任何数学基础。这可能是全世界最好的 AI 原理科普视频

平台：YouTube / B站搬运
时长：每集约 20 分钟，共约 10 集
适合：完全零基础的人

Andrej Karpathy - Introduction to Transformers：前 OpenAI 研究总监亲自讲解 Transformer 原理，言简意赅，1 小时搞懂核心概念

平台：YouTube
时长：约 1 小时
适合：有一点技术背景的入门者

系统学习（有编程基础）

李宏毅老师的机器学习/生成式AI课程：台湾大学教授，中文讲解最透彻、最幽默的 AI 课程。B站有大量搬运视频。2025 版课程已经覆盖了最新的大模型技术

平台：B站 / 课程主页
时长：完整课程约 40 小时
适合：有 Python 基础、想系统学习的人
强烈推荐理由：中文最好的 AI 课程，没有之一

李沐「动手学深度学习」D2L：前亚马逊首席科学家，代码驱动的深度学习教程。2025 版有 171 集，从数学基础到最新模型全覆盖

平台：B站 / 在线书籍
时长：完整约 80 小时
适合：想动手写代码实现的开发者

吴恩达 DeepLearning.AI 系列课程：AI 教育界的教父级人物。15 门免费课程覆盖从机器学习基础到 Agent 开发。英文授课但有中文字幕

平台：Coursera / DeepLearning.AI
时长：每门课 2-5 小时
适合：英文不错、想拿证书的人

硬核深入（想当研究员/工程师）

Andrej Karpathy - Build nanoGPT：从零手搓一个 GPT 模型，代码逐行讲解。看完之后你真正理解大模型的每一行代码在做什么

平台：YouTube
时长：约 3 小时
适合：有 Python + PyTorch 基础的开发者

李沐论文精读系列：精读 Transformer、BERT、GPT、ViT 等重要论文，B站最好的论文导读

平台：B站
关键视频：《Attention Is All You Need》论文精读
适合：想读论文但读不进去的人

斯坦福 CS224N（NLP with Deep Learning）：NLP 领域最经典的研究生课程，2025 版已更新到最新的 LLM 技术

平台：YouTube / 课程主页
时长：约 30 小时
适合：想往 NLP/LLM 研究方向发展的人

NVIDIA

NVIDIA 深度学习培训中心（DLI）：加入 NVIDIA 开发者计划，新用户可免费学习一门价值 600 元的收费课程。涵盖生成式 AI 和大语言模型的实战课程

平台：NVIDIA DLI
适合：想拿 NVIDIA 官方认证的工程师

📚 推荐阅读材料

《Attention Is All You Need》原论文：arxiv.org/pdf/1706.03762.pdf ——一切的起点

《动手学深度学习》在线版：zh.d2l.ai ——李沐团队出品，代码 + 理论一体

《神经网络与深度学习》：nndl.github.io ——复旦邱锡鹏教授开源教材，中文

《深度学习》花书：Ian Goodfellow 等著，深度学习领域的「圣经」级教材

《机器学习》西瓜书：周志华著，国内最经典的机器学习教材

🏆 学习路线建议

不知道从哪开始？看你是谁：

完全零基础，就想搞懂 AI 在干嘛 → 3Blue1Brown 动画 → Karpathy 的 1 小时入门

有编程基础，想系统学习 → 李宏毅课程 → D2L 动手学 → 吴恩达专项课

开发者，想动手造东西 → Karpathy Build nanoGPT → Hugging Face NLP Course → LangChain 实战

研究者，想读论文搞研究 → 李沐论文精读 → CS224N → 直接读论文

最重要的一条建议：不要试图「学完再用」，而是「边用边学」。 先把 ChatGPT/Claude/DeepSeek 用起来，遇到不懂的概念再去查，比从头系统学习效率高十倍。

黑粉科技 | hyphentech.top | 让普通人也能驾驭 AI

本文为「AI 学习」系列第一篇。下一篇将整理大模型学习的免费共享资料合集。

分享到：