jk's notes
  • 从零构建大模型

从零构建大模型

1. 本书目标

目的在构建一个 类似 GPT 的东西.

实际上作者也是在阅读了大量文献后才找到了方向, 前期也是非常迷惑的.

大模型之所以称为大模型是指其参数非常巨大, 相比较与机器学习中的参数而言, 比如一些分类等的项目, 参数只有几个, 相比大模型而言, 其参数是非常巨大的.

本书还讨论了:

  1. 文本处理方法
  2. 编码注意力机制
  3. 预训练机制
  4. 针对文本分类和指令遵循等特定任务的微调

本书的模型相对比市场上的模型简单, 但原理相同, 本质相同.

从介绍来看, 本书更像是一本黑皮书, 从一个精简模型探究本质.

本书的基本要求:

  1. 对机器学习背景基本没要求. 但是如果有更好.
  2. 如果有深度学习的经理, 会更容易.
  3. 对 Python 编码能力是有一定要求的
  4. PyTorch 需要, 但不必精通, 附录 A 有介绍, 足够使用.
  5. 如果具备高等数学, 向量, 矩阵等知识, 对理解有帮助. 但不是必须.

所有的要求都可以忽略, 但是必须具备较高的 Python 的编码能力.

2. 本书概览

全书 7 章, 循序渐进.

  1. 一个宏观的介绍, 探讨了 Transformer 架构. 这个基础.
  2. 提供一个构建计划. 包含准备训练文本的过程, 以及对文本进行拆分的过程. 包括一个采样训练, 向量形式.
  3. 重点介绍注意力机制. 包括一些背后技术.
  4. 一个雏形. 编写一个能通过训练生成类似人类语言文本的类 GPT 大语言模型. 包括一些背后技术.
  5. 实现预训练流程.
  6. 介绍多种微调方法.
  7. 指令微调过程.

如果零基础, 建议从附录 A 开始, 它从 PyTorch 开始介绍.

  1. 附录A PyTorch 简介

image-20260109094548613

Last Updated: 1/9/26, 2:07 PM
Contributors: jk