从零构建大模型
1. 本书目标
目的在构建一个 类似 GPT 的东西.
实际上作者也是在阅读了大量文献后才找到了方向, 前期也是非常迷惑的.
大模型之所以称为大模型是指其参数非常巨大, 相比较与机器学习中的参数而言, 比如一些分类等的项目, 参数只有几个, 相比大模型而言, 其参数是非常巨大的.
本书还讨论了:
- 文本处理方法
- 编码注意力机制
- 预训练机制
- 针对文本分类和指令遵循等特定任务的微调
本书的模型相对比市场上的模型简单, 但原理相同, 本质相同.
从介绍来看, 本书更像是一本黑皮书, 从一个精简模型探究本质.
本书的基本要求:
- 对机器学习背景基本没要求. 但是如果有更好.
- 如果有深度学习的经理, 会更容易.
- 对 Python 编码能力是有一定要求的
- PyTorch 需要, 但不必精通, 附录 A 有介绍, 足够使用.
- 如果具备高等数学, 向量, 矩阵等知识, 对理解有帮助. 但不是必须.
所有的要求都可以忽略, 但是必须具备较高的 Python 的编码能力.
2. 本书概览
全书 7 章, 循序渐进.
- 一个宏观的介绍, 探讨了 Transformer 架构. 这个基础.
- 提供一个构建计划. 包含准备训练文本的过程, 以及对文本进行拆分的过程. 包括一个采样训练, 向量形式.
- 重点介绍注意力机制. 包括一些背后技术.
- 一个雏形. 编写一个能通过训练生成类似人类语言文本的类 GPT 大语言模型. 包括一些背后技术.
- 实现预训练流程.
- 介绍多种微调方法.
- 指令微调过程.
如果零基础, 建议从附录 A 开始, 它从 PyTorch 开始介绍.
