我写了一本从零实现深度学习与大语言模型的入门教程:
从人工神经元到聊天机器人
一本 从零实现深度学习与大语言模型 的入门教程
从最基础的 人工神经元 开始,逐步构建完整的深度学习训练框架,并最终实现一个可以进行文本生成和对话的 GPT 聊天模型。
全部使用 NumPy 从零实现,不依赖于任何深度学习框架,帮助读者真正理解现代深度学习模型的内部原理。
所有模型与算法均使用 NumPy 实现:
不依赖深度学习框架,所有核心算法完全透明。
读者可以看到每一步计算的具体实现。
本书不仅介绍模型,还会一步步构建一个深度学习框架,包括:
张量(Tensor),自动微分(Autodiff),优化器(Optimizer),数据集(Dataset),模型结构(Model)...
读者将从零实现一个简化版的 深度学习框架。
从最基础模型一直到现代 大语言模型(LLM):
人工神经元 → 多层感知机 (MLP) → 卷积神经网络 (CNN) → 循环神经网络 (RNN / LSTM) → Transformer → GPT
最终实现一个可以 生成文本的 GPT 模型。
本书的每一章均采用 Jupyter Notebook () 编写:
每个章节都可以 独立运行,代码与解释 紧密结合,方便读者实验与修改。
读者可以一步步运行代码,观察模型训练过程。
现代深度学习框架极大降低了使用门槛,但也隐藏了很多关键细节。这本书想做的事情只有一件:
理解每一行代码背后的数学与算法
GitHub 代码仓库:github.com/n2gpt/from-…
电子书地址(免费):从人工神经元到聊天机器人
欢迎 Star,也欢迎在评论区告诉我哪里讲得还不够清楚。
目录
第一部分:神经网络模型
- 多层感知机(已完成)
- 深度学习框架(已完成)
- 卷积神经网络(每天一章,进行中)
- 循环神经网络
第二部分:大语言模型
- 分词器
- 自注意力机制
- 预训练
- 微调
- 推理
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/233054.html