2026年保姆级教程~本地微调DeepSeek-R1-8b模型

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

1.1 文档说明

笔者正在从传统云计算行业向AI靠拢中，相关底层理论知识也正在学习中，所以此篇微调DeepSeek-R1-Distill-Llama-8B模型的操作文档是参考其他教学资料（在本文最后已经注明）所做的操作记录，其中已经将相关问题如下载模型大文件、操作过程中相关python库版本问题、wandb认证问题等解决，并记录在此文档中。

所以说这是一篇保姆级别的”微调DeepSeek-R1-Distill-Llama-8B模型”的操作文章，只要稍微懂点计算机软件知识就可以成功复现此文章中所述内容。

此文档中使用到了NVIDIA A40，如果GPU显存或算力更低，可以尝试使用更少参数版本DeepSeek-R1蒸馏模型比如1.5B，它仅靠CPU就可以运行。

1.2 服务器与GPU准备

此次使用的服务器是一个x86_64构架的Hygon C86 5380物理服务器，具体信息如下：

主机名 IP 操作系统规格 GPU情况备注 controller01 172.20.0.21 Ubuntu 20.04.3 LTS -amd64 32c64g+960G NVIDIA A40*1

相关重要软件版本（后面3个是python库的版本，建议使用conda创建一个虚拟环境并安装此版本。在其他软件版本固定的情况下，unsloth使用2025.2.5之外的版本就报错）：

• GPU驱动版本：550.54.15
• Cuda版本：V12.4.131
• torch版本：2.6.0
• transformers版本：4.48.3
• unsloth版本：2025.2.5

1.3 大模型微调定义

利用特定领域的数据集对已预训练的大模型进行进一步训练的过程。它旨在优化模型在特定任务上的性能，使模型能够更好地适应和完成特定领域的任务。其中最重要的是超参数（如学习率、批次大小和训练轮次）调整优化。转成大白话就是调整大模型中一些参数的值，使其在特定数据集上表现更优秀。

2.1 模型文件下载

本来是想去huggingface上下载相关模型文件与数据集，由于huggingface需要梯子才能访问，不便操作。所以此文档中是在国内网络可正常访问魔搭平台上下载模型与数据集。

2.2 训练数据集文件下载

访问魔搭，搜索“medical-o1-reasoning-SFT”数据集并下载（此处会有两个同名数据集，但上传者不同，我选择了下载量更大的https://modelscope.cn/datasets/AI-ModelScope/medical-o1-reasoning-SFT）。

3.1 wandb token准备

去wandb官网注册一个账号、申请一个token，并记录此token，后续要用。

注：

• wandb的意思是”weights and biases“，网上没有找到现成的翻译，我直译为权重与偏差。
• 关于W&B的介绍：W&B 是一个平台，可帮助数据科学家跟踪他们的模型、数据集、系统信息等。只需几行代码，就可以开始跟踪有关这些功能的所有内容。它是免费供个人使用的。团队使用通常是付费的，但用于学术目的的团队是免费的。可以将 W&B 与自己喜欢的框架一起使用，例如 TensorFlow、Keras、PyTorch、SKlearn、fastai 等。所有跟踪信息都发送到 W&B UI 上的专用项目页面，可以在其中打开高质量的可视化、汇总信息并比较模型或参数。