预训练和微调模型的区别（pytorch微调预训练模型）

科技前沿 • 2025-05-13 11:25 • 阅读 48

大家好，我是讯享网，很高兴认识大家。

下面是一个使用GPT-2进行微调的示例。以文本生成为例，我们将微调GPT-2来生成新闻标题。此外，我们将使用PyTorch作为深度学习框架，以便于构建和训练模型。

首先需要安装PyTorch和Transformers库。在终端中输入以下命令：

接下来需要准备好用于微调的新闻标题数据集，可以使用Kaggle等网站上的数据集，或者手动创建一个数据集。在这里，我们使用Kaggle上公开的“ABC News Headlines”的数据集，包含了超过60万个新闻标题。

预处理数据指将文本数据进行分词、编码等处理，以满足GPT-2的输入要求。可以使用Transformers库中预定义好的tokenizer来实现这一过程。

以下是一个用于预处理数据的函数：

讯享网

其中，tokenizer将英文单词转换为对应的向量，而preprocess函数则调用tokenizer编码函数，返回符合输入格式要求的张量。

从Hugging Face下载预训练的GPT-2模型，并创建一个新模型来进行微调。

这里使用了模型，这是一个预训练的GPT-2模型，用于生成语言模型。GPT2Config是GPT-2模型训练时使用的配置，这里从预训练的模型中加载配置。最后从预训练的模型中加载权重到新模型中。

在微调前，需要先对模型进行训练。下面是微调的训练函数：

讯享网

定义数据集和数据加载器，将新闻标题数据集加载到模型中，以便于训练和微调。

这里使用Pandas库读取csv文件，将数据集加载到Pandas的DataFrame对象中。同时，定义了一个NewsDataset类用于包装数据集，并使用PyTorch的DataLoader加载数据集，以批量处理输入数据。

使用在步骤5定义的训练函数来训练模型。

讯享网

这里使用了AdamW优化器进行微调并设定了一个1e-5的学习速率。训练3个epoch，通过用新的数据进行训练来更好地适应新任务。

在微调后，可以使用训练有素的GPT-2模型来生成新闻标题。使用以下代码：

这里使用generate函数生成一个标题，输入的初始序列为”Australian politicians”。使用设定了生成序列的最长长度，使用设定了生成的随机度，使用和剔除采样结果，等等。

最后，输出生成的标题：

讯享网

生成的标题为：

这里的模型只是简单的微调示例，更复杂的Fine-tuning任务可能涉及很多复杂优化等方案。