2026年Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer

Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer大家好 我是 java1234 小锋老师 最近更新 AI 大模型应用开发入门 拥抱 Hugging Face 与 Transformers 生态 专辑 感谢大家支持 本课程主要介绍和讲解 Hugging Face 和 Transformers 包括加载预训练模型 自定义数据集 模型推理 模型微调 模型性能评估等 是 AI 大模型应用开发的入门必备知识 Huggingface 以及魔塔社区提供了很多数据集

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer_应用开发

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

pip install datasets -i http://mirrors.aliyun.com/pypi/simple/ –trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种列式存储文件格式,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1,高效压缩:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。

2,查询优化:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。 3,嵌套数据支持:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。

Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer_加载_02

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

from datasets import load_dataset

加载 IMDb 数据集

dataset = load_dataset(path=“./imdb”)

train = dataset[‘train’] # 获取训练集 test = dataset[‘test’] # 获取测试集 print(train, type(train)) print(train[0], type(train[0])) # 每个元素是一个字典 print(train[0][‘label’], train[0][‘text’]) print(test, type(test))

遍历数据集

for i in train:

print(i)

运行输出:

Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer_应用开发_03

微博评论csv下载

https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

from datasets import load_dataset 

加载微博数据集

dataset = load_dataset(path=“csv”, data_files=“./weibo_senti_100k.csv”)

获取数据集

train = dataset[‘train’]

for i in train:

print(i)

运行输出:

Hugging Face教程 - 1、transformers模型库_hugging face 使用transformer_加载_04

小讯
上一篇 2026-03-28 18:17
下一篇 2026-03-28 18:15

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/247570.html