【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 使用datasets库加载Huggingface数据集

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。

本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。

使用datasets库加载Huggingface数据集

Huggingface以及魔塔社区提供了很多数据集,我们可以使用这些数据集来训练和微调模型。

我们首先要安装下datasets库。

pip install datasets -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

IMDb 数据集包含电影评论和相应的情感标签(正面或负面)。这个数据集非常适合情感分析和舆情分析的任务。

https://huggingface.co/datasets/stanfordnlp/imdb

我们用里面的测试集和训练集文件。

Parquet是一种‌列式存储文件格式‌,专为高效存储和处理大规模数据设计,广泛应用于大数据生态系统(如Spark、Hadoop)。其核心特点包括:

1‌,高效压缩‌:通过列式存储实现高压缩比(如Snappy、Gzip编码),显著减少磁盘空间占用。‌‌‌

2,查询优化‌:支持映射下推(仅读取所需列)和谓词下推(过滤无效数据),提升查询性能。‌‌ ‌3,嵌套数据支持‌:原生处理复杂嵌套结构(如JSON、Map),无需扁平化存储。‌‌

我们可以通过datasets库的load_dataset()方法来加载数据集。

测试代码:

from datasets import load_dataset ​ # 加载 IMDb 数据集 dataset = load_dataset(path="./imdb") ​ train = dataset['train'] # 获取训练集 test = dataset['test'] # 获取测试集 print(train, type(train)) print(train[0], type(train[0])) # 每个元素是一个字典 print(train[0]['label'], train[0]['text']) print(test, type(test)) ​ # 遍历数据集 for i in train: print(i)

运行输出:

微博评论csv下载

https://www.modelscope.cn/datasets/Sunnyshan/weibo_sentiment

csv文件的数据集获取代码:

from datasets import load_dataset ​ # 加载微博数据集 dataset = load_dataset(path="csv", data_files="./weibo_senti_100k.csv") ​ # 获取数据集 train = dataset['train'] ​ for i in train: print(i)

运行输出:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1191694.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

液体冷却工作原理、系统组件及其仿真分析

🎓作者简介:科技自媒体优质创作者 🌐个人主页:莱歌数字-CSDN博客 💌公众号:莱歌数字(B站同名) 📱个人微信:yanshanYH 211、985硕士,从业16年 从…

【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 基于BERT文本分类模型微调

大家好,我是java1234_小锋老师,最近更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》专辑,感谢大家支持。本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集&#xf…

Glyph语音转写可视化:声谱图推理部署实战

Glyph语音转写可视化:声谱图推理部署实战 1. Glyph是什么?用图像处理长文本的新思路 你有没有遇到过这样的问题:一段长达几万字的会议录音转写稿,光是加载就卡得不行,更别提让大模型去分析总结了?传统语言…

Z-Image-Turbo权限管理:限制访问保障模型安全使用

Z-Image-Turbo权限管理:限制访问保障模型安全使用 Z-Image-Turbo 是一款功能强大的图像生成模型,其配套的 UI 界面让使用者能够通过可视化操作快速完成图像生成任务。整个界面设计简洁直观,主要包含提示词输入区、参数调节滑块、生成按钮以及…

电子信息毕设 stm32智能鱼缸监控投喂系统(源码+硬件+论文)

文章目录 0 前言1 主要功能2 硬件设计(原理图)3 核心软件设计4 实现效果5 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉…

第十五章 KUKA机器人与S7-1200进行Profinet通讯

1、概述 KUKA机器人与S7-1200进行Profinet通讯实战案例解析。 2、硬件配置 2.1硬件配置 名称 型号 数量 PLC

godot引擎基础学习笔记9(C#)

一、游戏界面在创建界面场景的时候,会有一个专门用于用户界面的场景,点击创建会生成一个control节点相关常用属性:ClipContents:能够进行子节点的裁剪,启用会将当前节点外的子节点内容隐藏掉custom_minimum_size&#…

专为细菌吞噬研究设计的智能荧光工具

了解细胞如何吞噬细菌?现在可以看得更清楚!Protonex™ Red 670-大肠杆菌结合物是一种即用型试剂,让您实时观察活细胞内的细菌吞噬和酸化过程。产品亮点:新型pH敏感荧光团在中性环境中"静默",进入吞噬体酸性环…

GPEN输出文件命名规则?自定义保存路径实战说明

GPEN输出文件命名规则?自定义保存路径实战说明 GPEN人像修复增强模型镜像 本镜像基于 GPEN人像修复增强模型 构建,预装了完整的深度学习开发环境,集成了推理及评估所需的所有依赖,开箱即用。 1. 镜像环境说明 组件版本核心框架…

OCR未来方向:cv_resnet18_ocr-detection支持动态输入尺寸

OCR未来方向:cv_resnet18_ocr-detection支持动态输入尺寸 1. 引言:为什么动态输入尺寸是OCR的关键突破 你有没有遇到过这种情况?一张高分辨率的工程图纸,文字密密麻麻,但用常规OCR模型一检测,小字全丢了&…

Java Web 人口老龄化社区服务与管理平台系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

💡实话实说:CSDN上做毕设辅导的都是专业技术服务,大家都要生活,这个很正常。我和其他人不同的是,我有自己的项目库存,不需要找别人拿货再加价。我就是个在校研究生,兼职赚点饭钱贴补生活费&…

Java SpringBoot+Vue3+MyBatis 宠物领养系统系统源码|前后端分离+MySQL数据库

摘要 随着社会经济的快速发展和人们生活水平的提高,宠物已成为许多家庭的重要成员,宠物领养需求也随之增长。然而,传统的宠物领养方式存在信息不对称、流程繁琐等问题,导致许多流浪动物难以找到合适的家庭。为了解决这一问题&…

HeartMuLa - 用AI创作歌曲 输入歌词即可创作音乐 支持50系显卡 一键整合包下载

HeartMuLa 是一个开源的“音乐大模型工具库”,它能把歌词和标签转化为完整的音乐作品,还能做歌词转录、音乐编码和跨模态检索。它的特点是多语言支持(中、英、日、韩、西班牙语等)、高保真音频生成,以及和文字描述的紧…

基于SpringBoot+Vue的华强北商城二手手机管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着互联网技术的快速发展,电子商务已成为现代商业活动的重要组成部分。二手手机市场因其高性价比和环保特性,吸引了大量消费者,但传统的线下交易模式存在信息不对称、交易效率低等问题。华强北作为中国最大的电子产品集散地&#xff0c…

性价比高的半自动穿管机企业

性价比高的半自动穿管机企业如何选择?行业深度解析与实用指南在电线电缆、汽车线束、光纤光缆等制造业中,半自动穿管机作为提升生产效率、降低人工成本的关键设备,其市场需求持续增长。对于众多采购企业而言,如何在众多供应商中找…

三轴MEMS加速度计感知万物运动,精准赋能无限可能

在智能化的浪潮中,精确感知物理世界的运动与姿态,是无数设备从“机械执行”迈向“自主决策”的第一步。三轴MEMS加速度计,正是实现这一跨越的核心感官。而ER-3MA-09,以其卓越的低噪声、低温漂和长期稳定性,正成为高精度…

动态住宅IP是什么呢?都有什么用途?

随着互联网技术的发展,代理 IP 已成为跨境电商、数据采集、海外社媒运营等业务的核心基础设施,而动态住宅 IP 代理凭借其贴合真实用户的特性,在各类跨境场景中展现出独特的应用价值。不同业务对代理 IP 的需求差异显著,本文将为大…

基于SpringBoot+Vue的夕阳红公寓管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着人口老龄化趋势加剧,老年人的居住需求日益受到社会关注。传统的养老院管理模式存在信息化程度低、管理效率不足等问题,无法满足现代养老服务的精细化需求。夕阳红公寓管理系统旨在通过信息化手段提升老年公寓的管理效率和服务质量,为…

4款免费低代码工具推荐:中小企业数字化转型的零成本解决方案

在企业数字化转型浪潮中,低代码工具凭借“可视化搭建、降本提效”的核心优势,成为中小企业及创业团队的刚需工具。尤其是免费版低代码软件,既能满足基础业务需求,又能规避前期投入风险。本文给大家找到几款口碑出众、实用性强的免…