Keras内置数据集

目录

1、MNIST数字分类数据集

2、CIFAR10小图像分类数据集  

3、CIFAR100小图像分类数据集

 4、IMDB电影评论情感分类数据集

 参数说明

imdb_word_index.json

示例

 5、路透社新闻专线分类数据集

reuters_word_index.json

6、Fashion MNIST数据集

7、加州房价回归数据集 

参数说明 


1、MNIST数字分类数据集

包含60000个10位数的28x28灰度图像的数据集,以及10000个图像的测试集

1、加载本地mnist.npz格式数据

keras.datasets.mnist.load_data(path="mnist.npz")

2、 使用keras.datasets.mnist.load_data()函数加载MNIST数据集

(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()#检查训练集和测试集的形状
assert x_train.shape == (60000, 28, 28)
assert x_test.shape == (10000, 28, 28)
assert y_train.shape == (60000,)
assert y_test.shape == (10000,)

2、CIFAR10小图像分类数据集  

这是一个由50000张32x32彩色训练图像和10000张测试图像组成的数据集,标记为10个类别。

标签类别
0airplane
1automobile
2bird
3cat
4deer
5dog
6frog
7horse
8ship
9truck

使用 keras.datasets.cifar10.load_data()加载数据集

(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()#检查训练集和测试集的形状
assert x_train.shape == (50000, 32, 32, 3)
assert x_test.shape == (10000, 32, 32, 3)
assert y_train.shape == (50000, 1)
assert y_test.shape == (10000, 1)

3、CIFAR100小图像分类数据集

该数据集与 CIFAR-10 类似,不同之处在于它有 100 个类,每个类包含 600 张图像。每类有 500 张训练图像和 100 张测试图像。CIFAR-100 中的 100 个类分为 20 个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗略”标签(它所属的超类)

超类类别
aquatic mammalsbeaver, dolphin, otter, seal, whale
fishaquarium fish, flatfish, ray, shark, trout
flowersorchids, poppies, roses, sunflowers, tulips
food containersbottles, bowls, cans, cups, plates
fruit and vegetablesapples, mushrooms, oranges, pears, sweet peppers
household electrical devicesclock, computer keyboard, lamp, telephone, television
household furniturebed, chair, couch, table, wardrobe
insectsbee, beetle, butterfly, caterpillar, cockroach
large carnivoresbear, leopard, lion, tiger, wolf
large man-made outdoor thingsbridge, castle, house, road, skyscraper
large natural outdoor scenescloud, forest, mountain, plain, sea
large omnivores and herbivorescamel, cattle, chimpanzee, elephant, kangaroo
medium-sized mammalsfox, porcupine, possum, raccoon, skunk
non-insect invertebratescrab, lobster, snail, spider, worm
peoplebaby, boy, girl, man, woman
reptilescrocodile, dinosaur, lizard, snake, turtle
small mammalshamster, mouse, rabbit, shrew, squirrel
treesmaple, oak, palm, pine, willow
vehicles 1bicycle, bus, motorcycle, pickup truck, train
vehicles 2lawn-mower, rocket, streetcar, tank, tractor

 使用 keras.datasets.cifar100.load_data()加载数据集 

(x_train, y_train), (x_test, y_test) = keras.datasets.cifar100.load_data()#检查训练集和测试集的形状
assert x_train.shape == (50000, 32, 32, 3)
assert x_test.shape == (10000, 32, 32, 3)
assert y_train.shape == (50000, 1)
assert y_test.shape == (10000, 1)

 4、IMDB电影评论情感分类数据集

这是来自IMDB的25000条电影评论的数据集,按情绪(积极/消极)进行标记。评论已经过预处理,每个评论都被编码为单词索引(整数)列表。

keras.datasets.imdb.load_data(path="imdb.npz",num_words=None,skip_top=0,maxlen=None,seed=113,start_char=1,oov_char=2,index_from=3,**kwargs
)
 参数说明
  • path:数据存储的位置。
  • num_words:integer或None。单词根据它们出现的频率(在训练集中)进行排名,并且只保留最频繁的num_Words单词。任何不太频繁的单词都将在序列数据中显示为oov_char值。如果“无”,则保留所有单词。默认为“无”。
  • skip_top:跳过前N个最频繁出现的单词(可能没有信息)。这些单词将在数据集中显示为oov_char值。当为0时,不跳过任何单词。默认值为0。
  • maxlen:int或None。最大序列长度。任何较长的序列都将被截断。无,意味着没有截断。默认为“无”。
  • seed:int,用于可再现数据混洗的种子。
  • start_char:int。序列的开头将用这个字符标记。0通常是填充字符。默认值为1。
  • oov_char:int,词汇表外的字符。由于num_Words或skip_top限制而被剪切掉的单词将被替换为此字符。
  • index_from:int,使用此索引或更高的索引实际单词。
imdb_word_index.json

单词索引词典。键是字符串,值是它们的索引

使用keras.datasets.imdb.get_word_index函数加载imdb_word_index.json

keras.datasets.imdb.get_word_index(path="imdb_word_index.json")
示例
# 导入Keras库中的IMDB数据集
import keras.datasets.imdb# 设置起始字符的索引为1
start_char = 1# 设置未知字符的索引为2
oov_char = 2# 设置索引从3开始
index_from = 3# 使用默认参数加载IMDB数据集的训练数据,并只获取训练序列(不获取测试序列)
(x_train, _), _ = keras.datasets.imdb.load_data(start_char=start_char, oov_char=oov_char, index_from=index_from
)# 获取单词到索引的映射文件
word_index = keras.datasets.imdb.get_word_index()# 反转单词索引,得到一个将索引映射到单词的字典
# 并将`index_from`添加到索引中,以与`x_train`同步
inverted_word_index = dict((i + index_from, word) for (word, i) in word_index.items()
)# 更新`inverted_word_index`,包含`start_char`和`oov_char`
inverted_word_index[start_char] = "[START]"
inverted_word_index[oov_char] = "[OOV]"# 解码数据集中的第一个序列
decoded_sequence = " ".join(inverted_word_index[i] for i in x_train[0])

 5、路透社新闻专线分类数据集

这是一个由路透社11228条新闻专线组成的数据集,标签超过46个主题。

keras.datasets.reuters.load_data(path="reuters.npz",num_words=None,skip_top=0,maxlen=None,test_split=0.2,seed=113,start_char=1,oov_char=2,index_from=3,
)

 参数说明

  • path:指定了保存数据的npz文件路径,这里设置为"reuters.npz"。
  • num_words:用于指定要保留的单词数量,设置为None表示保留所有单词。
  • skip_top用于指定要跳过的最常见的单词数量,设置为0表示不跳过任何单词。
  • maxlen:用于指定每个输入序列的最大长度,设置为None表示使用默认值。
  • test_split:参数用于指定测试集所占的比例,设置为0.2表示测试集占20%。
  • seed:参数用于指定随机数生成器的种子,设置为113以确保结果可重复。
  • start_charoov_char:分别用于指定未知单词的起始字符和未知单词的输出字符,设置为1和2。
  • index_from:参数用于指定索引的起始值,设置为3表示从3开始编号。
reuters_word_index.json

检索一个dict,将单词映射到路透社数据集中的索引。实际的单词索引从3开始,保留了3个索引:0(填充)、1(开始)、2(oov)。例如,“the”的单词索引为1,但在实际的训练数据中,“the”的索引将为1+3=4。反之亦然,要使用此映射将训练数据中的单词索引翻译回单词,索引需要减去3。

使用keras.datasets.reuters.get_word_index加载imdb_word_index.json

keras.datasets.reuters.get_word_index(path="reuters_word_index.json")

6、Fashion MNIST数据集

这是一个由10个时尚类别的60000张28x28灰度图像组成的数据集,以及10000张图像的测试集

标签类别
0T-shirt/top
1Trouser
2Pullover
3Dress
4Coat
5Sandal
6Shirt
7Sneaker
8Bag
9Ankle boot

 使用fashion_mnist.load_data()加载

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()#检查测试集和训练集
assert x_train.shape == (60000, 28, 28)
assert x_test.shape == (10000, 28, 28)
assert y_train.shape == (60000,)
assert y_test.shape == (10000,)

7、加州房价回归数据集 

这是一个连续回归数据集,包含20640个样本,每个样本有8个特征。目标变量是一个标量:加利福尼亚地区的房屋中值,单位为美元。

使用keras.datasets.california_housing.load_data加载

keras.datasets.california_housing.load_data(version="large", path="california_housing.npz", test_split=0.2, seed=113
)
参数说明 
  • version:“小”或“大”。小版本包含600个样本,大版本包含20640个样本。
  • path:本地数据集的路径。
  • testsplit:作为测试集保留的数据的一部分。
  • seed:在计算测试分割之前对数据进行混洗的随机种子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React16源码: createRef与forwardRef源码实现

ref 概述 拿一个场景举例开始 比如,在react当中写一个组件,类型是 class Component在 render function 里面渲染一系列的子组件或者 dom节点会有这样的需求,就是获取某个dom节点或某个子组件的实例来做一些手动的操作不局限于 props 更新这种…

JVM:字节码

JVM:字节码 前言1. JVM概述 前言 1. JVM概述 1. JVM vs JDK vs JRE JVM Java 虚拟机(JVM)是运行 Java 字节码的虚拟机。JVM 有针对不同系统的特定实现(Windows,Linux,macOS),目的是…

实现文本 内容展开 / 收起

<template><el-table :data"tableData" style"width: 100%" height"250"><el-table-columnfixedprop"date"label"日期"width"150"></el-table-column><el-table-columnprop"name…

正向代理和反向代理的区别

我们作为用户是操作客户端的&#xff0c;所以对于客户端的代理就是正向的。牢记&#xff0c;我们是正向的&#xff0c;我们是正向的&#xff0c;我们是正向的。 正向代理和反向代理都是网络中常见的代理服务类型&#xff0c;它们在网络通信中的角色和功能有所不同。 正向代理&…

阿里云PolarDB数据库不同配置租用价格表

阿里云数据库PolarDB租用价格表&#xff0c;云数据库PolarDB MySQL版2核4GB&#xff08;通用&#xff09;、2个节点、60 GB存储空间55元5天&#xff0c;云数据库 PolarDB 分布式版标准版2核16G&#xff08;通用&#xff09;57.6元3天&#xff0c;阿里云百科aliyunbaike.com分享…

【数据湖架构】数据湖101:概述

数据湖是非结构化和结构化数据池&#xff0c;按原样存储&#xff0c;没有特定的目的&#xff0c;可以建立在多种技术上&#xff0c;如Hadoop&#xff0c;NoSQL&#xff0c;Amazon Simple Storage Service&#xff0c;关系数据库或各种组合根据一份名为“什么是数据湖”的白皮书…

微软截图工具SnippingTool_6.1.7601免费版

SnippingTool是一款win7系统自带的一款非常实用型截图工具&#xff0c;操作简单&#xff0c;点击“新建"可一键截图&#xff0c;截图之后会弹出编辑器&#xff0c;可以进行一些简单的勾画编辑操作&#xff0c;您可以使用笔、荧光笔、电子邮件或保存等选项。如果您的系统丢…

界面控件DevExpress Blazor Grid v23.2 - 支持全新的单元格编辑模式

DevExpress Blazor UI组件使用了C#为Blazor Server和Blazor WebAssembly创建高影响力的用户体验&#xff0c;这个UI自建库提供了一套全面的原生Blazor UI组件&#xff08;包括Pivot Grid、调度程序、图表、数据编辑器和报表等&#xff09;。 在这篇文章中&#xff0c;我们将介…

Android 13 - Media框架(30)- MediaCodec(五)

前一节我们了解了input buffer写入的流程&#xff0c;知道了起播写前几笔数据时会先获取graphic buffer&#xff0c;这一节我们就一起来了解下dequeueBufferFromNativeWindow是如何工作的。 1、dequeueBufferFromNativeWindow ACodec::BufferInfo *ACodec::dequeueBufferFromN…

基于Matlab的车道线检测技术研究与实现

一、摘要 车道线检测是自动驾驶和智能交通系统的重要组成部分&#xff0c;它对于车辆的导航和控制具有重要的作用。本文主要研究了基于Matlab的车道线检测技术&#xff0c;包括图像预处理、边缘检测、霍夫变换等步骤&#xff0c;并实现了一个车道线检测系统。实验结果表明&…

死锁的处理策略“预防死锁”-第三十七天

目录 前言 破坏互斥条件 破坏不剥夺条件 破坏请求和保持条件 静态分配法 破坏循环等待条件 顺序资源分配法 本节思维导图 前言 死锁的产生必须满足四个必要条件&#xff0c;只要其中一个或几个条件不满足&#xff0c;死锁就不会发生 破坏互斥条件 互斥条件&#xff1a;…

Swift并发的结构化编程

并发&#xff08;concurrency&#xff09; 早期的计算机 CPU 都是单核的&#xff0c;操作系统为了达到同时完成多个任务的效果&#xff0c;会将 CPU 的执行时间分片&#xff0c;多个任务在同一个 CPU 核上按时间先后交替执行。由于 CPU 执行速度足够地快&#xff0c;给人的错觉…

京东商品SKU API:跨境电商平台提升用户活跃度的关键

一.京东获得JD商品sku信息 API的介绍 京东获得JD商品sku信息 API是京东平台提供的一套接口&#xff0c;允许第三方开发者获取京东商品的各种信息&#xff0c;包括商品的SKU信息。通过这个API&#xff0c;跨境电商平台可以获取到关于商品的详细数据&#xff0c;如商品名称、规格…

【python入门】day17:模块化编程、math库常见函数

什么叫模块 模块的导入 导入所有&#xff1a;import 模块名称 导入指定&#xff1a;from 模块名称 import 函数/变量/类 python的math库 什么是math库 Python的math库是Python的内建库之一&#xff0c;它提供了许多数学函数&#xff0c;包括三角函数、对数函数、幂函数等&a…

Scikit-Learn线性回归(四)

Scikit-Learn线性回归四:梯度下降 1、梯度下降1.1、梯度下降概述1.2、梯度下降及原理1.3、梯度下降的实现2、梯度下降法求解线性回归的最优解2.1、梯度下降法求解的原理2.2、梯度下降法求解线性回归的最优解2.3、梯度下降法求解线性回归案例(波士顿房价预测)3、Scikit-Learn…

Android:FragmentActivity

FragmentActivity是androidx中提供的所有用来支持Fragments的Activity的基类,通常我们新建工程时,MainActivity继承自AppCompatActivity,而AppCompatActivity继承自FragmentActivity。 public class AppCompatActivity extends FragmentActivity implements AppCompatCallb…

我的创作纪念日三年收获和感悟

机缘 我刚开始接触创作也是最近几年开始&#xff0c;当初就是希望自己的收获分享给大家&#xff0c;不仅使自己成长&#xff0c;也可以带着大家一起成长&#xff0c;独乐乐不如众乐乐&#xff0c;人都是自私的以前我都是看到好的知识文章都是自己藏起来&#xff0c;发现收获的…

flink on k8s几种创建方式

在此之前需要部署一下私人docker仓库&#xff0c;教程搭建 Docker 镜像仓库 注意&#xff1a;每台节点的daemon.json都需要配置"insecure-registries": ["http://主机IP:8080"] 并重启 一、session 模式 Session 模式是指在 Kubernetes 上启动一个共享的…

NSSCTF 简单包含

开启环境: 使用POST传flag&#xff0c;flag目录/var/www/html/flag.php 先使用post来尝试读取该flag.php 没反应: 查看一下源码index.php&#xff0c;看有什么条件 base64解密: <?php$path $_POST["flag"];if (strlen(file_get_contents(php://input)) <…

Qt/C++编写视频监控系统82-自定义音柱显示

一、前言 通过音柱控件实时展示当前播放的声音产生的振幅的大小&#xff0c;得益于音频播放组件内置了音频振幅的计算&#xff0c;可以动态开启和关闭&#xff0c;开启后会对发送过来的要播放的声音数据&#xff0c;进行运算得到当前这个音频数据的振幅&#xff0c;类似于分贝…