uci数据集_数据分析找不到数据集?快来看这个盘点

前言

数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半。但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验。因而找到合适的数据集是一件很难的事情,接下来我们就盘点一下一些优质的数据集资源,或许会帮到你哦。

971f6fe9b72583bd586f6c313c36a38e.png

Kaggle Datasets

每个dataset都是一个小型社区,您可以在其中讨论数据、查找一些公共代码或在内核中创建自己的项目。它们包含大量的实际数据集,这些数据集具有各种形状、大小和许多不同的格式。您还可以看到与每个数据集关联的“内核”,其中许多不同的数据科学家提供了笔记本来分析数据集。有时候你可以在自己笔记本上想到一些算法来解决这个特定数据集中的预测问题。

https://www.kaggle.com/datasets

bbf1d68487ae6efe70a3a570f6379d5c.png

Amazon Datasets

该数据源包含不同领域的许多数据集,如:(公共交通、生态资源、卫星图像等)。它也有一个搜索框,以帮助您找到您正在寻找的数据集,它也有数据集描述和使用的所有数据集的例子,这是非常有用的,易于使用!

这些数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。如果您正在使用AWS进行机器学习实验和开发,这将非常方便,因为数据集的传输非常快,因为它是AWS网络的本地数据集

https://registry.opendata.aws/?source=post_page

UCI ML Repository

64edadf9c488540bc6cd7175a3779f3b.png

加州大学信息与计算机科学学院的另一个巨大的数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。您可以为单变量和多变量时间序列数据集、分类、回归或推荐系统找到数据集。UCI中的一些数据集已经被清理并准备好使用。

https://archive.ics.uci.edu/ml/index.php

Google数据集搜索引擎

862a81f15cb54e0215ab355772fd0c10.png

在2018年末,谷歌尽其所能,推出了另一项伟大的服务。它是一个工具箱,可以按名称搜索数据集。他们的目标是统一成千上万个不同的数据集存储库,使数据集可被发现。干得好,谷歌。

https://toolbox.google.com/datasetsearch?source=post_page

Microsoft Datasets

2018年7月,微软与外部研究界共同宣布启动“微软研究院开放数据”

https://msropendata.com/?source=post_page

Awesome公共数据库

这是一个按主题组织的数据集的伟大来源,如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,您应该始终检查许可要求。

https://github.com/awesomedata/awesome-public-datasets?source=post_page

计算机视觉数据集

如果您正在从事图像处理、计算机视觉或深度学习,那么这应该是您的实验数据来源。

视觉数据包含少量的大型数据集,可用于构建计算机视觉(CV)模型。您可以通过特定的CV主题来查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)来查找数据集。

https://www.visualdata.io/?source=post_page

Lionbridge AI Datasets

https://lionbridge.ai/datasets/?source=post_page

总而言之,似乎有一个全球性的方向,就是让越来越多的数据可用,让研究和机器学习社区更容易获得。这些新数据集的社区将继续增长,使数据更容易访问,以便众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/428151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git保留两个repo的commit并进行合并

以往的合并时首先要删除repo的.git文件夹,然后重新add-commit-push。带来的问题是会丢失某一个仓库的提交信息,不利于时光倒退。经过摸索终于实现了保留两个仓库提交信息的合并方法。介绍如下: 比如要将DownloadPicsBySeleniumAndPhantomJS这…

安利一款编辑神器——Markdown

经常使用word或者那些浏览器自带编辑器的你可能会和我有时候遇到一样的烦恼,调整格式可真是不容易,如果你也有同样的烦恼,不妨可以试一下Markdown,值得你拥有哈。 Markdown的使用 1.安装使用篇 a.首先安装软件,然后创…

python对图片颜色校正_使用Python PIL更改图像色调

Using Python PIL, Im trying to adjust the hue of a given image.Im not very comfortable with the jargon of graphics, so what I mean by “adjusting hue” is doing the Photoshop operation called “Hue/saturation”: this is to change the color of the image uni…

自动生成业务单据流水号方案

我们在开发管理软件的时候,常常遇到流水号(单据号、登记号)自动生成、控制和管理的问题。由于流水号具有唯一性和连续性的特点,在实际开发过程中若处理不好,会产生流水号重复及断号的问题。特别是多个并发用户同时保存一张同样的业务单据时,系统会返回多个相同的流水…

IDEA快捷键的使用成就手速之旅(要想手速变得快,快捷练习必须刚)

IDEA快捷键的使用 (持续更新) 1.必备合集 a.Ctrl CtrlF 文本代码查找神器呀简直CrtlR 文本代码替换CtrlZ 撤销(基操基操)CtrlY 删除当前行或者选中行 b.Shirt c.CtrlShirt d.Ctrlalt e.altShirt f.CtrlShirtalt 2.慢慢积…

一个项目部署多个节点会导致锁失效么_Redis分布式锁

分布式锁在很多场景中是非常有用的原语, 不同的进程必须以独占资源的方式实现资源共享就是一个典型的例子。有很多分布式锁的库和描述怎么实现分布式锁管理器(DLM)的博客,但是每个库的实现方式都不太一样,很多库的实现方式为了简单降低了可靠性&#xff…

GIT_服务器与本地环境构建

linux安装git包 很多yum源上自动安装的git版本为1.7,这里手动编译重新安装1:安装依赖包yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker2:删除已有的gityum remove git3&#xff1a…

Maven项目的基本创建步骤

先来个自己笔记的图片备忘一下,如果以后有时间再慢慢更新详细。

visualvm远程监控jvm_大型企业JVM实战:优化及面试热点分析

本次课程的笔记非常多,而且内容已经整理了好几个小时了,接着下来内容也会更多,也是大型企业JVM性能调优实战的最后一节,希望对你有帮助!04:JVM性能监控与故障处理工具 大型企业JVM性能调优实战之总结17&…

Markdown图片路径的改变方法

Markdown图片路径的改变方法 Markdown用时一时爽,路径一改火葬场 Markdown在占用内存少的优点的同时,也注定了图片的存储不会是占用内存,而是根据路径和链接链到md文件里的。 相信有不少人会像我一样在做完一个Markdown笔记后,在…

SROP

title: SROP date: 2018-02-21 19:58:12 categories: 栈溢出 tags: - CTF - PWN - 栈溢出 SROP全称为 Sigreturn Oriented Programming ,表明利用sigreturn这个函数实现ROP的技术。 参考资料 http://www.freebuf.com/articles/network/87447.htmlhttp://bobao.360.c…

python字符串的方法和列表的方法_Python学习笔记字符串操作之join()和split()方法,列表转字符串,字符串转列表...

随笔记录方便自己和同路人查阅。#------------------------------------------------我是可耻的分割线-------------------------------------------如果有一个字符串列表,需要将它们连接起来,成为一个单独的字符串,join()方法就很有用。join…

变量的比较之equals 与 == 的区别

Java的数据类型分为两种 1.基本数据类型,byte,short,char,int,long,float,double,boolean,只要使用运算符就可以了,进行比较只是简单进行比较其中的字节组合。 两个引用变量是否引用到堆上的同一个对象,也可以使用。 2.复杂的对象…

scheduledthreadpoolexecutor使用_ScheduledThreadPoolExecutor详解

本文主要分为两个部分,第一部分首先会对ScheduledThreadPoolExecutor进行简单的介绍,并且会介绍其主要API的使用方式,然后介绍了其使用时的注意点,第二部分则主要对ScheduledThreadPoolExecutor的实现细节进行介绍。1. 使用简介Sc…

SpringContextHolder 静态持有SpringContext的引用

SpringContextHolder 静态持有SpringContext的引用 package com.test.quartz;import org.springframework.context.ApplicationContext; import org.springframework.context.ApplicationContextAware;/**** 以静态变量保存Spring ApplicationContext, 可在任何代码任何地方任何…

canvas绘制图像image

canvas绘制图像image 1.image的三个script的基本语法 准备工作:1.定义画布长度,获取2D绘图环境 ​ 2.建立对面对象,设置图片路径 ​ 3.载入图片,开始绘制 a.简单的画布上根据坐标绘制 ctx.drawImage(img,x,y) img为要绘制的图像&#…

根据时间戳生成编号_分布式系统的唯一ID生成算法对比

在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。那么如何实现全局唯一id呢?有以下几种方案。(1)方案一:独立数据库自增id这个方案就是说你的系统每次要生成一个id,都是往一个独立库的一个独立表里插入一条没什么业务…

Ubuntu上安装Samba服务器实现家庭共享

如何在Ubuntu上安装Samba服务器 大多数Linux发行版都包含Samba。 要在Ubuntu上安装Samba,只需运行: sudo apt install samba 要检查您的Samba版本,请运行 sudo smbstatus 或者 sudo smbd --version 输出格式如下: Samba version …

解决使用Servlet输出乱码问题(一行代码解决一切)

使用servlet接收表单数据后,输出出现了乱码,如下: 解决方法: 将下面这行代码粘到你重写的doGet或者doPost方法里就可以了。 response.setContentType("text/html;charsetutf-8");

利用一维数组求菲波那契数列前40项的和并输出结果。_[W2D2]斐波那契数列

题目链接:斐波那契数列 - 题目 - 青藤 OJ题目来源:经典题题目大意输入 ,输出 0,1 开头的斐波那契数列的第 n 项。这里我们不讨论递推方法,我们采用这道简单的题目简单说一下记忆化搜索相关内容。解法首先,基…