NLP开源数据集汇总

39beb6e6668cd8052f1209d8d0ce8a2f.png

源 | 极市平台

本文汇总了几个NLP相关的开源数据集,均附有下载链接。

CASIA手写数据集

数据集地址:http://m6z.cn/6pFPtC

CASIA-HWDB-T:一个从中文手写数据库CASIA-HWDB收集的触摸字符数据库。所有接触的字符(或字符串)都用字符类别、接触点的位置以及字符串高度(LH)和平均笔划宽度(SW)等辅助值进行注释。

根据不同的语言类型,触摸字符串分为四个子集:2788 个全数字字符串(HWDB-T-allDigits)、328 个全字母字符串(HWDB-T-allLetters)、50157 个全中文字符串(HWDB-T -allChinese)和 3,196 个混合字符(HWDB-T-other)。

5293c60b0583913065d0107cad41c369.png

Twitter地理定位信息数据集

数据集地址:http://m6z.cn/5VFbms

训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT:纬度,经度”的形式上传的。

fe0f3cdd9e6f3d9943ee4a525e016d06.png

印度新闻头条数据集

数据集地址:http://m6z.cn/5O90Vj

该新闻数据集是印度从 2001 年初到 2022 年第一季度的重要事件的持久历史档案,由印度记者实时记录。它包含印度时报发布的大约 360 万个事件。大部分数据集中在印度地方新闻,包括国家、城市和娱乐。由Rohit Kulkarni编写

047e3165ea2ef901858f19567ee2d657.png

专利短语数据集

数据集地址:http://m6z.cn/6i9CsN

该数据集是为美国专利短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。a4e2f1663744a9a1fe4dc389c4adb987.png

电影元数据

数据集地址:http://m6z.cn/6i9Cth

这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。

e16b997b4b8fcb4f96cd31eede9b052f.png

Twitter 情绪推文数据集

数据集地址:http://m6z.cn/5zMyu3

每行包含一条推文的文本和一个情绪标签。在训练集中,您将获得一个从推文 (selected_text) 中提取的单词或短语,它封装了所提供的情绪。

5d64d87771898e636cd910b84bd6928f.png

幸福畅销书评论数据集

数据集地址:http://m6z.cn/63boFl

自 2005 年以来,整体幸福感正在下降,而悲伤和愤怒等负面情绪却在上升。更糟糕的是,越来越多的年轻人患有精神疾病、成瘾及其后果。本数据集收集了排名前33名的关于幸福的书籍、评论和引用。

979b1205ea3b99f9bb78387120a87514.png

Olist电子商务公共数据集

数据集地址:http://m6z.cn/6aHBQk

这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单:从订单状态、价格、付款和货运绩效到客户位置、产品属性,最后是客户撰写的评论。这是真实的商业数据,已匿名,评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。

75443d6101c3f89b733b81e6e4f8b11e.png

假新闻和真实新闻数据集

数据集地址:http://m6z.cn/5zMyx7

本数据集汇总了2015年-2018年间的一些真实的新闻和虚假的新闻,包含每篇新闻的主题类型、标题、正文和日期。

4edd75514289307e4100318944769855.png

Top1000的Github存储库数据集

数据集地址:http://m6z.cn/5VFbZk

关于 Github 上的 1000 个最受欢迎的存储库的详尽数据。

be31aaa866204999aff9e5f4a28105d9.png

8ae9af75864c508850dc63bfabfa83d5.png后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

88c474cfe5caa90df4eb1f5e4c2fc126.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1360. 日期之间隔几天(闰年判断)

1. 题目 请你编写一个程序来计算两个日期之间隔了多少天。 日期以字符串形式给出,格式为 YYYY-MM-DD,如示例所示。 示例 1: 输入:date1 "2019-06-29", date2 "2019-06-30" 输出:1示例 2&…

“我要做小小瑶大人的狗!”

小轶:这真的是白鹡鸰写的作为21世纪新时代人格健全,精神独立,心理健康的有志青年,总有那么几个时刻,会让我们情不自禁,眼泪从嘴角流下地呐喊着:“我是XXX的狗!”啊!这诚恳…

Spring Boot中的缓存支持(一)注解配置与EhCache使用

随着时间的积累,应用的使用用户不断增加,数据规模也越来越大,往往数据库查询操作会成为影响用户使用体验的瓶颈,此时使用缓存往往是解决这一问题非常好的手段之一。Spring 3开始提供了强大的基于注解的缓存支持,可以通…

LeetCode 1361. 验证二叉树(图的出入度)

1. 题目 二叉树上有 n 个节点,按从 0 到 n-1 编号,其中节点 i 的两个子节点分别是 leftChild[i] 和 rightChild[i]。 只有 所有 节点能够形成且 只 形成 一颗 有效的二叉树时,返回 true;否则返回 false。 如果节点 i 没有左子节…

微软:我已把显存优化做到了极致,还有谁?

文 | 王思若大家好,我是王思若。17年6月Google提出了Transformer架构,这篇目前Citation 4.3万的文章开启了大规模预训练模型时代。或者,更精确的从18年OpenAI和Google分别基于其中的Decoder和Encoder发布的大规模预训练模型GPT1和BERT开始&am…

Spring Boot中使用JavaMailSender发送邮件

相信使用过Spring的众多开发者都知道Spring提供了非常好用的JavaMailSender接口实现邮件发送。在Spring Boot的Starter模块中也为此提供了自动化配置。下面通过实例看看如何在Spring Boot中使用JavaMailSender发送邮件。 快速入门 在Spring Boot的工程中的pom.xml中引入sprin…

LeetCode 1362. 最接近的因数

1. 题目 给你一个整数 num,请你找出同时满足下面全部要求的两个整数: 两数乘积等于 num 1 或 num 2以绝对差进行度量,两数大小最接近 你可以按任意顺序返回这两个整数。 示例 1: 输入:num 8 输出:[3…

光子神经网络登上nature,图像识别速度降至1纳秒

文 | Alex(凹非寺)源 | 量子位比深度神经网络速度还快的是什么?或许光子DNN可以回答这个问题。现在,美国研究者开发的一个光子神经网络(photonic deep neural network,PDNN),让图像识别仅需1纳秒。1纳秒是什…

LeetCode 1363. 形成三的最大倍数(贪心,难)

1. 题目 给你一个整数数组 digits,你可以通过按任意顺序连接其中某些数字来形成 3 的倍数,请你返回所能得到的最大的 3 的倍数。 由于答案可能不在整数数据类型范围内,请以字符串形式返回答案。 如果无法得到答案,请返回一个空…

Spring Boot中使用Spring Security进行安全控制

我们在编写Web应用时,经常需要对页面做一些安全控制,比如:对于没有访问权限的用户需要转到登录表单页面。要实现访问控制的方法多种多样,可以通过Aop、拦截器实现,也可以通过框架实现(如:Apache…

这篇寒门博士论文致谢火了:回首望过去,可怜无数山

源 | 奔流新闻兰州晨报 记者 邢剑扬、安之若素德之至 微信平台、澎湃新闻“可怜无数山”近日,一位甘肃籍博士的论文致谢和回望“火”了,有网友称读后“泪眼婆娑,戳到了灵魂”,也有网友评价“一字一句,熠熠生辉”。“回…

Spring Boot中的事务管理

什么是事务? 我们在开发企业应用时,对于业务人员的一个操作实际是对数据读写的多步操作的结合。由于数据操作在顺序执行的过程中,任何一步操作都有可能发生异常,异常会导致后续操作无法完成,此时由于业务逻辑并未正确…

C++类对象排序operator重载操作

类内默认含有this指针,bool operator(const T& a)类外则需要写两个参数,bool operator(const T& a, const T& b) class People { public:string name;int id;People(string n, int i):name(n),id(i){}bool operator(const People& a){r…

鹅厂计算机视觉,世界第二??

编 | 好困 桃子源 | 新智元腾讯的计算机视觉能力首次进入全球Top2的评分排名!Gartner最新发布的2022年度《Magic Quadrant for Cloud AI Developer Services》是业内权威的云计算评估报告之一,评估对象包括亚马逊、微软、谷歌等全球云厂商。在核心产品能…

Spring Boot中使用log4j实现http请求日志入mongodb

之前在《使用AOP统一处理Web请求日志》一文中介绍了如何使用AOP统一记录web请求日志。基本思路是通过aop去切web层的controller实现,获取每个http的内容并通过log4j将日志内容写到应用服务器的文件系统中。 但是当我们在集群中部署应用之后,应用请求的日…

程序员面试金典 - 面试题 01.02. 判定是否互为字符重排(哈希map)

1. 题目 给定两个字符串 s1 和 s2,请编写一个程序,确定其中一个字符串的字符重新排列后,能否变成另一个字符串。 示例 1: 输入: s1 "abc", s2 "bca" 输出: true 示例 2: 输入: s1 "abc&…

破局数据困境,迭代一年的终版解决方案竟是纯规则方法!

文 | Severus大家好,我是Severus,一个致力于做好中文自然语言理解的老程序员。一年前,我在萌屋的第一篇推文(在错误的数据上,刷到 SOTA 又有什么意义?)中,重点讲述了关系抽取任务所面…

程序员面试金典 - 面试题 01.03. URL化(字符串)

1. 题目 URL化。编写一种方法,将字符串中的空格全部替换为%20。假定该字符串尾部有足够的空间存放新增字符,并且知道字符串的“真实”长度。(注:用Java实现的话,请使用字符数组实现,以便直接在数组上操作。…

扩散模型又杀疯了!这一次被攻占的领域是...

文 | Yimin_饭煲从2020年的初出茅庐,到2021年的日趋火热,再到2022年的大放异彩,扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。如果还不是特别了解扩散模型的朋友,可以阅读卖萌屋的几篇历史推文《扩…

程序员面试金典 - 面试题 01.04. 回文排列(哈希map)

1. 题目 给定一个字符串,编写一个函数判定其是否为某个回文串的排列之一。 回文串是指正反两个方向都一样的单词或短语。排列是指字母的重新排列。 回文串不一定是字典当中的单词。 示例1: 输入:"tactcoa" 输出:tru…