推荐:26种NLP练手项目(代码+数据)

 

1.分词 Word Segmentation

chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。

对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.

 

2.词预测 Word Prediction

Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。

 

3. 文本蕴涵 Textual Entailment

Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。

 

4. 语音识别 Automatic Speech Recognition

buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。

5. 自动摘要 Automatic Summarisation

PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。

 

6. 文本纠错 Text Correct

atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。

 

7.字音转换 Grapheme to Phoneme

cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。

 

8. 复述检测 Paraphrase Detection 和 问答 Question Answering

Paraphrase-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。

 

9. 音汉互译 Pinyin-To-Chinese

Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。

 

10. 情感分析 Sentiment Analysis

情感分析包括的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。

 

11. 手语识别 Sign Language Recognition

Home - SignAll, 该项目在手语识别做的非常成熟。

 

12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。

HIT-SCIR/ltp, 包括代码、模型、数据,还有详细的文档,而且效果还很好。

 

13. 词干 Word Stemming

snowballstem/snowball, 实现的词干效果还不错。

 

14. 语言识别 Language Identification

https://github.com/saffsd/langid.py,语言识别比较好的开源工具。

 

15. 机器翻译 Machine Translation

OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。

 

16. 复述生成 Paraphrase Generation

vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。

 

17. 关系抽取 Relationship Extraction

ankitp94/relationship-extraction,基于核方法的关系抽取。

 

18. 句子边界消歧 Sentence Boundary Disambiguation

https://github.com/Orekhov/SentenceBreaking,很有意思。

 

19.事件抽取 Event Extraction

liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

 

20. 词义消歧 Word Sense Disambiguation

alvations/pywsd,代码不多,方法简单,适合练手。

 

21. 命名实体消歧 Named Entity Disambiguation

dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。

 

22. 幽默检测 Humor Detection

pln-fing-udelar/pghumor

 

23. 讽刺检测 Sarcasm Detection

AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。

 

24. 实体链接 Entity Linking

hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。

 

25. 指代消歧 Coreference Resolution

huggingface/neuralcoref,基于神经网络的指代消歧。

 

26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion

thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。

参考:https://zhuanlan.zhihu.com/p/51279338

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端工程化开发方案app-proto

什么是前端工程化?根据具体的业务特点,将前端的开发流程、技术、工具、经验等规范化、标准化就是前端工程化。它的目的是让前端开发能够“自成体系”,最大程度地提高前端工程师的开发效率,降低技术选型、前后端联调等带来的协调沟…

会议交流 | 最新NLP核心技术与前沿实践分享!

2021年7月10日,09:00-18:10,DataFunSummit:自然语言处理峰会将如约而至,本次峰会由3位主席和6位出品人精心策划而来,邀请来自业界的40余位嘉宾从NLP基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对…

LeetCode 504. 七进制数(进制转换)

1. 题目 给定一个整数,将其转化为7进制,并以字符串形式输出。 示例 1: 输入: 100 输出: "202"示例 2: 输入: -7 输出: "-10" 注意: 输入范围是 [-1e7, 1e7] 。来源:力扣(LeetCode) 链接&#xf…

三元组事件抽取与简单代码实现

https://blog.csdn.net/weixin_43718786/article/details/118217222

领域应用 | 常识性概念图谱建设以及在美团场景中的应用

转载公众号 | 美团技术团队常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后…

美团数据库中间件DBProxy开源

随着数据量的不断增大,传统的直连数据库对数据进行访问的方式已经无法满足一般公司的需求。通过数据库中间件,可以对数据库进行水平扩展,由原来单台数据库扩展到多台数据库,数据库中间件通过路由规则将数据的访问请求路由到其中一…

不卷学术了,这次卷一波NLP实战落地经验

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

docker挂载文件躺过的坑

Docker 实现挂载的三种方式 docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused “exec: “-v”: executable file not found in $PATH”: unknown. 看着启动成功了,但查日志启动失败 日…

美团团购订单系统优化记

团购订单系统简介 美团团购订单系统主要作用是支撑美团的团购业务,为上亿美团用户购买、消费提供服务保障。2015年初时,日订单量约400万~500万,同年七夕订单量达到800万。 目标 作为线上S级服务,稳定性的提升是我们不断的追求。尤…

论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集

笔记整理 | 谭亦鸣,东南大学博士生来源:BioNLP ’21 workshop, ACL ‘21链接:https://www.aclweb.org/anthology/2021.bionlp-1.7.pdf论文主要包含两个部分的核心工作:emrKBQA数据集,对应的benchmark。基于MIMIC-III …

Fine-tune之后的NLP新范式:Prompt越来越火,CMU华人博士后出了篇综述文章

文 | 刘鹏飞源 | 机器之心CMU 博士后研究员刘鹏飞:近代自然语言处理技术发展的第四范式可能是预训练语言模型加持下的 Prompt Learning。近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展。从 BERT 开始&…

python学习网站

1 w3school 2 掘金 3 b站 4 牛客网 5 leetcode 6 慕课网

会议交流 | 世界人工智能大会“大数据关联”论坛举行

转载公众号 | 创邻科技2021年7月8日,由世界人工智能大会组委会与浙江创邻科技有限公司共同筹办的“大数据关联时代下的图数据库技术与应用论坛”在上海世博中心圆满落幕。论坛邀请了清华大学、北京大学、复旦大学、浙江大学、天津大学等多位学术届的思想领袖和工商银…

LeetCode 994. 腐烂的橘子(图的BFS)

1. 题目 在给定的网格中,每个单元格可以有以下三个值之一: 值 0 代表空单元格; 值 1 代表新鲜橘子; 值 2 代表腐烂的橘子。 每分钟,任何与腐烂的橘子(在 4 个正方向上)相邻的新鲜橘子都会腐烂…

美团酒店直连产品数据一致性演进

美团酒店直连项目自2013年末开始,通过业务上的不断完善和技术上的不断改进,至今已经接入200多家供应商,其中在线酒店3万以上,在线SPU30万以上。经过两年的成长,美团酒店直连平台终于在2015年末发展为国内最大的酒店直连…

直击行业痛点!端侧模型部署的成熟解决方案有了!

深度学习经过多年发展,AI已经深入人心,事实上,在图像、文本领域,AI在多个产业已经落地了诸多应用,我们熟知的自动驾驶、语音助手,背后就大量运用了AI技术。当下,飞桨PaddlePaddle、TensorFlow、…

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

OpenKG地址:http://openkg.cn/dataset/openconcept官网:http://openconcepts.openkg.cn(提供Dump)开放许可协议:CC BY-SA 4.0(署名-相同共享)OpenConcepts 介绍OpenConcepts (http://openconcepts.openkg.c…

LeetCode 594. 最长和谐子序列(map)

文章目录1. 题目2. 解题2.1 map两次扫描2.2 map一次扫描1. 题目 和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是1。 现在,给定一个整数数组,你需要在所有可能的子序列中找到最长的和谐子序列的长度。 示例 1: 输入: [1,3,2,2,5,2,3,7] …

MTDDL——美团点评分布式数据访问层中间件

2016年Q3季度初,在美团外卖上单2.0项目上线后,商家和商品数量急速增长,预估商品库的容量和写峰值QPS会很快遇到巨大压力。随之而来也会影响线上服务的查询性能、DB(数据库,以下统一称DB)主从延迟、表变更困…

python 23中设计模式 工厂模式与抽象工厂及应用场景

#https://zhuanlan.zhihu.com/p/57869247 #工厂模式 # -*- coding:utf-8 -*-class A:def __init__(self):self.word "运行A"def run(self):print(self.word)class B:def __init__(self):self.word "运行B"def run(self):print(self.word)def Interface(c…