2026.1.19总结

news/2026/1/21 23:52:58/文章来源:https://www.cnblogs.com/zangbotao/p/19514372

今天继续了解nlp的理论部分,
模块二:传统方法篇 - 从规则到统计
第一部分:语言处理流水线
想象你要教计算机读文章,首先要教它识字断句。
文本预处理是清洗和准备数据。包括:去掉HTML标签、特殊符号;分词——把句子切成单词或字(中文更复杂);去除停用词如“的”、“了”这些高频但信息少的词;词干还原——把“running”、“ran”、“runs”都还原为“run”。
语言学基础让你理解语言结构。词性标注:识别名词、动词、形容词;句法分析:理解句子结构,哪个是主语、哪个是宾语;命名实体识别:找出人名、地名、机构名。
第二部分:文本表示方法
计算机只懂数字,如何把文字变成数字?
离散表示像建立词表。词袋模型:统计每个词出现的次数,忽略顺序。“我喜欢苹果”和“苹果喜欢我”会被认为一样。TF-IDF:不仅看出现次数,还要看重要性。比如“的”在很多文档都出现,权重就低;“神经网络”只在少数文档出现,权重就高。
分布式表示是革命性的进步。Word2Vec让相似含义的词在向量空间靠近:“国王-男人+女人≈女王”。GloVe利用全局统计信息。FastText考虑子词信息,能处理未登录词。
经典任务实践:用TF-IDF+朴素贝叶斯做新闻分类;用Word2Vec找相似词;用LDA发现文本主题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于深度学习建立棉花花药开裂状态识别系统

✅ 博主简介:擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。 ✅成品或者定制,扫描文章底部微信二维码。 (1) 棉花花药图像数据集构建与单阶段检测模型设计 棉花花药开裂状态的准确识别对于…

维普AI率爆表?别急,这6个方法亲测有效

维普AIGC检测高?6款工具帮你降到合格线 TL;DR:维普AIGC检测算法和知网不同,很多知网能过的工具在维普可能过不了。实测对维普效果最好的是嘎嘎降AI(67%→9%),其次是比话降AI(60%→12%&#xff0…

2026医学教育白皮书发布:护考软件红黑榜揭晓,易小考高居榜首!

来源:搜狐教育 | 2026-01-21 随着我国医疗卫生行业人才准入门槛的持续提升,护士资格考试(护资)与护师考试的难度逐年攀升。面对“去应试化”的改革浪潮,如何选择一款靠谱的备考软件,成为了百万考生关注的焦点。 …

2026.1.18总结

今天看了看关于nlp的相关内容,有些深奥看不懂 第一部分:数学与统计基础 这是NLP大厦的地基。你需要掌握: 线性代数是理解神经网络如何工作的钥匙。想象一下,每个词都被表示成一个数字向量,句子就是这些向量的组合…

CSS 新特性总结(附:var() 函数详解)

本文全面总结了CSS最新特性,涵盖选择器、布局、变量、动画等多个方面。 重点包括: 1)CSS Selectors Level 4新增的关系选择器(:has)、逻辑组合选择器(:is/:where)等; 2)布局增强如Flexbox的gap属性、Grid子网格和Mason…

计算机Java毕设实战-基于Java的隧道云视频监控管理信息平台设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Flow-Planner疑问汇总

一、Flow-Planner中ODE求解器使用的Midpoint和两倍步数的Euler法有啥区别? #位置在torchdiffeq/torchdiffeq/_impl/fixed_grid.py class Euler(FixedGridODESolver):order 1def _step_func(self, func, t0, dt, t1, y0):f0 func(t0, y0, perturbPerturb.NEXT if s…

STM32智能大棚浇花花盆

目录 STM32智能大棚浇花花盆概述核心功能硬件组成软件实现应用场景 源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! STM32智能大棚浇花花盆概述 STM32智能大棚浇花花盆是一种基于STM32微控制器的自动化种植系统,通过传感器…

Java毕设项目:基于springboot的隧道云视频监控管理信息平台设计与实现(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

知光项目用户资料模块

前言: 该文档只作为本人学习过程的记录,若还需要更详细的项目文档可以点击下方链接进行购买 文档地址 同时该项目已经在git上面开源,可以在购买前去看一下该项目。 项目后端的git地址:知光git后端地址 项目前端的git地址: 知…

MySQL:更新语句执行流程详解

其实更新语句update和查询语句“大同小异”,但关键的几个差异点,恰恰是面试常考、工作中容易踩坑的地方,尤其是redo log、binlog和两阶段提交,看完这篇彻底搞懂! 先给大家一个核心结论:MySQL的update语句&a…

STM32心率血氧手环(可报警)

目录硬件设计传感器技术软件算法应用场景开发资源源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!硬件设计 STM32心率血氧手环通常基于STM32微控制器(如STM32F4或STM32L4系列),搭配光学传感器模块&am…

[langchain 内部数据传递层级]

@dynamic_prompt def dynamic_system_prompt(request: ModelRequest) -> str:user_name = request.runtime.context.user_name system_prompt = f"You are a helpful assistant. Address the user as {user_n…

STM32智能宠物喂食

目录 STM32智能宠物喂食系统概述核心功能硬件组成软件设计应用场景扩展功能 源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! STM32智能宠物喂食系统概述 STM32智能宠物喂食系统是一种基于STM32微控制器的自动化解决方案,通…

2026年选择敏捷咨询机构:从“工具应用”到“价值落地”的转型关键

在VUCA时代,企业对敏捷的需求早已超越Scrum会议、看板工具的表层应用,转向全价值链的效率提升与组织能力重塑。2026年,随着数字化转型进入深水区,敏捷咨询机构的核心价值不再是简单传授方法论,而是帮助企业破解“敏捷落…

2026年马年零食大礼盒推荐Top5:从年味到健康的“不踩雷”选型指南

2026年马年零食大礼盒推荐Top5:从年味到健康的“不踩雷”选型指南2026年马年春节临近,不少人已经进入“零食礼盒挑选关键期”——既要满足“贴春联、拜大年”的年味仪式感,又要兼顾老人怕甜、孩子爱脆、年轻人要健康…

论文降AI率必备!5款工具横向测评,到底哪款能帮你将AIGC率降低80%以上

上周答辩前夕,我室友差点崩溃——论文被导师退回来了,原因是"疑似大量使用AI生成内容"。她哭着说:"我明明自己改过好几遍啊,为什么还是被查出来了?" 这场景我太熟悉了。去年我自己也经历过&#…

Java计算机毕设之基于Java+springboot的隧道云视频监控管理信息平台设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

[Unreal shader]深度缓冲重建世界坐标

UE中通过深度缓冲重建世界空间坐标原理和Unity shader重建原理基本一致,但是UE中重建世界坐标的实现路径与Unity是不一致的 :• Unity中使用 SAMPLE_DEPTH_TEXTUR 采样的是原始深度值(RawDepth),是一个范围[0&#xff…

【毕业设计】基于springboot的隧道云视频监控管理信息平台设计与实现(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…