NLP基础

目录

一、NLP 概述和应用

(一)NLP 的定义与演进历程

(二)NLP 的多元应用领域

二、文本预处理技术

(一)文本获取与编码转换

(二)文本清洗:去除杂质的精细打磨

(三)字符标准化:统一文本形态的标尺

(四)文本分段与句子拆分:构建文本逻辑框架

三、分词

(一)分词的基本原理与挑战

(二)主流分词算法剖析

(三)分词工具实战指南

四、拼写纠错

(一)拼写错误类型与根源剖析

(二)拼写纠错算法全景扫描

(三)拼写纠错系统搭建与优化

五、停用词过滤

(一)停用词的定义与特性分析

(二)停用词过滤策略与工具

(三)停用词过滤效果评估与优化

六、词的标准化

(一)词的标准化的概念与意义阐释

(二)词的标准化方法全景图

(三)词的标准化应用场景与实战技巧

一、NLP 概述和应用

(一)NLP 的定义与演进历程

自然语言处理,简而言之,是赋予计算机理解、解析并生成人类自然语言能力的学科。回溯历史长河,NLP 的起点可追溯至 20 世纪 50 年代,当时机器翻译领域的初步探索点燃了希望之火,科研人员渴望创造能跨越语言障碍的智能工具。然而,早期基于规则的方法很快遭遇瓶颈,面对语言的复杂性与多义性,规则数量呈爆炸式增长,难以维护。

曙光在 20 世纪 80 年代出现,统计方法的引入为 NLP 注入新活力。通过从大规模语料库中挖掘语言规律,利用概率模型逼近语言现象,机器开始以更灵活方式处理语言。进入 21 世纪,深度学习技术如汹涌浪潮席卷 NLP 领域。神经网络架构,尤其是循环神经网络(RNN)及其变体长短期记忆网络(LSTM)、门控循环单元(GRU),使得机器能捕捉文本序列长期依赖关系,推动语言模型性能大幅提升。

当下,Transformer 架构引领 NLP 进入前所未有的新纪元。其独特的自注意力机制,摒弃传统序列处理局限,让并行计算成为现实,模型规模与性能呈指数级增长。以 GPT、BERT 系列模型为代表的预训练语言模型,展现出强大语言理解与生成能力,彻底重塑 NLP 研究与应用格局。

(二)NLP 的多元应用领域

  1. 机器翻译:打破语言壁垒的桥梁

在全球化浪潮下,机器翻译成为跨国交流刚需。从早期简单词典对照式翻译,到如今基于深度学习的神经机器翻译(NMT),技术不断迭代。现代系统能精准捕捉上下文语义,输出流畅自然译文。谷歌翻译、百度翻译等平台每日处理海量请求,为商务谈判、旅游出行、学术交流提供即时翻译服务,将世界紧密相连。

  1. 情感分析:商业决策的洞察先驱

对于企业而言,消费者情绪是产品优化、品牌塑造的关键风向标。情感分析技术能剖析社交媒体评论、产品评测网站文字,精准判断用户态度倾向(正面、负面、中性)。例如,一部新电影上映,分析社交媒体相关话题热度、评价星级,制片方能提前洞察票房潜力,影院可灵活调整排片策略;电商平台依据用户反馈快速定位产品痛点,驱动产品迭代升级。

  1. 智能客服:降本增效的客服革命

传统人工客服面临人力成本高昂、服务时间受限、情绪波动影响服务质量等问题。智能客服利用 NLP 技术读懂用户咨询内容,提供 24×7 不间断服务。像淘宝、京东等电商巨头,智能客服解答常见问题(如订单查询、退换货政策),初步筛选用户需求,将复杂问题精准转接人工客服,大大缩短响应时间,提升用户满意度,每年节省巨额人力成本。

  1. 新闻自动写作:效率与客观性的突破

在新闻行业,时效性关乎生存。部分财经新闻、体育赛事报道、灾害快讯等可通过 NLP 驱动的自动化写作系统生成。系统依据固定模板、预设逻辑,结合实时数据(如股市行情、比赛比分、地震震级等),瞬间产出新闻稿件。这样不仅提高新闻发布速度,还避免人为情绪干扰,保证内容客观性,为受众提供及时准确资讯。

  1. 文本摘要与智能写作辅助:知识萃取与创作灵感源泉

面对海量文献资料,手动提炼核心要点耗时费力。文本摘要技术能一键生成简洁摘要,无论是学术论文预览、商业报告精读,还是日常资讯浏览,都极大提升信息获取效率。而智能写作辅助工具,如语法纠错、同义句改写、写作灵感推荐等功能,为创作者提供全方位支持,无论是学生撰写作业、职场人士打磨商务文档,或是作家创作文学作品,都能激发灵感,提升文稿质量。

二、文本预处理技术

(一)文本获取与编码转换

在获取文本数据时,来源渠道广泛且复杂。网络爬虫可从网页抓取新闻文章、论坛帖子;API 接口能对接社交媒体平台(如微博、推特)、在线文档库获取结构化文本数据。然而,不同来源文本编码格式各异,如 UTF-8、GBK 等。编码转换环节至关重要,确保文本在后续处理流程中不出现乱码。以 Python 中的 encode()decode() 方法为例,可精准完成编码格式转换,让文本数据以统一编码规范进入预处理管道。

(二)文本清洗:去除杂质的精细打磨

原始文本往往杂质遍布,如嵌入的 HTML 标签、CSS 样式代码,这些非文本内容会干扰 NLP 模型训练。利用正则表达式,可精准定位并剔除这些无用信息。同时,文本中数字、特殊符号(如标点、货币符号)是否保留需依应用场景而定。在舆情分析场景中,感叹号数量及连续程度可能反映用户情绪强度,此时需谨慎处理,切不可盲目清洗,以免丢失关键情感线索。

(三)字符标准化:统一文本形态的标尺

语言书写习惯差异导致文本字符形态多样,如英文中大小写混用、全角半角字符混杂。字符标准化工作将全文统一为小写(或大写),将全角字符转为半角字符。这一过程看似微不足道,却能有效减少词汇表规模。以 “北京” 和 “北京 ”(末尾含空格)为例,若不标准化,模型会误判为两个不同词汇,加大训练难度,降低模型泛化能力。

(四)文本分段与句子拆分:构建文本逻辑框架

长篇文本宛如未经雕琢的原木,需先分段、拆句,才能为后续深度处理奠定基础。文本分段依据段落空行、特定分隔符(如 “###”)识别不同逻辑单元,如文章章节、新闻段落。句子拆分则聚焦标点符号(句号、问号、感叹号等),将文本拆解为独立句子序列。例如,在训练语言模型时,以句子为单位组织训练数据,模型能精准学习句子内部语法结构、词汇搭配规律,生成自然流畅文本。

三、分词

(一)分词的基本原理与挑战

分词是将文本切分为语义合理词汇序列的过程,是中文 NLP 特殊且关键环节。与英文以空格天然分隔单词不同,中文词汇连续书写,如何精准划分实属难题。基于词典匹配的分词方法,利用预定义词典(如包含常用词汇、专业术语等)进行正向或反向扫描匹配。正向最大匹配法从左到右取最长可能词汇,反向最大匹配法则从右往左扫描,两者各有优势,常结合使用提升分词精准度。

然而,词典方法难以应对新词发现、歧义消解等挑战。例如,“人民法院” 这个词汇,若单纯按词典匹配,可能被错误切分为 “人民 / 法院”,此时需借助统计语言模型计算不同切分方式下句子概率,选择概率最大切分路径。此外,领域新词(如新兴科技名词 “元宇宙”)大量涌现,动态更新词典成为分词技术优化必然趋势。

(二)主流分词算法剖析

  1. 基于统计的分词算法

隐马尔可夫模型(HMM)是经典统计分词方法。它假设文本生成过程符合马尔可夫性质,将分词任务建模为隐状态序列(词汇切分状态)识别问题。通过训练大量已标注语料,学习状态转移概率(从一个分词状态转移到另一个状态的概率)和观测概率(对应状态生成特定字的概率),对未见过文本进行分词预测。尽管 HMM 模型简单高效,但因假设状态转移仅依赖前一个状态,对长距离依赖关系捕捉力不足。

条件随机场(CRF)模型应运而生,突破 HMM 局限。CRF 将分词任务视为序列标注问题,考虑整个句子全局特征。可引入丰富特征模板,如字 n 元组特征、词汇位置特征、上下文字特征等,模型通过最大化标注序列条件概率进行训练。在实际应用中,CRF 模型分词精度较 HMM 有显著提升,尤其在处理歧义切分场景表现卓越。

  1. 基于深度学习的分词算法

深度学习浪潮席卷分词领域,循环神经网络(RNN)及其变体长短期记忆网络(LSTM)成为主流。LSTM 通过门控机制有效缓解梯度消失问题,能捕捉文本序列长期依赖关系。以双向 LSTM 为例,同时考虑文本前后向语境信息,为每个字生成上下文感知的嵌入表示,再经全连接层输出分词标签(如 “B” 表示词汇起始,“M” 表示词汇中间,“E” 表示词汇结尾,“S” 表示单字词)。模型经海量数据训练后,自动学习词汇切分模式,无需手工构建词典,对新词、生僻词有较强适应能力。

Transformer 架构的出现为分词技术带来新变革。其自注意力机制摒弃序列处理局限,让模型并行计算所有字的相互关系。例如,BERT 模型通过预训练语言模型任务(如掩盖部分词汇预测)学习文本深层语义表示,下游分词任务可微调 BERT 模型,利用其强大的上下文理解能力精准切分词汇。相比 LSTM,Transformer 架构分词模型在大规模数据场景下性能更为优异,且易于扩展到多语言分词任务。

(三)分词工具实战指南

在实际开发中,众多成熟分词工具可供选择。以 Python 生态为例,Jieba 分词库因其简单易用、效率较高成为入门首选。它支持精确模式、全模式、搜索引擎模式等多种分词模式。精确模式基于词典进行高精度切分;全模式将文本切分为所有可能词汇组合;搜索引擎模式结合 Jieba 自带算法和拼音库,模拟搜索引擎分词策略,适用于构建搜索引擎索引场景。

HanLP 分词工具则功能更为强大,集成中文处理丰富功能。除高精度分词外,还支持词性标注、命名实体识别等任务。它基于 CRF 算法实现分词,提供丰富自定义词典接口,方便用户根据特定领域词汇扩充词典。例如,在医疗文本处理场景,加载医学专业词汇词典后,HanLP 能精准切分医学术语,为后续病历分析、医学文献挖掘提供坚实基础。

四、拼写纠错

(一)拼写错误类型与根源剖析

拼写错误在文本数据中司空见惯,主要分为以下几类:

  1. 字符替换错误:如将 “世界” 错写为 “世jie”,这种错误通常源于键盘输入时手指误触相邻按键。中英文键盘布局差异(如中文拼音输入法中,字母键分布对应不同拼音)加大了此类错误发生概率。

  2. 字符插入与缺失错误:输入时多敲一个字符(如 “哈喽” 写成 “哈喽o”)或遗漏字符(如 “哈喽” 写成 “哈咯”),前者可能是手误长按,后者或许是输入习惯使然。在快速输入场景(如手机聊天、在线客服快速回复)下,此类错误尤为常见。

  3. 字符颠倒错误:如 “左右” 写成 “右左”,这多因输入时思维与手部动作不协调导致。尤其在输入较长词汇或固定短语时,大脑对整体词汇印象模糊,手指操作顺序颠倒,产生此类错误。

这些错误根源复杂多样,既有用户输入习惯差异,如不同年龄段用户熟悉输入法程度不同,年轻群体偏好拼音输入法便捷性,老年群体可能因视觉障碍误触键盘;也有输入设备精度参差,如智能手表小尺寸触摸屏、机械键盘轴体触发灵敏度差异,均影响输入准确性。

(二)拼写纠错算法全景扫描

  1. 基于规则的纠错方法

基于规则的拼写纠错方法依赖专家知识,构建详细纠错规则库。例如,针对常见同音字混淆(如 “在” 与 “再”),制定替换规则;对固定搭配错误(如 “迫不及待” 被写成 “迫不急待”),设置短语级校正规则。规则方法对特定领域、固定模式错误纠正效果显著,但面对语言变化、新词涌现(如网络热词 “yyds” 初始阶段常被错误拼写为 “yysd”),规则更新维护成本高昂,难以适应动态文本环境。

  1. 基于统计的纠错算法

统计方法从大规模文本语料中挖掘词汇共现概率、语序模式等信息。诺依曼拼写纠错模型通过计算候选词汇与上下文词汇共现概率,筛选出最符合语境的正确词汇。它假设正确词汇与周边词汇搭配更为高频,对短语级错误(如 “高速公路上面” 应为 “高速公路上”)纠正能力较强。但该方法对语料库质量、规模要求极高,若语料偏向特定领域(如科技文献),则对通用文本纠错泛化能力受限。

  1. 基于深度学习的纠错模型

深度学习为拼写纠错开辟新路径。序列到序列(Seq2Seq)模型架构,以输入错误文本序列为编码器输入,输出正确文本序列为解码器目标,通过训练海量错误 - 正确文本对,自动学习文本纠错模式。引入注意力机制后,模型能聚焦错误关键位置,提升纠错精准度。然而,Seq2Seq 模型训练数据获取难度较大,需人工标注错误文本,成本较高。此外,模型生成正确文本时可能存在多样性不足问题,对一词多义场景(如 “苹果” 可指水果或品牌)纠错易产生歧义。

BERT 等预训练语言模型在拼写纠错领域展现强大潜力。利用其深层语义理解能力,结合纠错微调任务(如 masking 错误字符预测正确字符),BERT 模型能精准定位并修正拼写错误。与传统方法相比,预训练模型优势在于利用大规模无监督语料学习通用语言知识,仅需少量标注数据微调即可适应特定纠错任务。但模型对计算资源需求大,在移动端或资源受限设备部署面临挑战。

(三)拼写纠错系统搭建与优化

搭建拼写纠错系统需综合运用多种技术。首先,构建基础文本处理流水线,对输入文本进行清洗、分词预处理,去除无关符号干扰,精准切分词汇为纠错原子单元。接着,集成多种纠错算法模块,如先用高效规则过滤常见错误,再调用深度学习模型处理复杂错误场景。系统需设计智能路由机制,依据文本特征(如文本长度、领域属性、错误疑似程度)动态选择最优纠错路径,平衡纠错速度与精度。

为持续优化系统,建立用户反馈闭环至关重要。收集用户手动修改后的正确文本,作为新训练数据反哺模型迭代。同时,监控系统纠错性能指标(如准确率、召回率、响应时间),定期评估不同算法模块贡献度,对薄弱环节重点优化。例如,发现系统对新兴网络热词拼写错误纠正能力不足,可定向采集网络文本语料,扩充词汇库并针对性训练模型,提升系统对语言演变适应能力。

五、停用词过滤

(一)停用词的定义与特性分析

停用词是文本中高频出现却缺乏实质语义贡献的词汇集合,如中文中的 “的、地、得、了、在、上、和、与、而、或”,英文中的 “the、a、an、in、on、at、and、but、or”。这些词汇在文本中充当语法粘合剂,维系句子结构完整性,但对文本主题理解、语义分析任务价值有限。在文本分类中,停用词无法体现类别区分度;在信息检索场景,包含大量停用词的查询向量会增加检索空间维度,降低检索效率。

停用词的特性因语言而异。中文停用词多为结构助词、时态助词、并列连词,通常占据文本词汇量 30% - 40%;英文停用词涵盖冠词、介词、简单连词等,占比稍低,约 20% - 30%。不同文本类型停用词分布也存在差异,文学作品中情感语气词(如 “啊、呢、吧”)出现频率较高,而学术论文中逻辑连接词(如 “因此、然而、综上所述”)更为密集。这种差异性要求停用词过滤策略依应用场景灵活调整。

(二)停用词过滤策略与工具

  1. 固定停用词表筛选策略

最常用方法是基于固定停用词表过滤。众多公开停用词表资源可供选择,如中文的 “哈工大停用词表”“中文通用停用词表”,英文的 “NLTK 英文停用词表”“SmartStoplist”。这些词表经专家精心整理,涵盖通用停用词。在实际应用中,只需加载词表,对文本分词后词汇进行逐一匹配,剔除命中词汇。该方法简单高效,但对于特定领域文本(如医学文献中 “的” 字在某些解剖结构描述中实为关键词汇),易产生误伤,丢失重要语义信息。

  1. 基于词频统计的动态过滤策略

针对固定词表局限,可采用基于词频统计的动态策略。首先对大规模领域文本语料进行词频统计,筛选出超高频词汇(如词频排名前 100 的词汇)作为候选停用词。结合文档频率(DF)计算,若某个词汇在多数文档中频繁出现且对文档主题区分度低(如 DF 值极高),则判定其为停用词。此方法能自适应领域文本特征,挖掘出领域特有停用词,但计算成本较高,需处理海量文本统计信息。

  1. 停用词过滤工具实战

在 Python 生态中,NLTK 与 SpaCy 是处理停用词的利器。NLTK 提供多语言停用词表访问接口,通过简单函数调用(如 nltk.corpus.stopwords.words('language'))即可加载对应语言停用词列表,与文本词汇列表进行集合运算,快速完成过滤。SpaCy 则在加载语言模型时自带停用词功能,其 Lexeme.is_stop 属性可判断词汇是否为停用词。例如,在处理一篇新闻文本时,使用 SpaCy 进行分词标注,同步利用停用词标注属性过滤停用词,后续提取关键词、构建文本向量时仅保留关键语义词汇,提升文本表示质量。

(三)停用词过滤效果评估与优化

评估停用词过滤效果需从文本语义完整性、任务性能提升两方面入手。构建语义相似度评估数据集,包含原始文本与人工过滤停用词后的高质量文本样本对。利用余弦相似度计算原始文本向量(未过滤停用词)与过滤后文本向量相似度,若相似度维持在较高水平(如 0.8 以上),说明停用词过滤未对核心语义造成严重破坏。同时,在下游任务(如文本分类、聚类)中对比过滤前后的模型性能(准确率、F1 值、轮廓系数等指标),若性能显著提升,则证明停用词过滤策略有效。

为优化过滤效果,可结合人工校验与算法微调。定期抽样停用词过滤后文本,组织领域专家人工评估语义准确性,发现误过滤关键词汇后,将其移出停用词表或调整过滤规则权重。例如,在金融领域文本处理中,发现 “股” 字常被错误过滤(如 “股票” 被切分为 “股” 和 “票” 后,“股” 又被停用词表剔除),可通过扩充领域自定义词汇表、设置词组过滤白名单等方式修正错误,持续优化停用词过滤系统,使其精准服务于特定 NLP 任务。

六、词的标准化

(一)词的标准化的概念与意义阐释

词的标准化旨在将词汇不同形态统一为标准形式,消除词汇变体带来的语义理解障碍。在英语中,词形变化尤为丰富,如动词不同时态(“run - runs - ran - running”)、名词不同数(“child - children”)、形容词不同级(“big - bigger - biggest”)。在中文里,量词搭配差异(如 “一只鸟” 与 “一个鸟”)、同义词使用场景差异(如 “大夫” 与 “医生”)也构成词汇标准化难题。

从 NLP 任务角度看,词的标准化意义重大。在文本挖掘任务中,若不统一词汇形态,如统计词频时 “run” 和 “running” 会被视为不同词汇,导致词频分布碎片化,无法准确衡量核心概念出现频率;在语义相似度计算场景,词汇形态差异会让语义关联词汇(如 “大” 与 “巨大”)被错误判定为低相似度,影响文本匹配精度。通过标准化处理,词汇映射到统一语义空间,为后续语义分析、知识图谱构建等任务筑牢根基。

(二)词的标准化方法全景图

  1. 词形归一化(Stemming)

词形归一化是早期词汇标准化方法,其核心思想通过简单规则裁剪词汇后缀,将词汇还原为词干形式。以英语为例,Porter 算法是最经典词形归一化方法。它定义一系列规则,如去 “s” 后缀(“runs” → “run”)、去 “ing” 后缀(“running” → “run”)。该方法计算效率高,适用于大规模文本预处理场景。但其规则简单粗暴,常导致错误归一化,如 “university” 被裁剪为 “univers”,失去语义可读性;面对复杂词形变化(如不规则动词 “go - went - gone”)无能为力。

  1. 词形还原(Lemmatization)

词形还原在词形归一化基础上显著进步,其目标是将词汇还原为词典中标准原型(词形还原形式)。它依赖词性标注信息,结合词汇语义规则进行还原。例如,在分词标注过程中,若判定 “running” 为动词现在分词形式,将其还原为动词原形 “run”;若 “running” 作为名词(如 “a running of the river”),则保持不变。相比词形归一化,词形还原结果语义准确性更高,但因依赖词性标注,计算成本相应增加,且对词性标注模型精度敏感。

  1. 同义词词林与词汇替换

针对同义词问题,同义词词林(如 HowNet、WordNet)成为有力工具。HowNet 涵盖丰富中文概念及其属性义原描述,WordNet 则构建英文词汇同义词集合(Synset)与词汇语义关系网络。基于这些资源,可将文本中词汇替换为所属同义词集合的标准代表词。例如,在处理旅游评论文本时,将 “美丽”“漂亮”“好看” 等词汇统一替换为 “美” 这一标准词汇,增强文本语义一致性。然而,同义词替换需谨慎考虑上下文语境,避免改变句子原意,如 “他打篮球很厉害” 中 “厉害” 若替换为 “优秀”,语义有所偏差。

(三)词的标准化应用场景与实战技巧

  1. 搜索引擎优化(SEO)与信息检索

在搜索引擎领域,词的标准化是提升检索精准度核心环节。用户输入检索词时,搜索引擎后台对检索词进行标准化处理,同时对索引文本词汇也标准化存储。例如,用户搜索 “run exercise benefits”,搜索引擎将 “running”“runner” 等相关词汇统一映射到 “run” 词干,扩大检索范围,提高召回率。在企业知识库检索场景,对知识库文档词汇标准化后构建索引,员工查询时能快速定位所需知识条目,提升知识共享效率。

  1. 文本分类与情感分析

在文本分类任务中,词的标准化有助于降低词汇空间维度,减少模型过拟合风险。以新闻文本分类为例,将不同形态词汇统一标准化,模型能更精准捕捉类别相关关键词,提升分类准确率。在情感分析场景,对情感词汇(如 “高兴 - 高兴的 - 高兴地”)标准化后,情感词典匹配更准确,情感倾向判断更可靠。例如,在电商评论情感分析中,将 “超好吃”“非常美味” 等词汇统一标准化为 “美味” 层级,构建简洁高效情感词汇体系,增强模型泛化能力。

  1. 词的标准化工具与实战代码演示

在 Python 中,NLTK 库提供词形归一化和词形还原功能。利用 nltk.stem.PorterStemmer 类实现 Porter 算法词形归一化,代码如下:

from nltk.stem import PorterStemmerstemmer = PorterStemmer()
word = "running"
stemmed_word = stemmer.stem(word)
print(stemmed_word)  # 输出:run

对于词形还原,借助 nltk.stem.WordNetLemmatizer 类,结合词性标注(如将 “running” 标注为动词),精确还原词汇原型:

from nltk.stem import WordNetLemmatizerlemmatizer = WordNetLemmatizer()
word = "running"
pos = "v"  # 动词标注
lemmatized_word = lemmatizer.lemmatize(word, pos=pos)
print(lemmatized_word)  # 输出:run

在处理中文同义词标准化时,可利用 HowNet 接口工具。通过匹配词汇在 HowNet 概念库中的义原信息,将同义词汇替换为标准概念名称。例如,在处理中医文本时,将 “桂枝”“肉桂” 等词汇映射到 “肉桂” 这一标准中药名,方便后续构建中药知识图谱、进行药方分析等任务,提升中文文本语义统一性与机器可理解度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】ArrayList 与顺序表的实现

目录 一、List 接口 1.1 List 接口的简单介绍 1.1 常用方法 二、顺序表 2.1 线性表的介绍 2.2 顺序表的介绍 2.3 顺序表的实现 2.3.1 前置条件:自定义异常 2.3.2 顺序表的初始化 2.3.2 顺序表的实现 三、ArrayList 实现类 3.1 ArrayList 的两种使用方式 3.2 Array…

Linux518 YUM源仓库回顾(需查)ssh 服务配置回顾 特定任务配置回顾

计划配仓库YUM源 为什么我在/soft文件夹下 使用yum install --downloadonly --downloaddir /soft samba 为什么文件夹下看不到samba文件 exiting because “Download Only” specified 计划过 计划配SSH 参考 ok了 计划配置特定任务解决方案 code: 两端先配好网络 测试好s…

如何完美安装GPU版本的torch、torchvision----解决torch安装慢 无法安装 需要翻墙安装 安装的是GPU版本但无法使用的GPU的错误

声明: 本视频灵感来自b站 如何解决所述问题 如何安装对应版本的torch、torchvison 进入pytorch官网 进入历史版本 这里以cuda11.8 torch 2.1.0为例演示 根据文档找到要安装的torch、torchvison版本 但不是使用命令行直接安装 命令行直接安装可能面临着 安装慢…

【iOS(swift)笔记-9】WKWebView无法访问网络

对于iOS 在info中添加App Transport Security Settings,然后在App Transport Security Settings里添加Allow Arbitrary Loadstrue 对于macOS 除了上面的操作,还需在项目信息的App Sandbox里有个Network打钩选项

buck变换器的simulink/matlab仿真和python参数设计

什么是Buck电路? BUCK电路是一种降压斩波器,降压变换器输出电压平均值Uo总是小于输出电压UD。通常电感中的电流是否连续,取决于开关频率、滤波电感L和电容C的数值。BUCK也是DC-DC基本拓扑,或者称为电路结构,是最基本的DC-DC电路…

给个人程序加上MCP翅膀

背景 最近MCP这个词真是到处都是,看起来特别高大上。我平时没事的时候也一直在关注这方面的技术,知道它是怎么一回事,也懂该怎么去实现。但可惜一直抽不出时间来自己动手搞一个MCP服务。网上关于MCP的教程一搜一大把,但基本上都是…

AWS中国区CloudFront证书管理和应用指南

在AWS中国区使用CloudFront时,SSL/TLS证书的管理和应用是一个重要的环节。本文将详细介绍如何在AWS中国区上传、管理和应用SSL证书到CloudFront分配。 1. 准备证书文件 首先,我们需要准备好SSL证书相关的文件。通常,这包括: 私钥文件(.key)公钥证书文件(.crt)证书链文…

为什么hadoop不用Java的序列化?

Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。所以&#xf…

Word压缩解决方案

Word压缩解决方案:基于图片压缩的 .docx 优化实践 📌 背景 在日常科研写作或项目文档整理中,Word 文档(.docx)往往因为插入大量高清图表、扫描图像、公式图等导致文件体积过大,或者毕业学位论文查重要求上…

基于基金净值百分位的交易策略

策略来源:睿思量化小程序 基金净值百分位,是衡量当前基金净值在过去一段时间内的相对位置。以近一年为例,若某基金净值百分位为30%,意味着过去一年中有30%的时间基金净值低于当前值,70%的时间高于当前值。这一指标犹如…

数字人技术的核心:AI与动作捕捉的双引擎驱动(210)

**摘要:**数字人技术从静态建模迈向动态交互,AI与动作捕捉技术的深度融合推动其智能化发展。尽管面临表情僵硬、动作脱节、交互机械等技术瓶颈,但通过多模态融合技术、轻量化动捕方案等创新,数字人正逐步实现自然交互与情感表达。…

基于OpenCV的实时文档扫描与矫正技术

文章目录 引言一、系统概述二、核心代码解析1. 导入必要库2. 辅助函数定义3. 坐标点排序函数4. 透视变换函数5. 主程序流程 三、完整代码四、结语 引言 在日常工作和学习中,我们经常需要将纸质文档数字化。手动拍摄文档照片常常会出现角度倾斜、透视变形等问题&…

jenkins pipeline实现CI/CD

在企业级的架构中,CI/CD是必不可少的一个环节,它可以让开发人员只关注于开发,而不必去关注项目的构建和部署,从而提高开发人员的效率。 本文我们来介绍一下使用jenkins 的pipeline来进行java项目的自动构建以及部署。我们通过脚本…

InfluxDB 3 Core + Java 11 + Spring Boot:打造高效物联网数据平台

一、 引言:为什么选择InfluxDB 3? 项目背景: 在我们的隧道风机监控系统中,实时数据的采集、存储和高效查询是至关重要的核心需求。风机运行产生的振动、倾角、电流、温度等参数是典型的时序数据,具有高并发写入、数据…

泰国SAP ERP实施如何应对挑战?工博科技赋能中企出海EEC战略

泰国正依托"东部经济走廊(EEC)"与RCEP协定叠加优势,为中国企业提供面向亚太市场的战略机遇。作为2022年泰国主要外资来源国之一,中国企业通过电子制造、智能家电、数据中心及新能源车等领域的投资深度参与泰国"4.0…

【设计模式】- 创建者模式

单例模型 饿汉式 静态方法创建对象 public class Singleton {// 私有构造方法private Singleton(){}private static Singleton instance new Singleton();// 提供一个外界获取的方法public static Singleton getInstance(){return instance;} }静态代码块创建对象 public …

逻辑与非逻辑的弥聚

非逻辑弥聚与逻辑弥聚是复杂系统中两种不同的信息整合方式。逻辑弥聚侧重于通过明确的规则、规律和结构化方法,将分散的信息或功能进行有序的组织和集中处理,强调理性和确定性。而非逻辑弥聚则更多地涉及情感、直觉、经验等非线性、非结构化的因素&#…

Linux进程信号(三)之信号产生2

文章目录 4. 由软件条件产生信号5. 硬件异常产生信号模拟一下除0错误和野指针异常除0错误野指针错误 总结思考一下 4. 由软件条件产生信号 SIGPIPE是一种由软件条件产生的信号,在“管道”中已经介绍过了。 软件条件不就绪,很明显这个软件条件没有直接报错&#xff…

读取18B20的问题,时钟太慢了

使用MSP430,1M时钟,在读取18B20数据时,一直存在问题,使用逻辑分析仪读取的数据也是莫名其妙,查看电路图和器件也没有发现问题,就这样断断续续的卡了一周多。 今天忽然想把时钟升一下试试,原来1…

第12章 Java多线程机制

12.1 进程与线程 4种状态:新建、运行、中断和死亡。 (新建、运行、中断和死亡) 建立线程的两种方法:用Thread类或其子类。 线程新建后,必须调用 start () 方法使其进入就绪队列,才有机会获得 CPU 资源&a…