3123004481

news/2025/9/22 23:14:40/文章来源:https://www.cnblogs.com/imt0nyS/p/19106314

第一次个人编程作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience
这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13477
这个作业的目标 实现一个论文查重程序
github连接: https://github.com/YezhuT0nyS/3123004481

一、PSP表格如下

Process Stages Process Stages (中文) 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 35
· Estimate · 估计这个任务需要多少时间 160 240
Development 开发 200 180
· Analysis · 需求分析(包括学习新技术) 120 140
· Design Spec · 生成设计文档 15 20
· Design Review · 设计复审 25 25
· Coding Standard · 代码规范(为目前的开发制定合适的规范) 20 10
· Design · 具体设计 40 50
· Coding · 具体编码 50 80
· Code Review · 代码复审 30 60
· Test · 测试(自我测试,修改代码,提交修改) 20 35
Reporting 报告 80 100
· Test Report · 测试报告 40 70
· Size Measurement · 计算工作量 20 20
· Postmortem & Process Improvement Plan · 事后总结,并提出过程改进计划 20 10
· 合计 870 1075

二、计算模块接口的设计与实现过程
程序整体结构
1.模块架构
image

2.程序流程图

3.算法独到之处
核心算法:采用改进的余弦相似度算法,通过词频向量量化文本特征,计算两篇文本的向量夹角余弦值作为重复率。
独到之处:
引入词权重机制,对重要词汇(如专业术语)赋予更高权重

4.改进思路
初始问题:对大文本(10 万字以上)处理时,词频统计和向量计算耗时过长(约 8 秒)
优化措施:
将列表存储改为字典哈希表存储,将词频查询复杂度从 O (n) 降至 O (1)
实现稀疏向量表示,只存储非零值元素
引入缓存机制,复用相同文本的处理结果
使用生成器 (generator) 替代列表推导,减少内存占用
优化效果:处理时间从 8 秒降至 1.2 秒,内存占用减少 65%

6.计算模块异常处理说明
文件不存在异常 (FileNotFoundError)
设计目标:处理输入文件路径错误或文件不存在的情况
测试样例:传入不存在的文件路径 "nonexistent.txt"
错误场景:用户输入了错误的文件路径或文件被误删除

权限错误异常 (PermissionError)
设计目标:处理程序无权限读取文件或写入结果的情况
测试样例:尝试读取系统保护文件或写入只读目录
错误场景:运行程序的用户权限不足

空文件异常 (EmptyFileError)
设计目标:处理原文或抄袭版论文为空的情况
测试样例:传入内容为空的文本文件
错误场景:用户误传空文件或文件内容被清空

格式错误异常 (FormatError)
设计目标:处理非文本格式的文件(如二进制文件)
测试样例:传入图片文件或压缩包作为输入
错误场景:用户传入了错误格式的文件

计算超时异常 (CalculationTimeoutError)
设计目标:防止程序在处理超大文本时无响应
测试样例:传入 500 万字以上的超大文本
错误场景:处理超出预期大小的文本导致计算时间过长
采用增量式词表构建,减少内存占用
实现稀疏向量存储,优化大文本处理性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/910707.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淮安建设局网站最新产品上市代理加盟

jpa 手动预编译JPA提供了几种查询数据的方法。 可以根据各种标准(例如,使用的语言(SQL与JPQL)或查询是静态的(编译时间)还是动态的(执行时间))对此类替代方案进行分类。 …

网站开发实训指导书在线制作广告图片

原标题:赵县308国道一路口发生一起大货车与电动三轮车碰撞事故,电动三轮车驾驶人受伤。2020年11月4日上午,赵县308国道一路口发生一起大货车与电动三轮车碰撞事故,造成电动三轮车驾驶人受伤。大货车驾驶人驾驶一辆重型货车&#x…

科技公司网站设计方案页面设计公司招聘

怎么把Python当计算器用?(小白自学笔记) Part I:标准数学包的导入 今天刚刚装了python,打算用它来取代matlab的基本计算功能,当我的日常计算器用。(这里还有一个捷径,如果你跟我一样也是纯小白的话,直接问c…

青春网站建设工作室wordpress调出媒体库

文章目录 一.docker容器概述1.什么是容器2. docker与虚拟机的区别2.1 docker虚拟化产品有哪些及其对比2.2 Docker与虚拟机的区别 3.Docker容器的使用场景4.Docker容器的优点5.Docker 的底层运行原理6.namespace的六项隔离7.Docker核心概念 二.Docker安装 及管理1.安装 Docker1.…

旅游网站开发系统的er图服务好的镇江网站优化

为保证2019年上半年博士生毕业工作顺利开展,根据我校博士生答辩管理的相关文件,现将有关事项通知如下,请遵照执行。1.毕业申请:拟毕业研究生于3月15日前登录“中南大学研究生教育管理信息系统”(以下简称管理系统),在管理系统个人…

网站备案需要具备什么wordpress 元描述

文章目录 1、写时拷贝2、进程终止2.1 进程退出场景2.1.1 退出码2.1.2 错误码错误码 vs 退出码2.1.3 代码异常终止引入 2.2 进程常见退出方法2.2.1 exit函数2.2.2 _exit函数 本片我们主要来讲进程控制,讲之前我们先把写时拷贝理清,然后再开始讲进程控制。…

文具电子商务网站开发内容哈尔滨网站备案手续

应用架构与可观测技术演进历程 在软件开发早期,单体应用架构因其结构简单,便于测试和部署,得到了广泛的应用,对应的监控诊断技术主要是基于日志和日志关键词的指标监控。随着软件复杂度的不断提升,单体应用架构逐步向分…

购物网站建设基本流程树状图大连网站建设设计公司哪家好

深度学习模型种类繁多,可以根据任务类型和应用场景进行分类。以下是主要模型类型的详细介绍,每种模型包含了其特点、功能、代表性模型,以及常见应用。 1. 分类模型 分类模型是深度学习中最基本也是最广泛应用的模型类型,其目标是…

使用python读取windows日志表

在windows系统中,注册表 是系统定义的数据库,应用程序和系统组件在其中存储和检索配置数据。 注册表是一个分层数据库,其中包含对 Windows本身以及Windows上运行的应用程序和服务至关重要的数据。 因此我们还是不好…

西安市免费做网站站长统计幸福宝下载

引言 在当前计算机科学领域中,保护软件代码的安全性和隐私性变得愈发重要。为了防止黑客攻击和恶意软件分析,开发人员采用各种技术来混淆和加密其代码,其中包括JS混淆技术。本文将介绍JS混淆技术的原理和应用,并提供一些相关的加密…

网站建设方案对比分析社区团购最新模式

1.Python2.webservice3.requirejs4.idea5.webService6.redis7.doubble8.mongDB9.zookper 大数据学习曲线:课程一、大数据运维之Linux基础课程二、大数据开发核心技术-Hadoop 2.x从入门到精通课程三、大数据开发核心技术-大数据仓库Hive精讲课程四、大数据协作框架-S…

建设厅八大员报名网站免费企业网站源码

跳跃游戏 给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回 true ;否则,返回 false 。在这里插入图片…

建设银行甘肃分行网站企业微信app下载安装官网

CentOS 安装nginx 安装使用的是配置nginx官网yum仓库安装 同时适用于Red Hat Enterprise Linux 及其衍生产品,例如 CentOS、Oracle Linux、Rocky Linux、AlmaLinux 如想使用压缩包解压方式安装请自行百度 注:安装全程使用非root用户 且 该用户已有sudo权…

佛山营销型网站建设公司第三方网站开发优缺点

YUM 功能 软件包安装&#xff1a; 通过yum命令安装软件包。例如&#xff0c;安装一个名为 example-package 的软件包 yum install example-package更新包 检查更新&#xff1a; 检查可用更新&#xff1a; sudo yum check-update <package_name>软件包更新&#xff1a; y…

万网官方网站浙江省建设工程监理管理协会网站

题目描述 最近米咔买了n个苹果和m个香蕉&#xff0c;他每天可以选择吃掉一个苹果和一个香蕉&#xff08;必须都吃一个&#xff0c;即如果其中一种水果的数量为0&#xff0c;则他不能进行这个操作&#xff09;&#xff0c;或者使用魔法将某一种水果的数量翻倍。 现在米咔想吃西…

宿州产品网站建设网站开发合同书

本文是LLM系列文章&#xff0c;针对《Meta Semantic Template for Evaluation of Large Language Models》的翻译。 大型语言模型评估的元语义模板 摘要1 引言2 相关工作3 方法4 实验5 结论 摘要 大型语言模型(llm)是否真正理解语言的语义&#xff0c;或者只是记住训练数据?…

开机RAM分析调试SOP

思维导图 数据来源 内存分解对比项一、硬件保留内存 二、MemFree剩余物理内存 三、MemAvailable剩余可用内存Kernel占用内存 用户空间占用内存 思维导图 数据来源/proc/meminfo 内存状态信息 dumpsys memin…

9.20 模拟赛 T4

题意:有 \(n\) 个点,每个点有四个属性 \(a_i,b_i,c_i,v_i\)。现在要在这 \(n\) 个点之间连无向边。要求:\(i\) 的度数至少为 \(a_i\)。 \(i\) 的所有邻居 \(j\) 的 \(v_j\),要么都小于等于 \(v_i\),要么都大于等于…

建设网站的题目无实体店营业执照申请

网站优化搜索引擎与关键词 人们不应该高估搜索引擎的智商。这不利于seo的研究&#xff0c;事实上&#xff0c;搜索引擎是非常愚蠢的&#xff0c;让我们举一个非常简单的例子&#xff0c;你在搜索引擎中输入“教师”这个词&#xff0c;搜索引擎就会给出一个准确的搜索列表。我们…

厦门网站改版网络营销的成功案例

目标 知道GoogLeNet网络结构的特点能够利用GoogLeNet完成图像分类 一、开发背景 GoogLeNet在2014年由Google团队提出&#xff0c; 斩获当年ImageNet(ILSVRC14)竞赛中Classification Task (分类任务) 第一名&#xff0c;VGG获得了第二名&#xff0c;为了向“LeNet”致敬&#x…