建设监督网站阜城网站建设代理

news/2025/10/1 14:19:34/文章来源:
建设监督网站,阜城网站建设代理,做网站充值系统,刚做的网站怎么在百度上能搜到1.筛选需求的报告id 基于REAC14Q4文件,筛选出需求报告的id,该文件格式如下#xff0c;其中pt字段描述了患者在事件中所有的不良信息#xff0c;注意此处一个报告id可以对应复数条信息。 primaryid$caseid$pt$drug_rec_act 初步统计约有4500种不良反应#xff0c;总计60W条数…1.筛选需求的报告id 基于REAC14Q4文件,筛选出需求报告的id,该文件格式如下其中pt字段描述了患者在事件中所有的不良信息注意此处一个报告id可以对应复数条信息。 primaryid$caseid$pt$drug_rec_act 初步统计约有4500种不良反应总计60W条数据其中绝大多数不良反应都是个例由于当前网络暂时需求是预测常规副作用这里取出现频率前100的症状作为预测目标最后获取349252条数据约占原数据集的55%对应134954项报告约占原报告数64% 删选原则 取出现频率最高的pt反应前100位筛选包含这些pt的报告号将这些报告号对应的其他非高频症状统一变更为rare symptoms字段然后去除重复项。最后保存id文件以及涉及的pt字段文件。ps:去除重复项我是用excel实现的这个只需要导入生成的basedata.xlsx然后选择去除重复项就行 df pd.read_excel(rE:\xml数据处理\data\exceldata\REAC14Q4.xlsx) pt_counts df[pt].value_counts() # 获取前100pt top_50_pt pt_counts.head(100).index.tolist() with open(pt_data.txt, w) as file:for id in top_50_pt:file.write(str(id) \n) # 筛选出具有前50高频率的pt对应的primaryid get_id df.loc[df[pt].isin(top_50_pt), primaryid].unique() # 将primaryid写入文件 with open(getid.txt, w) as file:for id in get_id:file.write(str(id) \n)# 将非前50高的pt数据更改为Rare symptoms df.loc[~df[pt].isin(top_50_pt), pt] Rare symptoms # 筛选出具有前50高频率的pt对应的所有条目 filtered_data df[df[primaryid].isin(get_id)] # 将筛选后的数据输出到Excel文件 filtered_data.to_excel(basedata.xlsx, indexFalse) 2.基于筛选出的id初步筛选7个txt文件的 定义了一个函数来完成该功能输入是getid.txt路径以及需要处理的文件路径 def clean_txt(path_getid:str,path_txt:str):with open(path_getid, r) as file:primaryid_list [line.strip() for line in file]count 0with open(path_txt, r) as file:first_line file.readline().strip()filtered_data pd.DataFrame(columnsfirst_line.split($))for line in file:count 1if count%1000 0 : print(count)data line.strip().split($)data [item.strip() for item in data]if data[0] in primaryid_list:filtered_data.loc[len(filtered_data)] data[:25]filtered_data.to_excel(data_cleaned.xlsx, indexFalse, headerTrue) 不过越到后面处理越慢实验了几次发现是DataFrame格式产生了不少的开销这专用list存储数据最后再转换成DataFrame格式然后加上分块处理清洗速度有了质的飞跃当然list转换成DataFrame也需要一些时间(大概1-2分钟10W条数据)可以考虑使用numpy或许会更快些。 def clean_txt2(path_getid: str, path_txt: str):# 读取getid.txt文件获取需要筛选的primaryid列表with open(path_getid, r) as file:primaryid_list [line.strip() for line in file]count 0chunksize 20000with open(path_txt, r) as file:first_line file.readline().strip()headers first_line.split($)filtered_data []while True:chunk file.readlines(chunksize)if not chunk:breakfor line in chunk:count 1if count % 1000 0:print(count)data line.strip().split($)data [item.strip() for item in data] # 移除换行符if data[0] in primaryid_list:filtered_data.append(data[:25])#list转DataFramefiltered_df pd.DataFrame(filtered_data, columnsheaders)filtered_df.to_excel(data_cleaned.xlsx, indexFalse, headerTrue) 明天继续 ps: 数据集见附件资源或下方网盘链接 链接https://pan.baidu.com/s/1zJeFS48DvZydHk1SfuIQHg?pwd6666  提取码6666

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/923925.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么网站做蔬菜生鲜比较好向客户介绍网站建设

一篇word文档,内容有大的章,小的节。如何把章节抽出来生成目录?WORD →点击需要插入的地方 → 插入菜单 → 索引和目录 → 目录 → 确定目录通常是长文档不可缺少的部分,有了目录,用户就能很容易地知道文档中有什么内容…

【Linux系列】让 Vim “跑”起来:建立一个会动的进度条

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网上自己建网站网站建设合同建设方注意事项

来源:国防科技要闻据悉,俄罗斯地面部队已完成“木船”(Kungas)机器人系统样机的国家试验,将于2020年开始部署部队,用于作战试验。发展背景自2010年以来,俄罗斯机器人系统进入快速发展时期。2014…

网站空间商是什么图书馆网络规划与设计

Problem: 354. 俄罗斯套娃信封问题 文章目录 思路解题方法复杂度Code 思路 这个问题可以转换为最长递增子序列(Longest Increasing Subsequence,LIS)问题。先对信封按宽度升序排序,当宽度相同时,按高度降序排序。然后在…

天津建设工程评标专家网站怎么用ps制作个人网站模板下载

31.《危险化学品安全管理条例》所称重大危险源,是指生产、储存、使用或者搬运危险化学品,且危险化学品的数量等于或者超过()的单元(包括场所和设施)。 A.标准 B.一定量 C.临界量 答案:C 32.《危险化学品生产企业安全生产许可证实施办法》…

电子文件分类整理与双向同步 2025年10月1日

电子文件分类整理与双向同步 2025年10月1日一、网上包邮购买 极空间私有云Z4Pro+性能版钛金灰+希捷酷狼Pro16TBx4块二、在极空间Windows电脑客户端设置文件夹实时双向同步任务三、在极空间Windows电脑客户端设置自动挂…

手机wap购物网站模板上海建筑设计院招聘

内网工具对抗 首先,你需要分析: 1、安全工具是否有源代码 2、安全工具源代码逻辑复杂程度 3、当前源代码你是否有能力修改 其次,你需要考虑: 1、无源码或无能力修改 2、各种异常bug打包问题 3、修改打包后效果也不太好 故…

C++版搜索与图论算法 - 详解

C++版搜索与图论算法 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco",…

达成设计卓越:全面解析 IC 设计中的验证之道

在集成电路(IC)设计流程中,验证(Verification) 是确保设计符合规格、功能正确的关键环节。本文以简洁明快的风格,深入探讨验证的重要性、常用方法与实践经验,帮助设计师构建高效可靠的验证流程。 1、验证的重要…

Typora 笔记迁移 Obsidian 图片链接转换

解决了Typora 笔记迁移 Obsidian 图片链接转换问题,实现了自动化`![Pasted image 20221223164738.png](./Database/Pasted image 20221223164738.png)--![[Pasted image 20221223164738.png]]`附件:Typora 笔记迁移 O…

【Java八股文】12-分布式面试篇 - 教程

【Java八股文】12-分布式面试篇 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…

Java 运行 Word 文档标签并赋值:从基础到实战

Java 运行 Word 文档标签并赋值:从基础到实战pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &q…

上海配资网站开发广州开发区投资集团有限公司

都是copy的百度SDK文档,简单说说怎么用。1、没安装Python的参见此文:Python学习笔记系列 1 ——安装调试Python开发软件2、winr输入cmd打开命令行,输入:pip install baidu-aip,如下安装百度AI的模块。3、新建文本文档&…

词云组件

效果图: 组件代码:<template><div class="post"><div class="portal-title flex-h justify-between"><div class="flex-h"><img class="icon"…

域名 网站名称网站建设对电子商务的作用

&#x1f308;个人主页: 程序员不想敲代码啊 &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共…

网站制作的关键技术新乡手机网站建设电话

文章目录 一、JavaScript 逻辑运算符1、逻辑运算符 概念2、逻辑与运算符 &&3、逻辑或运算符 ||4、逻辑非运算符 !5、完整代码示例 一、JavaScript 逻辑运算符 1、逻辑运算符 概念 JavaScript 中的 逻辑运算符 的作用是 对 布尔值 进行运算 , 运算完成 后 的 返回值 也是…

没有网站也可以做外贸吗wordpress和万网

碰撞 Collision. [kəˈliʒən] 碰撞&#xff1b;冲突&#xff1b;&#xff08;意见&#xff0c;看法&#xff09;的抵触&#xff1b;&#xff08;政党等的&#xff09;倾轧 选择一个需要添加碰撞器的游戏对象后 Component->Physics- Unity一共为对象提供了6 种碰撞器&…

监控设备网站制作工作服厂家联系方式

目录 1. 更换yum源更新系统软件包&#xff1a; 1.1备份yum源 1.1.1创建备份目录&#xff1a; 1.1.2移动现有仓库配置文件到备份目录&#xff1a; 1.1.3验证备份&#xff1a; 1.2更换yum源 1.2.1添加yum源 1.2.2删除和建立yum缓存 1.3更新系统软件包 1.4 yum与dnf介绍…

2025 年超声波清洗机品牌最新权威推荐排行榜:龙门式 / 悬挂式 / 全自动等多类型设备厂家 TOP3 精选,助力企业精准选购

当前电子、机械、医疗、汽车、新能源等精密制造行业飞速发展,对零部件清洗的精度、效率及环保标准提出更高要求,超声波清洗机作为核心清洗设备,市场需求持续攀升。但市场上品牌繁杂,产品质量、技术水平与服务能力差…

树的统一迭代法

树的统一迭代法是一种比较通用的遍历方法,通过标记法来实现前序、中序、后序遍历,核心思想是通过栈中加入空指针来标记访问节点和处理节点的时机 树的递归遍历 递归遍历比较简单,只要完成模板,更改添加元素的位置代…