挑战5天一篇预测模型NHANES
Day1!
近期美国关闭seer数据库的信息在互联网上广泛传播,大家都在担心数据库挖掘是否还能做。这个问题其实是有答案的,数据库挖掘肯定能做,做没被关的数据库即可,同时留意一些国产数据库~
因此我在这个时间段挑战做一篇nhanes数据挖掘库挖掘,坚定大家的信念。只有拥有SCI,才有硕士选择更好的权利,才有读到博士的机会,一定坚定信念,数据库那么多,总有我们能做的~
为了提高挑战的难度和成稿文章的接收率,挑我决定挑战5天利用NHANES数据库完成一篇预测模型SCI!
第一天的主要任务就是熟悉数据库+明确选题+确定目标期刊和目标文献。
由于我们之前发起过很多期NHANES的挑战,对NHANES的官网还是非常熟悉的,这里就大大缩短了熟悉网站的时间。
简单来说,NHANES数据库是一个 涉及心血管、内分泌、营养、感染、妇产等多个领域的,无需申请或伦理审批,数据完全免费的公共数据库。数据量特别的大,涉及的相关指标很多,可以适合各个不同的科室的朋友来挖掘写作~
之前的挑战大多研究的是A变量与B疾病之间的关联,这次想做点不一样的,利用同样的数据库来做临床预测模型~
我用“NHANES + nomogram”进行了初步的检索,发现发的文章数量不多,正是发文的好时机!
我想建立一个我的目标疾病的人群全因死亡率的列线图,所以又去检索了“NHANES and nomogram and 目标疾病”,目前还没有人发过,那就这么定啦!接着在pubmed上根据我的目的选择了一个目标杂志,目标期刊:Front Pharmacol 标题Development and validation of a nomogram for predicting all-cause mortality in American adult hypertensive populations,随后去深入了解了这个杂志,不是水刊,发文量和被引数都还可以,那就他啦
坚定信念,让我们一起冲冲冲!!!
Day 2!
虽然最近医院很忙,但挑战不能停~
第2天主要任务:提取数据前的准备
具体需要干的就是:
- 阅读5-10篇NHANES预测模型的文章
- 根据文章确定自己需要的变量
- 整理变量的具体信息
- 整理需要的数据
公开数据库有很多,如MIMIC、eICU数据库等,但是相较而言NHANES数据库的数据获取比较简单,而且我们已经将所有的数据都下载到了本地,大大缩短了我们提取数据的时间,对我们这些“临床打工人”来说是非常友好的!
今天最主要的一步就是整理变量的信息,在动手前,我一般会花几十分钟时间,整体浏览一下这个数据库,对于什么样的数据在demo里,什么样的数据是在问卷里做到心中有数,有些实在找不到的变量,也可以去试试首页上的search variables。
变量信息整理好后,其实就完成了大半,接下来要做的就是把需要的xpt文件整理好就好啦~我们前期花了一些时间,把所有的周期的所有数据全部下载到本地啦,所以整理数据几分钟就能完成~
好啦,今天的分享就到这里啦!
Day 3!
Day3任务:数据提取与清洗。
前期我已经把所有的数据都下载好啦,现在主要的目标就是进行数据的提取清洗,我们用R将所需要的数据提取出来。在第二天我们已经把所需要的数据的具体信息都整理好啦,这个表格对我们的数据提取至关重要~
因为我做的是目标疾病的死亡率的预测模型,所以要考虑的主要有三个方面:
- 目标疾病
- 死亡的信息
- 需要考虑的变量
因为之前以及熟悉过这个代码啦,所以提数据的时候很easy~用代码提啊提,很快就搞完了。需要花一点时间的地方就是数据的清洗,做预测模型和普通的NHANES在数据清洗部是一样的,比如说高血压看起来只有是和否,但实际上需要依靠多个数据一起来定义:
- 目前正在口服降压药 2)血压大于140/90mmHg(取平均值) 3)被医生告知有高血压
工程还是很浩大滴!
但做多了也就熟练啦~猛猛一顿筛选就搞定!
整理好了数据以后,后面的分析实际上是非常简单的,选题才是最重要、最费时间的,也是最容易浮躁滴,静下来,方向对了,就一定能出成果。
一起加油呀~
Day 4!
Day4任务:跑出结果+完成中文稿
前期花了3天时间已经将数据都整理好啦,现在的任务就是跑出图片和表格~
在第2天我们已经大量阅读了相关的文献啦,模仿文献一步一步来就好了,常规NHANES预测模型的文章需要下面这些Table和Figure,我进行了提取和总结
Figure 1:流程图---数据来源过程及分析步骤
Table 1:基线特征---训练集和验证集的基线特征
Table 2:回归分析---单变量和多变量回归分析
Figure 2:LASSO 回归--选择风险因素
Figure 3:Nomogram--列线图的构建
Figure 4-6:预测模型的验证--ROC曲线、校准曲线、DCA曲线
这就是NHANES预测模型文章的主要结果啦,跑完数据后,我又根据我们的写作法把初稿整完啦,今天又是熬夜肝文章的一天~
因为前期已经整理好了数据,后面的分析实际上是非常简单的,选题和整理数据才是最费时间的,静下来,一步步踏实完成。
今日份挑战成功~
Day 5!
Day5任务:完成文章写作+投稿
昨天已经将图片、表格和初稿都已经整完啦,后面就是翻译润色和投稿哩!写作其实是最简单的哈哈哈~有我们的《框架写作法》理清思路,我昨天在跑完结果后才能快速写完初稿哈哈哈~
今天的任务比较轻松,只需要补充模块化写作部分,然后翻译润色,根据目标期刊改格式就好啦!改完以后再发给导师看一眼就可以准备投稿咯~~
挑战5天完成一篇NHANES预测模型,挑战成功!!!