背景
这个项目是用来生成结构化的电子病历的。数据的来源是医生的录音。中间有一大堆的处理,语音识别,关键字匹配,结构化处理,病历编辑......。最多的时候给上百家医院服务。
语音识别质量的跟踪
一、0225医院的训练后的情况分析:
通过0225医院的20278、46248、47146、47160、27823、47830、47879、48824、48837、48848医生的统计,发现这批医生在训练之后识别的质量有提升。具体如下:

通过曲线可以看出,在人工训练之后(图中的竖线右边的部分),Score有所提高,平均提高50分左右。

通过曲线可以看出,在训练之后(图中的竖线右边的部分),识别引擎在识别过程中耗费的时间大大降低了。识别时间的降低,可以减少报告的识别超时从而降低BlankCDA的报告数,同时也能减轻识别服务器的压力。所以,识别时间的降低对整个系统有着积极的意义。
二、其他医院的训练分析:
其他医院训练的时间比较早,当时的日志记录中还没有SR_Score的记录。需要等下次训练后,才可以进行识别质量分析。
三、当前识别质量统计:
就目前的统计数据来看,在800分(满分为1000分)以下或识别时长超过4倍的医生还有一些,但是比例不是很大。具体如下:
       
就统计结果来看,Score低于800的大约占1.27%
       
就统计结果来看,识别时间大于4的大约占5.07%
四、识别分数低于800或识别时长超过4的医生的列表:
共计46人,详见下表。
|   HOSP_CODE  |   DOCTOR  |   AVG_SR_SCORE  |   PROCESSTIME/DICTLEN  | 
|   0011  |   561  |   813  |   5.13  | 
|   0013  |   0402  |   828  |   4.80  | 
|   0013  |   2213  |   819  |   4.04  | 
|   0013  |   3032  |   861  |   4.05  | 
|   0013  |   3170  |   805  |   5.66  | 
|   0013  |   3268  |   795  |   4.37  | 
|   0014  |   0004  |   742  |   6.41  | 
|   0014  |   0824  |   751  |   5.56  | 
|   0014  |   4401  |   816  |   4.85  | 
|   0014  |   77807  |   831  |   4.30  | 
|   0014  |   9596  |   860  |   4.64  | 
|   0015  |   80000  |   835  |   4.33  | 
|   0015  |   98400  |   821  |   5.14  | 
|   0016  |   1512  |   784  |   5.56  | 
|   0016  |   1710  |   805  |   4.91  | 
|   0016  |   2087  |   831  |   4.68  | 
|   0016  |   2156  |   855  |   4.18  | 
|   0016  |   2176  |   697  |   3.17  | 
|   0016  |   2462  |   860  |   4.03  | 
|   0016  |   3274  |   787  |   4.27  | 
|   0016  |   3323  |   852  |   4.14  | 
|   0016  |   4367  |   860  |   4.02  | 
|   0016  |   559  |   857  |   4.02  | 
|   0066  |   0430  |   813  |   4.96  | 
|   0066  |   2259  |   828  |   4.21  | 
|   0066  |   2485  |   771  |   5.46  | 
|   0066  |   2742  |   807  |   4.91  | 
|   0066  |   2832  |   807  |   5.50  | 
|   0066  |   3031  |   820  |   4.37  | 
|   0066  |   3131  |   832  |   4.54  | 
|   0066  |   4196  |   571  |   5.35  | 
|   0066  |   5222  |   849  |   4.45  | 
|   0066  |   5853  |   782  |   4.74  | 
|   0066  |   6910  |   875  |   4.54  | 
|   0088  |   366  |   827  |   4.23  | 
|   0223  |   17355  |   858  |   4.09  | 
|   0223  |   42648  |   807  |   4.86  | 
|   0223  |   7790  |   815  |   5.16  | 
|   0225  |   14383  |   809  |   4.17  | 
|   0225  |   40922  |   836  |   4.44  | 
|   0225  |   42145  |   812  |   4.46  | 
|   0225  |   43724  |   621  |   3.37  | 
|   0225  |   45217  |   816  |   4.32  | 
|   0225  |   46268  |   793  |   4.74  | 
|   0225  |   47823  |   827  |   4.29  | 
|   0225  |   48848  |   865  |   4.22  | 
对于特定医生的语音识别质量跟踪
5853医生的识别质量变化曲线:



6910医生的识别质量变化曲线:



5018医生的识别质量变化曲线:



1375医生的识别质量变化曲线:


