PC环境下大型医学数据的处理
【关键词】 微型机 数据收集 自动数据处理
大型医学数据的计算机处理工作是一个复杂的过程,需要具备一定规模的硬件和软件条件。如何在办公室PC机较为简单的设备条件下,完成较大型医学数据的计算机处理工作,是值得研究的课题。张正武[1]曾提出输入数据正确性的方法,本研究提出了从数据预处理到动态二维表数据生成,确保数据处理质量的切实可行的方法与步骤,并在Visual Foxpro 6.0平台上开发了相应的数据处理系统。
1 资料和方法
1.1 资料
1990年“贵州省婴儿、孕产妇死亡回顾调查分析”抽样调查数据卡片130 000张,计算机录入数据量达144万项。项目设计通过数据整理分析,期望获得全省婴儿、围产儿、孕产妇死亡率、死亡原因及其多种相关数据分析。
1.2 数据处理
该项目数据处理分为数据预处理、数据录入、复录比较校验、数据库文件的建立和管理,随机动态表格的设计和产出。
1.3 数据录入
1.3.1 数据录入预处理—人工编码
调查数据卡片130 000张中,有4种卡片类型,平均每张卡片有16个数据项。这些数据项中,少数是可直接进机的数字,而大多数据是文字(例如死亡的病因等),不能直接录入进机,必须事先将这些文字项进行“编码”处理,即按专门制定的编码表和编码规则进行人工转换,编成数字填写在调查表上,方可录入进机。以《0~7岁儿童死亡调查表》为例,该表共24个数据项,其中就有“县,乡,村名”、“籍贯”、“民族”、“死亡原因”、“死前症状”等需要进行编码。为使编码标准化,尽可能采用已有的国家编码标准(如行政区划码、民族码、职业码等),无国家标准的编码,则自行设计,采用自编码。编码处理是录入进机前的很重要的环节,对编码员提出了严格的要求,随时抽查编码质量,要求编码错误率控制在允许的3.3‰范围内[2]。
1.3.2 数据录入预处理—预审检查
数据录入预审检查对调查表的调查区划有序排列,检查人工编码是否有错,编码书写是否规范,是否有漏登漏填项目等。从预审检查发现,至少1张调查表有1项错误或遗漏,约占调查表总数的4.5%。
1.3.3 数据录入方法
本研究依托普通办公室PC机环境,采用人工键盘输入法进行数据输入。3人1机,1人操作,2人观察、检查、整理录入调查表;可轮换操作,减少较长时间操作造成的疲倦和出错。
1.4 数据录入质量的控制措施—复录比较校验
本研究设计了“复录比较校验”程序模块,进行录入质量控制。首先将所有调查表排序,其次由不同的录入人员在不同的计算机上将已经录入的调查表重新再录入一遍,形成A、B两套调查表排序的数据文件。最后由复录比较校验程序将两次录入资料逐项逐字进行比较,并将不一致的数据项按调查表的格式显示在屏幕上,再与有序排列的调查表原始数据进行核对,以判断不一致的数据项出错原因,及时进行改正。
1.5 数据统计汇总处理中的随机动态表样设计
130 000抽样调查卡片数据的统计汇总产出两大类统计表,整理表和分析表600余张,项目繁多,有横向、纵向统计,按条件分类等。为解决整理表和分析表的统计打印,该研究设计了具一定智能功能的随机动态字段表格生成模块。
2 结果
上述数据处理环节在Visual Foxpro平台上通过数据处理程序系统实现,其系统结构分为录入模块和处理模块,见图1和图2。
3 讨论
在数据录入阶段中,采用何种方法确保录入数据的正确性,控制数据录入误差在规定范围内,对于后一阶段的数据分析至关重要。复录比较校验是控制录入数据质量的关键步骤,其原理是基于人工击键录入数据时出现的击键差错,而这种差错完全是“随机的”[3]。同一数据分两次由不同录入员录入,在校验时发生不一致的字符至少有一方是错的,而两次录入都相同的数据字符,则可认为是正确的。当然,也不排除两次录入时在同一字符上出现完全相同的击键错误,但这种概率极小。根据概率论原理,如果两个数据录入者各自的出错率为百分之一,则复录比较输入的出错率仅为万分之一。因此,复录比较校验法是大批量数据录入可采用的较好的录入质量控制措施。虽然数据录入的工作量增大了一倍,但对于大型医学数据的录入质量控制是行之有效的好方法。这种校验方法的查错能力很强,可靠性很高,可以检查出几乎所有的录入击键差错,可以有效地确保原始录入数据的正确性。
通过随机抽查两个调查地区的调查表各300张,人工与复录比较,结果是一组300张调查表数据完全正确,另一组300张调查表数据约15 000个字符,仅错4个,错误率为0.27 ‰,完全符合专业录入3.3‰的质量[2]控制要求。
数据分析统计汇总阶段,生成数百张统计表格。本研究设计了随机动态表样模块,能方便打印出数百种整理表和分析表,其原理是表格绝大多数是标准二维关系表,只要表格打印前输入不同的字段组合,程序就能生成多种形式的表格及数据,这样节省了处理时间,大大提高了数据分析处理产出表格的效率。
大型医学数据处理的全过程,对今后PC机环境下大型数据的处理积累了经验。大规模调查数据的机处理,牢牢把握住原始数据的质量关,整个处理流程从录入前的预处理至最后报表数据的打印,都必须有严格的质量控制措施,否则将得不到正确结论;数据处理程序的设计要通用性强,动态二维统计表的程序设计思路值得继续研究,并不断完善和优化。
【】
[1]张正武.谈谈提高输入数据正确性的方法[EB/OL].[2006-0906I.http://www.studanet/pc?Theory/1725167.html.
[2]邓顺国.商务概念[M].北京:北方大学出版社,清华大学出版社,2005:160.
[3]田孟红.VB数据输入有效性监测的探讨[J].电脑知识与技术,2007(5):35-36.











