我国数字化学位论文全文数据库建设的现状与建议

来源:岁月联盟 作者:金春华,朱佳鸣 时间:2010-07-12

【关键词】  全文数据库
    
  Abstract:Objective To investigated the clinical characteristics and diagnostic methods for childhood intracranical tu-mors.Method 69patients under15year of age with intracranial tumors were analyzed retrospectively with regard to age,sex,clinical presentation,diagnosis and pathological findings,management and follow-up data.Results There were43males and26females(ratio of1.65∶1),and the average age at presentation was5.47years.Astrocytoma was the most common patholog  ic type of the intracranial tamors in children.The most of the intracranial tumors in children located at posterior fossa(55.1%).The common symtoms and signs included vomiting,headache,motor deficit,seizures,cranial nerver palsy and posi-tive pathologic reflexes.The positive rate of CT for displaying these tumor was92.3%,and MRI100%.The accuracy of CT diagnosis was66.7%,and MRI76.9%.Conclusion The most of the intracranial tumors in children located at posterior fos-sa.Males are affected more than females.Nonspecific symptoms and signs are easily misdiagnosed at the initial stage of the disease.CT and MRI are main diagnosic methods of these disease.
   
  Key words:intracranial tumor,children;diagnosis;computerized tomography;magnetic resonance imaging   

    [摘要] 介绍国内外数字化学位(ETD)全文数据库建设的现状,分析我国ETD全文数据库建设,如学位论文的收集范围、数字学位论文格式、数据著录内容、统筹规划与协调等方面存在的主要问题,并提出相关建议。

  [关键词] 数字化学位论文;全文数据库;信息共享
    
  学位论文是伴随着学位制度的实施而产生的,是高等院校或科研单位的毕业生为获取学位资格递交的学术性研究论文,主要指硕士和博士论文。学位论文一般都具有独创性,探讨的课题比较专深,有较高的学术价值。
   
  学位论文主要是供审查答辩之用,一般不通过出版社正式出版,通常收藏在各授予单位或指定的学位论文收藏地点,因此查找比较困难,需要通过专门检索工具和特殊搜集渠道才能获得,给学位论文的利用带来极大的不便。近10多年来,世界各国充分利用因特网和其它信息技术成果,开发学位论文数据库及检索平台,为学位论文的检索,尤其是学位论文全文的获取提供了便利条件,其中数字化学位论文(Electronic Theses and Dissertations,ETD)全文数据库建设近年来更受到世界各国的重视。
   
  国内外ETD全文数据库大致可以分为3类,即商业性的学位论文数据库、分散在高校和研究院所的ETD全文数据库、由多个成员单位参与的ETD全文资源共享检索平台或数据库。
     
  1 我国ETD全文数据库建设的现状
    
  20世纪90年代后期开始,国内一些高校开始开发学位论文数据库,如上海大学从1996年开始收集学位论文版,在校园网上发布博士论文全文。高等保障系统(China Academic Library&Information System,简称CALIS)从2000年起,由清华大学牵头建设CALIS高校学位论文数据库,目前该项目在一期文摘库建设的基础上,开始二期的全文数据库开发[1] 。若干商业服务性学术数据库也开始提供学位论文全文服务。
   
  目前,我国(除、香港、澳门地区外)投入使用的学位论文全文数据库有:
   
  (1)中国学位论文全文数据库(CDDBFT )。CDDB FT 由国家法定的学位论文收藏单位中国科技信息研究所提供,并委托万方公司加工建库,万方数据资源系统(http:..www.wanfangdata.com.cn.)提供检索服务。CD-DB FT 收录各高等院校、研究所等单位送交的硕士、博士和博士后论文,内容涵盖了的数理化、天文、地球、生物、医药、卫生、技术、航空、环境以及社会科学、人文地理等学科领域。CDDBFT 以1998~2004年学位论文为主体,逐年回溯并月度追加,截至2004年12月,已有27万篇论文全文,2005年初将达到30万篇。

    (2)中国优秀博硕士学位论文全文数据库(CD-MD)。中国知网(http:..www.edu.cnki.net.)的CDMD收录了1999年至今的16万篇质量较高的中国大陆博、硕士论文,每年新增论文约28000篇,覆盖学科范围包括、社会学、教育、、、、文学、、理工、农业、医药卫生、电子技术、信息科学等。

    (3)各高校自建的学位论文数据库。目前我国收集学位论文电子版全文并提供网上浏览的高校有北京大学、上海交通大学、中国农业大学、四川大学(医学学位论文)、北京师范大学、武汉理工大学(前24页)、西安交通大学、西北工业大学、电子科技大学等。
    除已建立的全文数据库外,国内许多高校和研究院所也开始收集学位论文电子全文,或建立学位论文文摘检索系统,具备了全文数据库的开发基础,例如吉林大学、哈尔滨工业大学、山东大学等建立了论文的网上递交及文摘检索系统;清华大学、浙江大学、天津大学、武汉大学等建立了学位论文的网上递交系统。

    值得关注的是,CALIS二期重要子项目之一的“高校学位论文全文数据库”,规划建设一个提供集中式元数据检索(包含前16页全文浏览)、分布式全文服务的学位论文共享平台,参与单位已达50多家国内高校,至2005年拟收录10万条全文数据,并与一期建设的文摘数据库中10万条文摘数据合并。
    
  2 国外数字化学位论文全文服务的主要进展

  国外学位论文数字化起步较早,如美国的学位论文数字图书馆(Networked Digital Library of Theses and Dissertations,NDLTD,http:..www.ndltd.org.)从1991年起开始学位论文数字化的应用研究。目前ETD项目开发和应用以美国、加拿大、欧洲、澳大利亚等国家和地区较为成功,多个项目已投入实际使用,比较著名的有:

    (1)NDLTD。这是一个基于OAI(Open Archives Ini-tiativ)的国际性博硕士学位论文共享检索平台,1991年由美国弗吉尼亚科技大学发起,目前有来自美洲、欧洲、亚洲、非洲的215个成员单位,其中187个为大学, 上海交通大学是目前中国大陆地区唯一参加该项目的高校。该平台提取存储在各EDT数据库的学位论文元数据,用户可免费检索题录元数据及PDF格式的文摘。平台同时提供NDLTD成员单位的联系方式及ETD数据库服务的链接,以便于用户索取全文,其中部分成员单位的ETD数据库可免费下载全文[2] 。

    (2)加拿大学位论文门户(Theses Canada Portal,ht-tp:..www.collectionscanada.ca.thesescanada.)。它提供加拿大学位论文的保存和检索服务,截至2002年共有55所高校加入该项服务,可检索22万篇博硕士学位论文,每年新增数据1万条,其中1998年以后的学位论文可免费下载全文。

    (3)澳大利亚数字项目(Australian Digital The-ses Program,ADT,http:..adt.caul.edu.au.)。该项目在1998~1999年由澳大利亚7所高校发起,旨在建立分布式的论文数据库,目前已有26所高校的博士及硕士学位论文可通过ADT项目或在各学校的数据库中检索,部分学位论文可免费提供全文。

    (4)PQDD学位论文数据库(ProQuest Digital Disser-tations)。PQDD是美国ProQuest公司(原名UMI公司)出版的博硕士论文数据库,该库收录欧美1000余所大学从1861年起的320万篇博士、硕士论文摘要或题录,其中170万篇有纸质或缩微格式的全文,年新增4.7万篇博士学位论文和1.2万篇硕士学位论文,近2年的学位论文可免费下载电子版的前24页内容[3] 。PQDD的全文服务通过网上订购实现。我国由中科.亚信公司联合引进PQDD全文数据库网络版的部分数据,在上海大学图书馆、科技信息研究所、CALIS全国文理中心(北京大学图书馆)(http:..pro-quest.calis.edu.cn.umi.index.jsp)建立全文镜像服务器。该数据库目前主要收录1998年以来北美地区博、硕士论文4万多篇。
   
  其它,如英国的“Index to Theses”(http:..www.the-ses.com.)可检索自1716年起的46万余篇学位论文文摘,提供全文的订购服务;法国有“cybertheses”(http:..www.cybertheses.org.cybertheses.cybertheses.html);德国、奥地利、捷克、新西兰等国也建立了学位论文全文的网络检索服务。
    
  3 我国ETD全文数据库存在的主要问题及建议与国外相比,我国ETD服务工作起步较晚,虽然通过这些年的努力,目前已能提供比较丰富的ETD资源,但也存在不少问题,主要表现在以下方面。

    (1)学位论文的收集范围包括地域范围和时间范围两方面:①尽管国家部对学位论文规定有呈交制度,即将博士论文上交国家图书馆保存,硕士论文交中国科技信息研究所保存。但由于无隶属关系,收藏渠道不畅,现在所建的各库论文数据均不完整,而且不收录港、澳、台等地区的学位论文。②目前国内所建学位论文数据库收藏的ETD全文主要为2000年以后的数据,而且随着时间的推移,年代较早的电子学位论文全文数据会越来越难以收集,因此各数据商和高校应加强对学位论文回溯库的建设与开发研究工作,对于无法获取电子全文数据的学位论文,可采用扫描等方式进行补充,以满足用户全文获取的需要。另一方面,由于许多研究单位尚未建立ETD学位论文的收缴制度,造成目前还有大量资源流失,十分可惜。

    (2)学位论文著作权与保密问题:①我国学位论文一般不公开发表。部分学位论文为保密级论文,有一定的保密期,还有部分论文由于需要申请专利、进行技术转让或投稿公开发表而希望延迟公布,因此网上公开学位论文全文,可能会产生版权纠纷与泄密。在国外,如美国NDLTD要求论文的提供者必须作出相应的版权使用声明,授权学校使用并向需要者提供论文全文。而我国对此尚无统一规定,亟待研究解决。由于我国硕、博士研究项目一般使用公共经费,其论文具有成果汇报性质,因此,建议除应保密或有合理的延迟公布理由的,应在国内因特网上公开,但必须说明不得用于谋取不当利益。②采用PDF文档及加密技术,生成PDF文档时分为前若干页和全文2个文件,前若干页可在因特网上免费浏览,全文在学位授予单位内部网络内免费使用,在授予单位外则必须订购。这样可部分解决著作权问题,但降低了免费资源的完整性,不利于资源共享。

    (3)ETD全文的格式:国内各数据库目前还没有统一的标准,常用的格式主要有PDF、WORD、HTM。如CDDB FT 采用HTM格式,CDMD采用CAJ、PDF等格式。综合国内外采用格式的总体趋势及相关的对比研究可以发现,PDF具有很多优点,例如,可以包含超链接、表单等带有交互性的内容,支持多种级别的安全性(如可阅读不可打印、可阅读打印但不可修改等),可将文字、图形、声音和动态影像等封装在一个文件中,支持特长文件等。因此,PDF的集成度和安全可靠性都比较高,这对ETD的浏览和版权保护都非常重要,建议各ETD 数据库采用。
   
  (4)数据的著录格式:目前国内学位论文全文数据库的著录内容不统一,CDDBFT 和CDMD著录项目可见表1,各高校自建的数据库格式更是变化多端。CALIS学位论文全文库已提出采用规范化的元数据。美国NDLTD也规定了ETD的元数据标准。考虑到我国情况与美国不同及与国际接轨两方面的要求,建议进一步讨论我国学位论文采用何种元数据、元数据著录项目的选择及扩展描述的范围等。例如,考虑到收录公开出版的学位论文,可使用出版年;考虑到收录用外文书写的学位论文,可使用原文语种。表1  CDDB FT 和CDMD著录项目对照(略)
  
  (5)检索系统功能:我国学位论文全文库检索界面均较友好,设置的检索途径也较全面。
   
  CDDB FT 的简单查询可从全文、题名、作者、分类号、导师姓名等5个字段检索,有2个检索词输入框,逻辑关系可选择逻辑与、逻辑或、逻辑非,允许同一字段中两个不同关键词的组配、两个不同字段中同一关键词的组配、两个不同字段中不同关键词的组配;专业查询功能较齐全,提供全文、题名、作者、分类号、导师姓名、授予学位单位、馆藏号、分类号、论文页数、文摘语种、出版时间、关键词、文摘等13条检索途径,支持复杂的布尔逻辑表达式、截词检索、位置算符等功能。

    CDMD的简单检索提供全文、中文关键词、关键词、中文题名、英文题名、中文副题名、英文副题名、中文摘要、英文摘要、中文目录、作者、导师、引文、论文级别、专业、学位授予单位、论文提交日期等字段。高级检索支持不同字段间布尔逻辑检索。

    两个数据库均设置了论文学科导航系统。但两个检索平台均无检索史的设置,无法对检索史进行组合运算,也无法保存检索史。CDDBFT 只能每一章节浏览全文,无法一次性下载。

  4 小  结
    
  我国目前已可提供一定数量的ETD全文服务,但总的来说,ETD全文数据库建设仍处于分散的状态,各学位论文授予单位之间缺乏ETD全文的收集、保存、利用和数据库建设的统筹规划与协调,已建数据库的文档格式、著录内容及检索系统功能不统一,均有待完善之处。

    高校系统ETD全文数据库由于有CALIS全国中心、地方中心的协调,采用统一规范、分散加工、索引库集中建设、全文分散存储的运作模式,有计划、有步骤,可望取得较好的成果。

    但相对于全国高校、科研单位每年产生近10万篇学位论文的情况而言,CALIS学位论文数据库仍显得覆盖面小。因此迫切需要拥有权威与实力的全国性的机构对全国学位论文数字化建设进行总体规划,整合相关标准,整合高校、科研院所、国家数字图书馆等建设一个包括港澳地区乃至地区在内的“中国学位论文数字图书馆”。

    CALIS学位论文项目可能成为实现上述目标的基础,如CALIS可吸收港澳地区高校、中国院系统参与项目的建设,逐步实现全国ETD全文的资源共享。

    当务之急是防止ETD全文数据的进一步流失,对具有研究生培养任务的高校和科研院所,应指定其相关部门负责收集研究生学位论文的电子版全文,规定统一的文件格式,统一在网页上安装让作者直接提交论文的软件。有必要制定学位论文递交的行政措施,规定未提交者不得授予学位或毕业离校,并就学位论文的公开范围及方式、保密级别与公开时限等具体授权条款签订明确的协议。

    要进一步研究学位论文的版权与保密问题,研究可免费使用的资源范围,研究商业性数据库与免费资源之间的关系,避免ETD全文库或检索平台的重复建设。 

    [文献]
     
    [1]温丽君.因特网学位论文检索[J].医学情报工作,2003,(3):187.188,196.

    [2]何怡.中外网上学位论文数据库的比较研究[J].图书馆工作与研究,2004,121(3):47.49.

    [3]范亚芳.对中外三大学位论文全文数据库的比较研究[J].情报检索,2004,(1):50.52.