整合现代信息检索技术查询收录的技巧探究

来源:岁月联盟 作者:程波 时间:2014-06-25
  [摘要]本文着重总结分析了运用EV2平台查询文章收录时可以整合的现代信息检索技术及软件工具,具体包括截词运算、位置运算、公式运算、TAG,运用Refworks订制RSS等。以上技术及工具的综合利用可以提高查全查准率、简化工作程序、提高工作效率。
  [关键词]EV2;截词检索;位置检索;TAG;RSS;RefWorks
  
  1 运用截词检索
  
  截词检索是检索英文数据库的一项常见技术,在EI数据库检索中用“,”代替单个字符,用“*”代替多个字符。笔者从以下课题切入,具体分析该技术在查询收录中的应用。
  检索课题:请从查全与查准两个角度出发,分别采取不同的策略,对1995到2005年间哈尔滨工程大学师生公开发表或参会论文被Compendex数据库收录情况进行彻查。
  为求查全,我们编制了一条表达式(以下称策略一):(HarbinEng*Univ*)wnafandCOREwndt(注:wn=within,af=authoraffiliation,dt=documenttype)
  经检索统计,具体结果见表1。
  
  策略一主要运用了EI检索中的截词技术,“*”是通配符,能够代表所有在该位置出现的字母。CORE用来代表核心数据。从作者机构字段入手,返回所有字段中包含HarbinEng*Univ*字样的数据。用策略一的好处是,一个也漏不掉,保证查全率。关于哈尔滨工程大学的各种写法,缩略语和发生拼写错误的词组也能囊括其中。查全率可以做到百分之百。但它的弊端也是很明显的。
  在EI数据库中,由于截词算符不能与位置算符(near、onear)同时使用,因此策略一无法控制检索式中每个单词出现的顺序和位置,数据库除了会返回所有哈尔滨工程大学的文章之外,还会把二级学院中有Engineering字样,机构名称中包含Harbin或University的数据一并返回,如:Institute Of Electrical And Electronic Engineering,Harbin University Of Science And Technology(哈尔滨科技大学);School Of Electrome chanical Engineering,Northeast For estry University(东北林业大学);Department of Electrical Engineering,Northeast Agricultural University(东北农业大学);School Of Computer And Information Engineering,Harbin University Of Commerce(哈尔滨商业大学);Schoolof Electronic Engineering,Heilongjiang University(黑龙江大学)等。因此每一次返回的结果都得进行人工筛选,将其他学校排除。
  
  2 运用位置检索
  
  在EI数据库中,用来表示位置检索的算符有两个:NEAR和ONEAR,其中NEAR不限定词间顺序,ONEAR要求词间顺序。
  同样上面的课题,如果采用位置检索,并要求与截词检索有同样的效果,该如何进行呢?为求查准,并力争查全,我们编制了以下八条表达式(下称策略二)。
  检索策略二:
  检索式一(#1):(Harbinonear/0Engineeringonear/0Univ)wnafandCOREwndt
  检索式二(#2):(Harbinonear/0EngOnear/0Univ)wnafandCOREwndt
  检索式三(#3):(Harbinonear/0Engineeringonear/0University)wnafandCOREwndt
  检索式四(#4):(Harbinonear/0Univofonear/0Engineering)wnafandcorewndt
  检索式五(#5):(Harbinonear/0Universityofonear/0Engineering)wnafandcorewndt
  检索式六(#6):(Harbinonear/0Univofonear/0Eng)wnafandCOREwndt
  检索式七(#7):(Harbinonear/0Engonear/0University)wnafandcorewndt
  检索式八(#8):(Universityofonear/0Harbinonear/0Engineering)wnafandcorewndt
  (注:wn=within,af=authoraffiliation,dt=documenttype)
  实施检索后,具体数据见表2。
  
  策略二主要运用了EI检索中的位置算符(near、onear),其中onear要求词间有严格的顺序。这样做的优点就是顾全了策略一无法兼顾的查准率,使得返回的每一条数据都是我们所需要的。但是这种策略要求我们有统一并且规范的机构名称。通过对十一年间哈尔滨工程大学论文被EI收录的数据的观察整理,笔者一共找到关于哈尔滨工程大学英译名的八种写法,按十年间被使用的频次排序如下:
  (1)HarbinEngineeringUniversity(462)
  (2)HarbinEng.Unvi.(299)
  (3)HarbinEngineeringUniv.(163)
  (4)UniversityofHarbinEngineering(5)
  (5)HarbinUniv.ofEngineering(4)
  (6)HarbinUniversityofEngineering(2)
  (7)HarbinEng.University(1)
  (8)HarbinUniv.ofEng(1)
  (9)HarbinEngineeringUnivrsity(1)
  显然,用策略二,为了避免遗漏,得将八个检索式的返回结果相加,才能达到与策略一一样的结果。并且,一旦发生拼写错误,被检到的可能性为零。

图片内容