浅析数字图书馆中基于内容的多媒体检索技术研究

来源:岁月联盟 作者:贺斌 胡红宇 时间:2014-06-25
  论文关键词:数字图书馆 信息检索 基于内容的多媒体检索
  论文摘 要:数字图书馆的迅猛发展使得多媒体信息资源的组织与管理成为数字图书馆发展的一个关键性问题,而多媒体信息检索技术也就成为数字图书馆中的核心技术,因而在数字图书馆中引入基于内容的多媒体检索技术成为了必要。   
   
  1 基于内容的多媒体检索原理 
  传统的多媒体检索技术,主要是通过对多媒体进行人工分析,对多媒体物理特征和内容特征进行文字著录或标引,建立类似于文本文献的标引著录数据库,并通过检索这些数据库以获得多媒体编号,进而利用这些编号索取实际多媒体。这种检索技术存在不足:①特征不具有代表性,带有主观性;②人工处理速度慢;③特征信息得不到充分利用;④结果信息提取慢。基于此原因有必要研究基于内容特征的检索(CBR,Content-Based Retrieval ) ,克服传统检索方法的不足,提高多媒体检索效率。CBR是指直接根据描述媒体对象内容的各种特征(如图像颜色,纹理,形状等)进行检索,它能从数据库中查找到具有指定特征或含有特定内容的图像(包括视频片段),区别于传统的基于关键字的检索手段,融合了多媒体理解、模式识别等技术。一般说来,基于内容的图像信息检索主要是根据图像的颜色、纹理、形状开展;而对视频信息检索主要通过对视频分割、视频聚类、关键帧抽取、运动特性抽取、最后完成视频检索。数字图书馆拥有海量多媒体信息资源,只有充分利用基于内容的多媒体检索技术,才能挖掘海量资源库中的信息资源,为广大读者服务。 
  2 基于内容的多媒体检索分类及检索方法 
   根据检索对象的不同,基于内容的多媒体检索又可以分为基于内容的文本检索、基于内容的图像检索、基于内容的视频检索和基于内容的音频检索四种检索。 
  2.1 文本检索 
   基于内容的文本检索是涉及文档内容查询的检索技术。其检索模型的构造是基于内容文本信息检索的核心技术,包含3个方面的内容:文档与用户查询的表示、查询匹配策略和匹配结果的相关度表示。典型的文本检索模型又分为布尔模型、向量空间模型和概率模型3种。 
  2.1.1 布尔模型(Boolean Model) 
  该模型将文档中的特征简单地表示成二元变量,某特征词出现则为1,否则标识为0。文档的相似度则基于布尔量进行计算。该模型有点是简单、速度快,缺点是不够精确,不能反映不同“项目”对一个文档的重要程度的差异。后来陆续有学者针对布尔模型不足,提出改进算法即扩展的布尔模型。 
  2.1.2 向量空间模型(Vector Space Model,VSM) 
  该模型也称为词袋(Bag of Words,BOW)表示法,该表示法有一个关键假设,即文章中词条出现的先后次序是无关紧要的,个特征词对应特征空间的一维,将文本表示成欧氏空间的一个向量。该模型思想是将文档D(Document)看作是由一定代表性的特征项组成;而特征项t(Term)是指出现在文档中能够代表文档性质的基本语言单(如字、词等),也就是通常所指的检索词。这样一个文档D就可以表示为D(t-1,t-2,…,t-n),t-i(I=1,2,…n)表示文档的一个特征项。 
  2.1.3 概率模型(Probablistic Model) 
  该模型考虑词项、文档之间的内在关联,依据关联信息计算文档类别归属大小,据此推算文档类别。 
   布尔模型和向量空间模型都将文档表示词条视为相互独立的项,忽略了表示词条间的关联性。概率模型则考虑到词条、文档间的内在联系,利用词条间和词条与文档之间的概率依赖性进行信息检索。其中二值独立检索模型(BIR)是一种实现简单且效果很好的概率检索模型。概率推理网络是一种新型的检索模型,它模拟人脑的推理思维模式,将文档内容与用户查询匹配的过程转化为一个从文档到查询的推理过程。 
  2.2 图像检索 
  基于内容的图像信息检索主要根据图像的特征进行,一般地,图像特征包括:①图像的画面内容特征(如图像颜色分布、纹理结构、形状等) ;②图像的主题对象特征(如图像所描述的人、车、建筑等) ;③图像的著录特征(如作者、时间、地点等) ;④图像的移动和组合特征(如影象中的场景) 。目前对图像内容检索研究比较多的是基于图像的颜色、纹理、形状等特征开展的,下面重点论述此三方面的检索。 
  2.2.1 基于颜色特征的图像检索 
  颜色是一种重要的视觉信息属性,在图像索引与检索中是一种很有用的特征。相对于其他特征,颜色特征非常稳定,具有对旋转、平移、尺度变化、各种形变不敏感特性,而且颜色特征计算简单。因此,颜色特征成为现有检索系统中应用最广泛的特征。较早从事颜色特征进行图像检索的方法是直方图,通过统计各不同灰度值的图像像素数量,达到对图像的信息描述。 

图片内容