当前位置：首页 > 论文 > 公共管理 > 图书馆管理

国外数字图书馆推荐系统评述

来源：岁月联盟作者：黄晓斌张海娟时间：2014-06-25

摘　要:本文通过介绍Tapestry, Fab, Citeseer, SERF, Melvy,l Amazon等几种常见的推荐系统,概述了国外数字图书馆推荐系统的研究进展,分析其主要特点,指出对国内数字图书馆建设具有借鉴意义.
关键词:数字图书馆;推荐系统;研究进展

Abstract:By introducing several common recommendation systems such as Tapestry, Fab, Citeseer, SERF, Melvyl and Amazon, this article summarizes the overseas research progress on digital library recommendation sys- tems, analyzes theirmajor characteristics, and points out their reference significance to digital library construction at home·
Keywords:digital library; recommendation system; research progress

      数字图书馆推荐系统是通过向用户提供有关的文献信息或利用的建议,帮助用户找到和选择比较相关信息的一种工具。它能够收集和统计用户查找信息,通过分析用户行为的特点来对信息内容进行推荐。近年来,国外对数字图书馆推荐系统的研究取得一定的进展,本文将对国外常见的几种数字图书馆推荐系统加以介绍和评价.
    1　Tapestry系统 1992年12月,美国施乐公司研究所开发了Tapestry 系统,这是早期的推荐系统,目的是过滤海量的电子邮件,推荐电子新闻[1]。在Tapestry系统中,用户可以对阅读过的文章发表意见,标注出他们是“喜欢”或“讨厌” 这篇文章。其他用户既可以根据关键词检索文章,也可以根据用户的评注来选择文章阅读。Tapestry系统以促进用户之间相互了解为前提,从而让用户清楚哪些评注具有参考价值;它不是自动根据用户兴趣进行推荐,而需通过用户构造较复杂的查询才能得到检索结果。其体系结构如图 1所示。开发者Goldberg等人还首次提出“协同过滤”的概念:即人们相互协作,通过记录其对阅读过的文档的反应态度(有兴趣或不感兴趣)进行筛选,这对以后的推荐系统研究与开发具有重要的启发意义.
    2　斯坦福大学的Fab系统 Fab系统是斯坦福大学数字图书馆项目研究的一部分内容。1997年3月, M·Balabanovic详细介绍了Fab系统的结构与功能[2]。Fab旨在帮助用户从海量的互联网信息中筛选出有用信息。该系统结合了基于内容的推荐和协同推荐的优点,采用混合推荐技术向用户推荐感兴趣的信息。其推荐过程可分为两步:第一,收集信息建立可管理的数据库;第二,为特定用户从数据库中选择所需要的信息。Fab主要由3个部分组成:收集代理(即查找特定主题的网页)、选择代理(即为特定用户查找网页)和中央路由器。每个代理都根据有用户评价的网页所包含的词语构成一个文档(Profile)。收集代理的文档代表目前的主题,而选择代理的文档代表单个用户的兴趣。收集代理将收集到的网页提交给中央路由器,再由中央路由器根据页面与用户文档的匹配程度向用户推荐页面;用户的选择代理还可以删除用户已经看过的页面,并在任何单批的推荐 (通常为10页)确保每个站点最多推荐一个页面。用户的反馈往往投入了大量的时间和精力,应将其存储在各自的选择代理文档中,并确保不被其他用户反馈所“淹没”.
    用户需要对推荐的页面予以评级,据此更新其个人选择代理的文档以及调整原始收集代理的文档。同时,用户评价较高的页面直接推荐给具有相近兴趣的用户,实现协同推荐。而打分特别高的网页将会直接推荐给用户的最近邻居,即和用户具有相似偏好的其他用户。Fab系统的优点是综合了各种主要的过滤方法,能够对一些数据量大、变化性强的信息进行过滤,可以进行动态反馈,实现个性化推荐服务.
    3　C iteseer系统 CiteSeer是在自动引文标引(AutonomousCitation Inde- xing, ACI)的基础上建设的一个学术论文数字图书馆 (网址为http: //citeseer·ist·psu·edu),它提供了一种通过引文链接检索文献的方式,目标是从多个方面促进学术文献信息的传播与反馈。CiteSeer可以检索互联网上“Post- script”和“PDF”文件格式的学术论文。它通过网上搜索引擎,根据给定的关键词查找、下载论文,分解论文, 提取摘要、引文等特征信息,然后建成数据库。用户可利用关键词或链接到与给定文章有相同引文或引用了该文章的论文在数据库中寻找相关文献。除了简单浏览和关键词搜索,系统可利用文字信息和共引分析方法找到相似文献。CiteSeer采用自动引用标引来提高科技文献分发或检索的质量,考虑了文档间的引用关系,把引证脉络凸显出来,按照文章声望的高低向用户发布。这些系统从大的分类上都为信息检索系统,但同时也包含了信息过滤及协作过滤技术。CiteSeer预测用户对网页喜好程度,对网页的评价是通过监控用户的书签以及书签目录隐含信息而得到。如果把一个URL保存到一个书签目录中,则认为用户喜欢该URL代表的网页。用户概况表通过一系列URL 来描述。使用最邻近邻居方法计算用户间的相似度,把出现在多个邻居中的URL向目标用户推荐[3].
    Citeseer系统主要由以下部分组成:自动定位、获取研究刊物的子代理;文档解析器和数据库生成器;支持关键词检索和引用链接浏览的数据库浏览界面。该系统的结构见图2。2008年7月, K·Chandrasekaran等人提出了一种新的推荐方法,系统可以向Citeseer数据库中的作者推荐他们可能感兴趣的研究论文[4]。首先,根据作者已发表的论文情况,为其建立用户文档。然后,基于用户文档与收集到的文档内容的相似性,向作者推荐其他论文。该文还介绍了一种表示用户文档的新方法:概念树和使用树形修改距离度量计算用户文档和内容文档之间相似性的算法。实验证明,基于概念的算法要比传统的基于空间向量模型推荐技术效果较好.
    4　基于图表的数字图书馆推荐系统 2002年,美国Arizona大学的Z·Huang等人介绍了一种基于图表的数字图书馆推荐系统[5]。该系统综合了基于内容的推荐系统和协同推荐系统的特征,且在网上书店进行实施。网上书店记录了图书的主要内容、客户的个人背景和购买历史等,这些内容与数字图书馆中的文档内容、用户特征、使用记录等很相似。此方法包括两个阶段。第一阶段,使用实际客户和图书的特征向量来表示客户和图书。客户的特征向量包括客户的个人背景,图书的特征向量主要包括图书的特性和文本信息,如标题、简介、前言等。然后根据特征向量,利用相似性公式,计算客户与客户之间以及图书与图书之间的相似性。这种模型比较简单、直观。第二阶段,对书籍、客户和购买交易模型化, 形成一个扩展的图表。利用第一阶段计算的相似性权重, 构建一个包含图书层和客户层的双层图表。如图3所示.
    图3中上层是图书层,下层是客户层。图书层的每个节点代表一本书,两个节点之间的链接代表两本书内容的相似性。客户层的每个节点代表一个客户,两个节点之间的链接代表客户个人背景的相似性。该模型除了描述层内部的联系,也描述了层与层之间的联系。这些联系基于客户的购买历史,图书层的节点和客户层的节点间的一条链接代表着一次购买。在该模型中,推荐活动成为一种图表搜索任务。模型中有3种链用来寻找与客户有密切联系的图书,可以使用不同的图表搜索方法来定义推荐条目.
    5　俄勒冈的SERF系统目前图书馆拥有很多数字无障碍资源,既有内容的标引数据也有大量原始内容。使用现成的搜索技术可以单点获取图书馆资源,但是这种全文索引技术并不能够完全满足图书馆查询需要。针对这种情况,美国俄勒冈州立大学图书馆于2004年设计了一个电子推荐过滤系统(The Sys- tem for Electronic Recommendation Filtering , SERF)[6].
    SERF是一种通过协作过滤的新型搜索引擎,当用户提问时, SERF记录了这个问题,当用户查看结果或利用一个网页时,可以通过鼠标点击决定找到的信息结果是否有用。利用SERF可以统计是否满足用户的信息需求结果, 然后再向其他有类似问题的用户进行推荐。经过多次训练和改进, SERF不断
提高推荐的能力。实验表明, SERF有效地提高了检索效果和效率。SERF鼓励用户输入更长、信息量更大的查询,收集用户对搜索结果的评价,看其是否满足用户的信息需要。这些评价可以为后来有类似需要的用户提出建议。一段时间后, SERF就可以从用户反馈中知道哪些文件对哪些信息需求有价值。这种推荐系统有助于提高图书馆文献信息搜索过程的效率。用户有了推荐信息后,就只需查看少量的搜索结果,而且推荐的文件往往比传统的搜索引擎返回的文件用户评价得分高。SERF 的设计和利用深受协同过滤方法影响,希望能对信息进行更有效的搜索,因为许多用户具有非常相似甚至相同的信息需求。因此,通过研究第一个人的信息需要,可以减少其他具有相同需求的用户检索信息花费的时间和精力。然而, SERF又不同于传统的协同过滤。它不是根据兴趣的相似性将用户进行匹配,而是根据信息内容的相似性进行匹配。信息内容不仅包括反映有关用户以往兴趣的个人资料,也包括对他们当前信息需求的表述。SERF将用户指定的文字查询作为他们当前需要的指标,用户首先输入与所需信息相关的问题或陈述,如果之前的用户有过类似的查询, SERF就向用户推荐之前的用户搜索到的相关且有用的文件、网站或数据库。SERF通过以下观察确定与问题有关的资源:①用户明确指出哪些资源是有价值的;② 用户的某种行为暗示着该种资源是有用的,以使用关键词匹配的技术找到类似的信息需求。SERF实际上是采用协同过滤进行图书馆资源的搜索.
    6　加州大学M elvyl推荐系统 2006年7月,加州大学伯克利分校图书馆项目推出了Melvyl推荐系统,旨在缩小用户需求及用户对信息检索系统的期望与图书馆实际能提供的服务之间的差距[6].
    Melvyl推荐系统探讨了两种生成推荐系统的方法:第一种方法利用加利福尼亚大学洛杉矶校区图书馆的流通数据进行推荐。基于流通数据的推荐是一种以加权图模型为基础的简便方法,它以图书为节点,以借阅了相同书目的用户为边。当同一本书被不同用户借阅的次数越多,它在模型边上的权重就越大。通过沿着同一用户借阅其他条目的边,可以为模型中的任何一个节点产生推荐。根据边上的权重可以迅速对推荐进行排序.
    如图4所示, A, B, C, D 代表了4个不同条目, A与B, C, D连线上的数字分别代表同时借阅了A和B的人数为1, A 和C的人数为3, A和D的人数为5人。因此,对A的推荐排序依次是: D, C, B。第二种方法是基于相似性的推荐,通过一定的手段使用书目记录中的术语,开发具有相似条目的查询 “更多像这样的条目”。该算法为目标条目分析书目元数据的内容,选择有记录的最重要的术语,形成一个新查询。排在最前面的条目是由于新查询作为推荐而被提出.

1/2 1 2 下一页尾页

上一篇：中学图书馆藏书结构优化浅谈

下一篇：素质教育视野下的高校图书馆教育职能

图片内容

图书出版的收益

当前位置：首页 > 论文 > 公共管理 > 图书馆管理

国外数字图书馆推荐系统评述

图片内容

最近更新

随机推荐