Web结构挖掘在电子商务网站结构优化中的应用
来源:岁月联盟
时间:2010-07-01
[关键词] Web结构挖掘 网站结构 超链接 PageRank HITS
一、前言
网站的推广对商务网站而言尤为重要。网站在常用搜索引擎上的排名会直接影响到网站的推广和网站的运营效果。因网站的结构不同,即使内容相同,外观相同的网站,在常用搜索引擎中的排名也会不同。网站结构是否合理会影响到搜索引擎在网站页面上抓取的结果,从而影响到网站的排名。在实际应用中,常使用PR(Page Rank)值来判断网站结构是否合理, PR值越高说明网站结构越合理,搜索引擎就会收录该网站更多的页面,为网站带来更多的流量。因此,提高网站结构的合理性,获取更高的PR值就显得尤为重要。只有用网站结构优化的理念去设计网站,才有可能设计一个成功的网站。基于Web的数据挖掘技术中的Web结构挖掘( Web Structure Mining)则是判断网站结构是否合理的一个有效方法。使用Web结构挖掘方法可以提高网站结构的合理性,增加网站的PR值,扩大网站的流量。
二、Web结构挖掘的概念
基于Web的数据挖掘是指使用数据挖掘技术在Web数据中发现潜在的、有用的模式或信息。基于Web的数据挖掘一般可以分为三类:Web内容挖掘(Web Content Mining)、 Web结构挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 结构挖掘是对Web 的链接结构进行分析, 以对超链接分析来评估Web 资源, 从而发现有用模式, 提高搜索质量及提高网站被抓取的可能性。Web结构包括不同网页之间的超链接结构和网页内部用HTML,XML表示的树形结构,以及文档URL中的目录路径结构等。Web页面之间的链接结构中包含了许多有用的信息,Web结构挖掘是从Web结构中推导知识,即对Web文档的结构进行挖掘,挖掘Web潜在的链接结构模式,通过分析网页间链接数量及对象来建立网站自身的链接结构模式。
Web结构挖掘的基本思想是将Web看成是一个巨大的以Web页面为节点、页面之间超链接为有向边所构成的一个网状结构的有向图,然后利用图论对Web的拓扑结构进行分析,从而确定其网站结构的合理性。
Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。HITS( Hypertext Induced Topic Search)和PageRank分别是查询相关算法和查询无关算法的代表。这些算法已经在实际的系统中实现和使用,并且取得了良好的效果。
三、Web结构挖掘算法描述
基于超链接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。对超链接进行挖掘的两个典型的算法是:PageRank算法及HITS算法。
1.PageRank算法
PageRank算法是Web超链接结构分析中最成功的代表之一,该算法是评价网页权威性的一种重要工具。Google、Yahoo、Baidu等都是基于该算法的搜索引擎。PageRank算法基于2个前提,一是若网页A被多次引用,则A重要;若 A被重要网页B引用,则A重要;B的重要性被平均的传递到它所引用的网页。二是若用户访问网页A,然后跟随A的导出链接向后浏览网页B而不退回A,那么浏览B的概率就是B的PageRank值。
PageRank在具体实现时会忽略掉页面的文本和其他内容,只考虑页面间的超链接。但由于网页的链接范围领域很广,链接的页面价值参差不齐,所以仅以简单的链接数量来判断网页的重要性是不真实客观的,所以其他研究者对PageRank算法提出了改进。改进的PageRank算法不仅考虑了网页引用数量,还根据页面的导入链接的权重来页面的重要性。页面导入链接的权重由链接提供页面的重要性所决定,即当前页面的重要性主要由其他页面的重要性来决定,PageRank算法就是从链接结构中获取网页的重要性。
简单PageRank算法描述如下:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
其中:PR(A):页面A的PR值,
PR(Ti):页面Ti的PR值,页面Ti链向页面A
C(Ti):页面Ti链出的链接数量
d:阻尼系数,取值在0-1之间
N:互联网上所有网页的数量
由此可见,PageRank算法不以站点排序,页面PR值由独立的页面决定。页面的PR值由链向它的页面的PR值决定,但每个链入页面的贡献值是不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小。A的链入页面越多,其PR值也越高。阻尼系数的使用,减少了其他页面对当前页面A的排序贡献。所有页面的PR值形成了一个概率分布,所有页面的PR值之和为1。
简单PageRank算法也可以用矩阵来描述,设T为一个矩阵,T的行和列对应页面集的页面。PageRank的算法是将T的行和列互换后得到的矩阵A。为了将各列矢量的总和变成1(全概率),把各个列矢量除以各自的链接数(非零要素数), 即如果网页i有指向网页j的一个链接,则Aij=1/Ni,否则Aij=0,就形成了一个 “推移概率行列”,各个行矢量表示页面间的推移概率。由T倒置得到A的理由是,PageRank 并非重视“链接到多少地方”而是重视“被多少地方链接”。PR值的计算,就是求属于这个推移概率行列最大特性值的固有矢量。
2.HITS算法
HITS算法综合权衡了查询内容与页面链接的关系。HITS算法认为网页的重要性依赖于用户提出的查询请求。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。
HITS算法是一个“迭代—收敛”的过程,在获取了一个与查询主题相关的返回页面根集合(Root Set)S后,根据S中的页面的链接关系再向集合S中扩充与S中页面相链接的页面, 将S扩展成一个更大的基础集合(Base Set)T。可将T看作一个二分有向图SG=(V1,V2,E),其中:顶点集Vl:T中的Hub网页集;顶点集V2:T中的Authority网页集;边集E: Vl中的网页到V2中的网页的超链接。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操作I,O,直到a(u),h(v)收敛。
I 操作:(1)
O操作:(2)
每次迭代后需要对a(u),h(v)进行规范化处理:
式(1)反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
HITS算法存在的主要问题:
(1)实际应用中,由S生成T的时间开销很昂贵;
(2)站点内部网页在权威度数值上可相互加强;
(3)网页中一些无关的链接影响A,H值的计算;
(4)存在与查询主题无关的网页即主题漂移现象。
四、应用WEB结构挖掘算法提高网站价值
将WEB结构挖掘算法应用到自身网站的结构优化中来,对提高网站的价值有着重要意义。网站结构优化包括两个方面,物理结构的优化与逻辑结构的优化。Web结构挖掘所有算法都将网页中的链接(逻辑结构)作为主要挖掘的对象,特别在实际应用中,大多数用户都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎。但网站物理结构的合理性也是影响网站价值的一个重要因素。因此采取以下几种策略,将有助于用户将网站定位到相关主题的权威站点,从而获得更高的PR值,以提高商务网站在搜索引擎的排名,提高检索结果的质量,提高网站的访问率, 提升网站的档次。
1.网站物理结构优化
网站物理结构是指网站真实的目录及文件所存储的位置所决定的结构。网站物理结构优化不但关系到网站的易用性,还会影响到网站在搜索引擎上的排名。合理的网站物理结构可以让Google等搜索引擎轻松搜索到你网站的大多内容,收录你大量的页面,更多的关注你这个网站。虽然合理的链接可以取得一个比较理想的PR值,但由于Web结构挖掘过程是由机器搜索引擎蜘蛛(Spider)自动完成,因此就需要构建一个搜索引擎蜘蛛友好的网站物理结构。
要合理安排网站文件目录结构,使目录结构扁平,有序。网站的目录结构最好不要超过3层,因为每深一级目录,PageRank降低1-2个分值。重要内容放在顶级目录。目录文件夹命名应含关键词,网页文件名也应含关键词。文件名是词组时应用短横线而不要用下划线隔开。使用而不是拼音字母来命名文件及目录。如果目录超过三层,就应使用子域名来调整和简化目录结构层数。
2.网站逻辑结构优化
网站的逻辑结构(链接结构)是由网页间链接所形成的逻辑的或链接的一个网状结构。一般来说网页被一些“重量级”的网站链接的次数越多,PageRank的值就会越高;同样,网页的链接指向越多,PageRank的值也会很高。搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接展开分析,并给出相应的PR值。常用链接策略有:
(1)尽可能多地让其他跟本站主题相关或互补的网站链接本站。
(2)同PR值更高的网站进行相互链接。
(3)在流量大、知名度高、频繁更新的重要网站上出现本站链接。
(4)与内容质量高、PR值上升潜力大的网站链接。
(5)与以本站关键词在搜索结果中排名前三页的网站进行链接,有了这些网站链接,即使不向搜索引擎提交网站,搜索引擎也找到并给予好的排名。
(6)网站提供与主题相关的导出链接,尤其是被链接网站名称(或者栏目名称、文章摘要和标题等)中含有重要关键词时,会丰富自己网站的关键词并会被搜索引擎认为有丰富的与主题相关的内容,也有利于排名。
(7)要确保网站内没有死链接,并保持网页内容或链接的稳定性和持久性。
(8)站内页面链接可以为网页创造尽可能多被收录的机会。一个网站被收录的网页数量增加,即使网站首页的PR值不高,也增加了网站总体的搜索引擎可见性。
网站地图是所有页面的快速入口,是搜索引擎更全面索引收录网站的重要因素。它可以方便搜索引擎蜘蛛快速遍历网站所有需要发布的内容。网站地图的三大因素:文本、链接、 关键词,都极有利于搜索引擎抓取主要页面内容。动态生成目录的网站尤其需要创建网站地图。网站地图的导航能力会使访问者更容易找到所需的东西,且有利于搜索引擎收录更多的页面以及在搜索引擎中得到更高的PR值。将网站地图生成为XML格式文件并存放在网站根目录中,并向搜索引擎提交,将有助于搜索引擎蜘蛛更快地遍历网站。
3.页面代码优化
精简代码,减少页面的体积,不但使得网页可以得到更快的下载,而且还影响到搜索引擎对该页面的收录及直接影响网站排名。搜索引擎倾向于在页面文件开始处查找本页的关键性内容,而不是文件的正文。因此要做到代码和页面分离,把javascript文件和css文件分别存放在js和css外部文件中,把重要的页面内容放到页面顶部,以缩小文件体积,提高有效内容占页面体积的百分比,从而提高关键词在页面中的比重,以利于搜索引擎快速准确地抓取。另外格式化标签也尽量少用。页面布局应采用DIV+CSS模式并减少表格嵌套, 尽量不要使用很难被搜索引擎收录的IFRAME或Frame框架及对搜索引擎蜘蛛不友好的Flush动画等,并保持页面简洁,以利于搜索引擎的收录。
五、结语
目前各大搜索引擎都采用了Web结构挖掘技术中的PageRank算法,为了提升自身网站在各大搜索引擎中的排名,用户应使用Web结构挖掘技术来对自身网站进行评估,发现自身网站结构的不足,并对优化网站结构提供决策依据。通过采取有效措施,提高自身网站结构的合理性,从而提高网站在搜索引擎中的排名,以达到为网站带来更大流量,发掘更多有效用户的目的。随着电子商务迅猛地,更应该重视并采用这种被挖掘的技术,以提高自身网站的价值。
:
[1]何晓阳吴强吴治蓉:HITS算法与PageRank算法比较分析,情报杂志2004年第2期
[2]王晓宇周傲:万维网的链接结构分析及其应用综述,软件学报
[3]曹军:Google的PageRank技术剖析,情报杂志2002年第10期
[4]刘丽珍等:结构挖掘的关键分析.机应用研究,2003(5) 116-118
[5]陈定权:Web结构挖掘研究.情报理论与实践 ,2003(1) 59-61
[6]Sergey Brin,Lawrence Page,Google的技术剖析,http://www.51web.biz
上一篇:浅谈电子商务中的电子支付方式