网页结构化的过程 即有价值信息被保留的过程

来源:岁月联盟 编辑:exp 时间:2013-11-22

  向大家介绍过网页结构化的目标,结构化的过程就是网站有价值信息被保留的过程,今天之所以又用这样的标题来写一篇文章,其实是有目的的,是想再次的提醒网站seo优化人员,搜索引擎工作原理是做好网站优化工作的基础。

  现在不比前几年,一说网站优化一说SEO优化,改改title,discription,keyword,发发外链,网页的排名效果就会有。但现在仅仅指望这点已经不起作用了,人人都会的东西,你再拿出来作为自己的优势,实际上是落伍了,再加上黑帽seo优化的猖獗,针对百度的优化,针对google的优化层出不穷,搜索引擎也在不断的调整着算法。要做SEO优化的前锋战士,根据互联网的发展变化,时时保持清醒的头脑,吸收新的知识,只有这样网站的优化效果才可能在你的控制之中。

  话回正题,来简单解释一下,网页结构化的过程即有价值信息被保留的过程。明白了网页结构化的目标后,就应该明白,体现网页本身价值和内容的5个属性被抽取出来,即,标题(title)、锚文本(anchor text)、正文标题(content title)、正文(content)和正向链接(link)。对搜索引擎来说,这5个属性就是有价值的信息(当然,也是对用户有价值的内容)。

  我们来具体看一下网页结构化是如何进行的?

  网页结构化的过程首先通过标签树进行分析得到文本对应的标签,然后通过投票算法确定正文及配图等仅从HTML标签无法判断的网页数据。以下是专业人士总结的两步走:

  HTML标签树

  一、 建立html标签树(tag-tree)。

  万维网上大多数的静态网页都以HTML网页形式存在,HTML是一种标识语言(Markup Language),它把其描述的全部内容都按照HTML语法存放在标签之中。为了更清楚地描述网页内容的组织结构,将网页中的标签按照出现顺序依次整理出来并用适当的结构记录。由于标签之间的嵌套关系,因此整理结果自然是一个树状结构,我们把整理一个网页中的标签得到的树状结构称为该网页的“标签树”。

  很显然,查看该网页的用户看到的是相当友好的信息。而实际源文件中的那些HTML标记,如和(可以理解为用来帮助IE浏览器理解网页)等都不会实际地展示给用户。因此搜索引擎的分析系统需要学习IE浏览器理解网页的方式来理解网页,在理解过程中需要建立一个HTML标签树的树形结构。通过建立标签树,并且识别标签所描述的文字,网页结构化进程就走出了重要的一步,能够顺利提取出了网页的标题。但实际的网页,同一个标签所描述的文字内容不是唯一确定的,比如广告内容也可能放在标签里,而这不是真正的正文,是会影响用户的搜索体验,所以就有了下面投票法得正文。

  二、通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

  判断哪个文本块是正文采用称为“投票算法”的计算方法,这种方法在搜索引擎中特别常用。在日常生活中几乎所有人都会有投票或选举的经历,如选举干部和通过决议需要投票,以及运动员的一套动作需要裁判员打分等。其基本原理在于认为大多数人的意见往往是正确的。大多数人的统一主观意见就会变得较为客观。虽然每个人的给出的分数是主观产生的,但是这种评判的方法和结果被认为是相对客观和可信的。正文抽取的投票算法的过程如何呢?首先搜索引擎会定义一系列的规则,然后通过这些规则为每个文本块打分。得分最高的被认为是正文的可能性足够大,并且可以接受。搜索引擎定的规则,也是需要通过足够多的网页进行反馈,之后才能得到一个公正客观的打分。由于HTML标签的相互嵌套的特性,决定了深度优先遍历的顺序恰好能够组织成一个完整的正文。

  (来源:www.zhangxundf.cn)

图片内容