当前位置：首页 > 站长之家 > 经验心得

网页结构化的过程即有价值信息被保留的过程

来源：岁月联盟编辑：exp 时间：2013-11-22

　　向大家介绍过网页结构化的目标，结构化的过程就是网站有价值信息被保留的过程，今天之所以又用这样的标题来写一篇文章，其实是有目的的，是想再次的提醒网站seo优化人员，搜索引擎工作原理是做好网站优化工作的基础。

　　现在不比前几年，一说网站优化一说SEO优化，改改title，discription，keyword，发发外链，网页的排名效果就会有。但现在仅仅指望这点已经不起作用了，人人都会的东西，你再拿出来作为自己的优势，实际上是落伍了，再加上黑帽seo优化的猖獗，针对百度的优化，针对google的优化层出不穷，搜索引擎也在不断的调整着算法。要做SEO优化的前锋战士，根据互联网的发展变化，时时保持清醒的头脑，吸收新的知识，只有这样网站的优化效果才可能在你的控制之中。

　　话回正题，来简单解释一下，网页结构化的过程即有价值信息被保留的过程。明白了网页结构化的目标后，就应该明白，体现网页本身价值和内容的5个属性被抽取出来，即，标题(title)、锚文本(anchor text)、正文标题(content title)、正文(content)和正向链接(link)。对搜索引擎来说，这5个属性就是有价值的信息(当然，也是对用户有价值的内容)。

　　我们来具体看一下网页结构化是如何进行的?

　　网页结构化的过程首先通过标签树进行分析得到文本对应的标签，然后通过投票算法确定正文及配图等仅从HTML标签无法判断的网页数据。以下是专业人士总结的两步走：

　　HTML标签树

　　一、建立html标签树(tag-tree)。

　　万维网上大多数的静态网页都以HTML网页形式存在，HTML是一种标识语言(Markup Language)，它把其描述的全部内容都按照HTML语法存放在标签之中。为了更清楚地描述网页内容的组织结构，将网页中的标签按照出现顺序依次整理出来并用适当的结构记录。由于标签之间的嵌套关系，因此整理结果自然是一个树状结构，我们把整理一个网页中的标签得到的树状结构称为该网页的“标签树”。

　　很显然，查看该网页的用户看到的是相当友好的信息。而实际源文件中的那些HTML标记，如和(可以理解为用来帮助IE浏览器理解网页)等都不会实际地展示给用户。因此搜索引擎的分析系统需要学习IE浏览器理解网页的方式来理解网页，在理解过程中需要建立一个HTML标签树的树形结构。通过建立标签树，并且识别标签所描述的文字，网页结构化进程就走出了重要的一步，能够顺利提取出了网页的标题。但实际的网页，同一个标签所描述的文字内容不是唯一确定的，比如广告内容也可能放在标签里，而这不是真正的正文，是会影响用户的搜索体验，所以就有了下面投票法得正文。

　　二、通过投票方法识别正文的文本块，并按照深度优先遍历的规则组织为正文。

　　判断哪个文本块是正文采用称为“投票算法”的计算方法，这种方法在搜索引擎中特别常用。在日常生活中几乎所有人都会有投票或选举的经历，如选举干部和通过决议需要投票，以及运动员的一套动作需要裁判员打分等。其基本原理在于认为大多数人的意见往往是正确的。大多数人的统一主观意见就会变得较为客观。虽然每个人的给出的分数是主观产生的，但是这种评判的方法和结果被认为是相对客观和可信的。正文抽取的投票算法的过程如何呢?首先搜索引擎会定义一系列的规则，然后通过这些规则为每个文本块打分。得分最高的被认为是正文的可能性足够大，并且可以接受。搜索引擎定的规则，也是需要通过足够多的网页进行反馈，之后才能得到一个公正客观的打分。由于HTML标签的相互嵌套的特性，决定了深度优先遍历的顺序恰好能够组织成一个完整的正文。

　　(来源:www.zhangxundf.cn)

上一篇：百度文库“洗白”之路

下一篇：城市流量入口模式：地方网站快速拓展全国的利器

当前位置：首页 > 站长之家 > 经验心得

网页结构化的过程即有价值信息被保留的过程

图片内容

最近更新

随机推荐

当前位置：首页 > 站长之家 > 经验心得

网页结构化的过程 即有价值信息被保留的过程

图片内容

最近更新

随机推荐

网页结构化的过程即有价值信息被保留的过程