s

2010年8月18日星期三

搜索引擎判断网页间相似度的算法分析

  我们在研究SEO的同时,必然会研究PR值的算法问题。判断两个网页内容上是否相似, 主要是根据向量空间模型(Vector space model ) 算法, 即文献关键词的权重主要由其在文献中的出现频率决定。

  由于网页采用了半结构化的HTML语言, 其包含有丰富的结构信息, 故在抽取网页的主题内容时应加以利用。位于〈head 〉、〈title 〉、〈meta 〉以及〈a href = ?〉等标记之内的关键词无疑应该重视, 赋予较大的权重系数。 文在对大量网页的实际操作中发现, 在诸多网页标记中最能够反映网页内容的并不是通常认为的〈title 〉或者〈meta 〉间的文字, 而是〈a href = ?〉与〈?a〉之间的超链文字。 这主要是因为许多网页的〈title 〉并未经过作者的仔细推敲, 有的是由网页制作工具自动生成(如index1、index2等) , 有的是作者赋以与主题无关的title (如欢迎你的到来) , 还有的是为了提升在搜索引擎结果中的排名而故意造假欺骗Spider , 尤其是在〈meta 〉标记中,对Spider 的欺骗更为常见。

  本文做了两次对比试验。在一个具有10 万个网页的数据库中, 第1 次是根据未曾改进的算法计算出所有网页的权威度, 然后对随机的关键词进行20 次查询, 在返回的前100个结果中, 统计符合查询的网页篇数; 第2 次是根据搜索引擎优化

  改进后的算法计算出所有网页的权威度, 用第1 次查询的关键词同样进行20 次查询第1 次查询结果满意度的平均值45% 左右, 第2 次是利用改进的算法可以把准确度提高到62% 左右, 即改进后的算法可以更加准确地判断网页的权威性, 返回更加符合查询条件的结果,增进网站的用户体验