s

2010年8月18日星期三

搜索引擎判断网页间相似度的算法分析

  我们在研究SEO的同时,必然会研究PR值的算法问题。判断两个网页内容上是否相似, 主要是根据向量空间模型(Vector space model ) 算法, 即文献关键词的权重主要由其在文献中的出现频率决定。

  由于网页采用了半结构化的HTML语言, 其包含有丰富的结构信息, 故在抽取网页的主题内容时应加以利用。位于〈head 〉、〈title 〉、〈meta 〉以及〈a href = ?〉等标记之内的关键词无疑应该重视, 赋予较大的权重系数。 文在对大量网页的实际操作中发现, 在诸多网页标记中最能够反映网页内容的并不是通常认为的〈title 〉或者〈meta 〉间的文字, 而是〈a href = ?〉与〈?a〉之间的超链文字。 这主要是因为许多网页的〈title 〉并未经过作者的仔细推敲, 有的是由网页制作工具自动生成(如index1、index2等) , 有的是作者赋以与主题无关的title (如欢迎你的到来) , 还有的是为了提升在搜索引擎结果中的排名而故意造假欺骗Spider , 尤其是在〈meta 〉标记中,对Spider 的欺骗更为常见。

  本文做了两次对比试验。在一个具有10 万个网页的数据库中, 第1 次是根据未曾改进的算法计算出所有网页的权威度, 然后对随机的关键词进行20 次查询, 在返回的前100个结果中, 统计符合查询的网页篇数; 第2 次是根据搜索引擎优化

  改进后的算法计算出所有网页的权威度, 用第1 次查询的关键词同样进行20 次查询第1 次查询结果满意度的平均值45% 左右, 第2 次是利用改进的算法可以把准确度提高到62% 左右, 即改进后的算法可以更加准确地判断网页的权威性, 返回更加符合查询条件的结果,增进网站的用户体验

2010年7月7日星期三

网站改版时防止搜索引擎乱收录可以暂时robots屏蔽

  如果你的网站权重很好,而且网站改版的周期较长的情况下,经常性的搜索引擎会收录网站一些垃圾页面,或者说错误页面,如果收录过多还可能造成网站的降权。所以遇到这种情况下,我们可以暂时使用robots屏蔽搜索引擎收录一段时间,或者暂时屏蔽网站内的部分目录,注意时间不要太久,如这个上海劳动争议法律网,由于网站改版,URL地址全部改变。又防止搜索引擎重复收录不同的URL,所以临时性的采取了这样的措施。
  今天网站彻底完善,关键词匹配已经设置好,网站已经删除robots文件,发布外链引导蜘蛛一下,通知下google。

2010年7月2日星期五

我看组团骗婚一事

  一群来自贵州偏远山区的80后、90后走出校门打工挣钱无望,为了圆财富之梦,铤而走险,在“姨妈”帮助下包装后组团“结婚”后神秘蒸发。这成了一个特大的骗婚案,上海翻译导航台
  中国人口男女比例本身就不平衡,现在农村还一味的想生男孩,不要女儿,现在已经吃到苦头了吧。娶不来媳妇,就想着买贫穷地方的女人来当媳妇,那贫穷地方的光棍又该怎么办? 难道以后媳妇靠进口吗?重男轻女的思想不改变,这种情况只会越练越烈。以前农村娶媳妇也要挑挑家世长相人品,现在只要是个女的,还能生孩子,哪怕比男的大,哪怕长的丑,哪 怕已经嫁过几次,照样娶进门,媳妇闹灾荒啊。
  思想不改变,历史还会重演。
  那些买媳妇的该反醒一下,人是能买的吗?为什么拐卖妇女儿童的那么多,花钱买儿童的不治罪,永远都会有儿童被拐卖!
  "骂人有,笑人无" 是存在于中国人骨子里的陋习.在没有信仰的当今中国社会,那些没受到教育(以及那些没有教养)的农民最会在各种场合表现这种品行.

2010年6月27日星期日

需要调整的5条需求

  1、频道内栏目的文件、文件夹重命名。这样的形式。同时在对×××命名的过程中尽量能出现关键词的英文单词或拼音缩写的形式。同样最终文章页的url也需要这样的修改,而非这样的形式。

  2、频道栏目导航的链接结构需要调整。进入该频道的某个栏目不能顺利的进入其他栏目。

  3、网站路径导航上存在死链接页面关键字和描述 没有考虑seo。进入详细的内容页,没有设置关键字,没有设置描述,所有内容页全部一样。没有突出的关键词,更无从谈起关键词密度问题。

  4、该频道的“论坛热帖”部分内容都是以相同的文字链接到项目的网站目录,

  5、目前网站的反向链接:

  Google: 257

  Baidu : 143

  这个数字都很少,还需要在这方面下功夫,如文章页的外链建设“外阴白斑传染吗

2010年6月23日星期三

推荐TechTarget中国在虚拟化领域的技术发展

  作为IT专业人士的您,虚拟化已经不是一个陌生的名词,也许您正考虑对虚拟化进行评估,或许已经将虚拟化纳入工作部署项目之一……

  TechTarget中国一直关注虚拟化领域的技术发展。在暖意渐进的早春,特联合旗下“TT数据中心”和“TT虚拟化”网站强强推出虚拟化专业电子杂志:《虚拟数据中心》!与您共同关注虚拟化技术最新发展以及具体的虚拟化技术部署与应用!

  以下是我们六月刊的重点推荐内容介绍,同时我们还精心制作了PDF版本,供您下载!欢迎您多提宝贵意见!服务器

2010年6月22日星期二

电子邮件营销师认证培训说明

  关于《认证电邮营销师|eMail Marketer》:本理论原型和核心案例,均来自于一些全球领先电邮营销技术提供商和咨询服务机构,中邮通|MailBus于2009年6月开始到现在以《电邮营销师|eMail Marketer》(简称CEMM)的名义举办各种沙龙、专题讲座、公开课等超过20场,怎样做电子邮件营销,怎样提高电子邮件打开率等。2010年初,《电邮营销师|eMail Marketer》得到了相关部门、企业领先服务企业等联合支持。

  标准版介绍:·针对企业市场/技术主管级人士和大学三、四年级学生。只限于BMM-CMM-I和BMM-CMM-II层次;采取2个工作日的集中培训形式,由“电邮营销专家组”成员单位提供讲师;目前举办了5场正式培训, 20场公益讲座;考试分笔试和实践,考试通过后,证书由“CEMM认证推广中心”统一颁发。

  专业版介绍:针对企业市场/技术经理/总监级人士;针对BMM-CMM-III~BMM-CMM-V层次;采取5个工作日的集中培训形式,由“电邮营销专家组”成员单位提供讲师;目前举办了2场正式培训;考试分笔试和答辩,考试通过后,证书由“CEMM认证推广中心”统一颁发。

2010年6月17日星期四

ESET NOD32软件使用协议

  本协议中的软件是指 (i) 计算机程序 ESET NOD32 Antivirus,包括其所有组成部分;(ii) 磁盘、CD、DVD、电子邮件报告及所有附件(如果有)的内容或附带本协议的其它介质的内容,包括以对象代码形式存储在 CD、DVD 上的软件或通过 Internet 以电子邮件方式提供的软件;(iii) 任何有关此软件的说明材料和文档,包括但不局限于,所有软件说明、软件的规格、功能说明、用法说明、软件界面说明、软件使用手册或安装手册,或者任何有关软件正确使用的说明(“文档”);(iv) 软件的副本、软件错误(如果有)的修复程序、软件的附加程序、软件的扩展、软件的修改版本、软件的新版本以及软件组件的所有升级(如果提供),关于这一点,提供商根据此处第 4 款授予您许可。提供商仅以可执行代码的形式提供软件。
  软件具有收集新的计算机病毒或类似有害计算机程序以及可疑或有问题的文件(以下称为“渗透”)的样本并将其发送给提供商的功能,同时包括有关安装软件的计算机和/或平台的信息(以下称为“信息”)。“信息”可能包含最终用户和/或安装软件的计算机上其他用户的数据(包括个人数据)、计算机的信息、安装的操作系统和程序、安装软件的计算机上的文件,以及受“渗透”影响的文件和此类文件的详细信息。提供商应将收到的“信息”和“渗透”仅用于对“渗透”的研究,并应采取适当的措施来确保收到的“信息”保持机密。通过接受此协议并激活上述软件功能,您即同意将“渗透”和“信息”发送给提供商并同时授予提供商必要的许可,使其可以按照相关法律规定,网站调整对获取的信息进行处理。

2010年6月15日星期二

过多的导出链接对网站权重有影响吗?

我们可以假设一种情况,如果我有一个权重非常高的博客,后来把这个网站当做资源站,疯狂在上面做链接,或者甚至直接改成了一个网址导航类的网站,整个页面中几乎都是导出链接。这样的情况网站还能保持以前那样的权重吗?单从搜索引擎收录速度来看是一个什么情况呢?

这个留网民也给自己留做一个思考题,然后慢慢用实例告诉大家结果。