seogoogleseo的博客秀

关于作者

姓名:崔俊忠

性别:男

出生日期:1982-10-01

地区:天津-天津

联系电话:

QQ:195641901婚否:保密
用户名:seogoogleseo
笔名:google
地区: 天津-天津

日历  

快速登录

+ 用户名:
+ 密 码:

我的博采 我的论坛 我的RSS

文章索引

在线留言



访问统计:
文章个数:8
评论个数:1
留言条数:0



Powered by BlogDriver 2.1

google左侧排名-googleSEO

 

google,google,google,google,google,google,google,google,google,google,google,google优化技术研究站点。

文章

获取google pagerank值的研究

      在网上看到有网站提供显示google pagerank值的功能,听说google已经取消了公开的pagerank显示,只有通过ie google toolbar获得,所以觉得挺有意思,就去研究了一下。


我装上google toolbar抓了一下socket包,得到了如下信息:

GET /search?client=navclient-auto&googleip=O;3812&ch=62544423920&freshness_check=4X0lThsX1_WR7cBSIbnl8&ie=UTF-8&oe=UTF-8&features=Rank&q=info:http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F HTTP/1.1
User-Agent: Mozilla/4.0 (compatible; GoogleToolbar 2.0.114.9-big; Windows 5.2)
Host: toolbarqueries.google.com
Cache-Control: no-cache
Cookie: PREF=ID=3e46a681346bcce2:NW=1:TM=1099618786:LM=1104831026:TB=2:S=8oMV8rWWHE07ngDp
测试了一下,发现只有GET后面的信息和host比较重要,其他的信息可以任意填写
而这其中比较重要的信息是下面这几条:
 client=navclient-auto&
 ch=0123456789&
 features=Rank&
 q=info:http%3A%2F%2Fblog%2Eiyi%2Ecn%2Fdavid%2F
client=navclient-auto表示客户端是google toolbar,如果没有这个参数得到的结果是在google中搜索这个网址的结果
ch=0123456789是checksum值,关键中的关键,google对每个网址用特殊算法进行转换后得到这个checksum,google就是靠这个来对它的pagerank进行"加密"的。如果知道了这个算法,获取pagerank就轻而易举了。
features=Rank获取的是pagerank值,我得到的结果是Rank_1:1:1其中最后一位是pagerank的值,如果忽略这个参数得到的是相关网页在google中的详细信息的xml,我得到的是下面的信息:
  <?xml version="1.0" encoding="GB2312" standalone="no" ?>
    <!DOCTYPE GSP (View Source for full doctype...)>
- <GSP VER="3.2">
    <TM>0.124300</TM>
    <Q>info:http://blog.iyi.cn/david/</Q>
    <PARAM name="client" value="navclient-auto" original_value="navclient-auto" />
    <PARAM name="googleip" value="O;907" original_value="O;907" />
    <PARAM name="ch" value="62544423920" original_value="62544423920" />
   <PARAM name="q" value="info:http://blog.iyi.cn/david/" original_value="info:http%3A%2F%2Fblog.iyi.cn%2Fdavid%2F" />
- <RES SN="1" EN="1">
     <M>1</M>
     <XT />
- <R N="1" L="1" MIME="text/html">
      <U>http://blog.iyi.cn/david/</U>
      <UE>http://blog.iyi.cn/david/</UE>
      <T>泰然处之- 大卫&#39;s BLOG</T>
      <RK>1</RK>
      <S>泰然处之 - 大卫&#39;s BLOG. 2004年12月. 日, 一, 二, 三, 四, 五, 六. 1, 2, 3, 4. <b>...</b></S>
      <LANG>zh-CN</LANG>
- <HAS>
       <L TAG="link:" />
       <C SZ="90k" CID="28N4KopQVykJ" TAG="cache:" />
       <RT TAG="related:" />
      </HAS>
     </R>
    </RES>
  </GSP>

内容很容易看得明白,这里就不解释了。(难道我得blog被google惩罚了?好久没有更新了-_-)
知道了原理,就来考虑如何解决了。其实google toolbar可以很容易的动态跟踪,懂得汇编的人可以很快的找出它的checksum算法,这当然是最好的解决之道。
另外,如果你不懂得汇编,可以通过历史纪录获得向管链接的checksum值,可以从你的ie临时文件夹中找到。
或者你也可以建立代理服务器,让google toolbar通过代理服务器来获取pagerank值,然后在代理服务器上运行相关程序来截取checksum值。
另外,还找到这个pr值对照表:

Toolbar PageRank Real PageRank
0/10        0.15 - 0.9
1/10        0.9 - 5.4
2/10        5.4 - 32.4
3/10        32.4 - 194.4
4/10        194.4 - 1,166.4
5/10        1,166.4 - 6,998.4
6/10        6,998.4 - 41,990.4
7/10        41,990.4 - 251,942.4
8/10        251,942.4 - 1,511,654.4
9/10        1,511,654.4 - 9,069,926.4
10/10       9,069,926.4 - 0.85 × N + 0.15

我觉得所谓的real pagerank可以估算为:Nd+(1-d)
N是在google搜索到的链接到当前网页的网页数,d是google定义的阻尼值。
比如在google中输入link:www.sohu.com得到的结果是:133,000 项,用上面的公式计算得到113050.15,刚好对应到pr值7,也可以根据各个数据段的百分比算出10以内的pr值小数位
其实这样子很容易的到pr值,根本不用那个checksum加密算法

- 作者: google 2005年07月18日, 星期一 00:23  回复(1) |  引用(0) 加入博采

Google排名新算法之 三

第三部分: 如何在Google新算法中拔得头筹


如何应对Google的新算法?大家可以根据下面所列的一些要点采取相应的措施。


3-1. 关键词的研究:扩大覆盖面

搜索引擎策略的中心思想是确定恰当的关键词来锁定目标群体。但有很多网站管理员却在这一步上掉以轻心,只在屈指可数的几个平平常常的关键词身上铆足了劲,却不知这种策略失之偏颇。关键词研究的主要目标应该是确定目标群体所有可能使用的关键词,其中包括了品牌名称、地理位置及修饰语等“修饰成分”。


尽管对网站的每个页面只能围绕两到三个关键词进行关键词优化,但通过关键词和修饰成分的有机结合,亦可大幅提高网站对搜索结果的覆盖率。对于Google在去年11月15号所做的更新,有很多实施了有效关键词策略的网站管理员压根就没有注意到。原因很简单:他们锁定的是所有可能相关的关键词,覆盖面极广,所以虽然个别一般性的关键词的排名下降了,但网站的整体访问量并未受到什么影响。


若只针对少数关键词,而且这些关键词都有很好的排名,这种策略看起来似乎也蛮不错。可是一旦搜索引擎改变了排名算法,就象Google这次一样,这种缺乏灵活性的策略可就撞上南墙了--正确的做法是锁定所有可能相关的关键词,扩大对搜索结果的涵盖面,给自己的搜索引擎策略打下一个坚实的基础。


3-2. 网站结构的有效性


为保证“广泛的关键词”策略的有效性,网站需要进行组织,让搜索引擎可以顺利地遍历或检索网站内的所有网页。为了更好的理解这一点,让我们先来看看搜索引擎的Spiders是如何遍历网站的。


在对网站的第一次造访中,Spider首先会取得一个叫做Robots.txt的文件来决定是否允许它检索。


当Spiders从另外一个站点发现你网站的链接时,若Robots.txt文件里并未声明不允许它访问该页面,则Spiders会把这个页面保存下来。它不一定就是主页,也可能是你网站的其它页面。


Spider在对这一页进行检索时,它会从中摘录一些关于内容方面的信息和页面上的所有链接,并将其放入搜索引擎的数据库里面。如果它所认为你的网站十分重要,它稍后会检索这些链接页面。


如果你在网站的每个页面上都放了一组指向网站主要部分的链接(网站全局导航链接),那么接下来这些链接页极有可能得到Spider的检索。假设网站上的每个页面上都依次放有指向网站主要内容的链接,那么搜索引擎要想遍历整个网站真是易如反掌。


因而,最有效的网站结构当属自顶而下(Top-Down)或金字塔型设计结构。规模较大的网站(至少十几页)应设立一个网站地图页,用以列出网站的所有内部链接页。SUN微电子公司的网上大师级人物杰可布.尼尔森(Jakob Nielsen)认为:一个网站设计的精良与否的一个重要标志就是是否有网站地图。


许多人对文本链接方式的网站导航持排斥态度(可能因为它不那么漂亮吧),而是热衷于Flash或动态网页(DHTML)形式的菜单。使用这种导航方式的人要当心了,因为搜索引擎目前尚无法很好地支持这种导航系统。不过别担心,只需将文本导航链接放到网页的最下方,这样既保持了你喜欢的网站风格,又向搜索引擎提供了更对它们口味的东西,可谓皆大欢喜。


内容清楚的文字性链接不但可使你的网站很容易得到Spiders的检索,而且对我们这些真实的访问者来说亦一目了然。做文字链接时需注意一个问题:尽量让网站的内容只需最多两三次点击就可以打开,可创建一个网站地图把这些链接放到一起。


3-3. 创建大量优化网站内容


网站的结构就象一个框架。我们已经知道了如何构建一个友好的网站结构,接下来该向结构中填加内容了。


先记住完成步骤一(3-1)后找到的所有相关关键词以及相应的修饰语,现在我们可以在每一页的内容上,在下面几个地方放上相关的主要关键词,并予以恰当的修饰:
1. 网页的<TITLE>中
2. HTML源码中的关键词和描述元标识(META Keywords & Meta Description)
3. 页面上的主标题文字<heading>和各部分的标题文字<headings (H1– H6)>
4. 网页正文中的段落(<P></P>)和列表(<List></List>)之中


不必太担心象“关键词密度”这样“深奥”的东西。只需自然地使用关键词,利用不同的单词变化形式,并辅以恰当的修饰语。而且只需在页面上可以看见的文本内容中出现若干次关键词,并将这些关键词放在页面上较为突出的位置上就OK了。没必要再向其它毫不相干的地方“填塞”关键词。


假设你已经为要建设的网站拟定了大量内容––建设一个内容相当多的网站着实是一项有些让人望而生畏的任务。实际上也确有一些人望而却步,转而使用诸如机器自动生成的“门页”等这样一些廉价的伎俩,大家千万别相信这些投机取巧的方法,它们只会增加你遭到搜索引擎处罚的可能性而不是你想要的排名。况且,网站内容的开发工作并没有那么难。

如果你是自己做这项工作,你完全可以把工作分做几步来开展,这样就轻松多了。例如,若将工作分做10个步骤,且每个步骤中需创建10个页面,你就可以每天只完成一两页内容,等一个步骤完成后再继续下一个步骤。


花上两三个月来构建一个既实用又兼具丰富内容的站点是值得的。别忘了要经常给网站补充新鲜的内容––即使一个星期只补充一点内容,时间长了之后,用户总会看到内容上的质的飞跃。而且网站的内容越多,搜索引擎用户发现它的机会也就越大。

3-4. 链接策略


现在你的网站不但漂亮而且实用,不但内容丰富,而且关键词完美涵盖了所有用户可能用到的查询条件。每个页面都是一个优化的典范,且被极佳地相互链接起来... 现在可以松口气了吗?别急,革命尚未成功。若现在你就停滞不前了,那你一定会得失望。搜索引擎不会对一个没有任何外部链接的网站青睐有加。因为外部链接往往意味着业内其它网站对你的认知程度。要想得到理想的排名,你还需要花时间来进行网站推广和逐步建立网站的导入链接。

如果想在“新”Google中取得成效,就需要锁定那些来自相关站点的相关链接。数量当然是多多益善了。问题是:怎么去找这样的链接呢?


首先,向所有能找到的相关目录提交你的网站。象DMOZ这种大型目录当然是首选目标了,不过一些规模相对较小的分类目录也是理想的提交对象,如GoGuides,Skaffe,Gimpsy,WebSavvy,等等。


其次,可从相关站点群体获得相关链接。以所有主要目标关键词为查询条件,从Google上查找那些排名位居榜首的网页。排名前20到30名的网页一般来说相关度最高,因而都可能是理想的目标。再依次访问其中的每个网站-–若这些网站提供有链接页,或链接到相关站点,可以向他们请求交换链接。然后再看看有哪些网站链向它们,再设法同这些网站交换链接。


尽量控制链接的放置位置。即使是一个罗列了大量链接的“资源”页的相关链接也是不错的。若链接位于访问量较好的页面,可使你赚进显著的访问量。找一找这样的网页,和他们进行互惠链接。


一般情况下,链接页上都会放置自己的首页作为到自己网站的链接。但也不尽然。在建立链接时,也可以为网站的“内部”页面寻找链接的机会。


3-5. 不要“见好就收”!


大多数人很容易步入的一个误区是:一旦他们的网站在搜索引擎中的排名效果显著上升,并由此而使访问量得到可观的增加后,他们就开始忙于应付新访问者了,而不再为网站的内容、链接花心思了,甚至没有心思再去看他的网站排名了。


不久之后,倘若Google或任何一家搜索引擎把他们的排名给刷下来了,他们就开始牢骚满腹,说什么搜索结果不公正,搜索引擎在迫害他们...等等等等。


对此,我的建议很简单-–不要因为排名上去了就停止努力,继续寻找新的相关关键词,继续创建链接,继续为网站添加新鲜“血液”,保持网站的最新状态。记住:无论是排在你后面还是前面的竞争对手,没有人会停止和你竞争的。


你的努力往往需要过上几个月才会在搜索结果中体现出来。可是有些人在几个星期之后就因为没有看到直接的效果而放弃了。如果在网站的搜索引擎排名上掉以轻心,等发觉问题时,你已经落后至少好几个月了。


假如你已经为网站开展了搜索引擎策略,并已投入相应的人力、物力和财力,这时候一定要记住:贵在坚持。不要轻易放弃,也不要“见好就收”。

- 作者: google 2005年07月16日, 星期六 02:29  回复(0) |  引用(0) 加入博采

Google排名新算法之二

第二部分: 探索Google PageRank新算法
2-1. Google的主题性趋向


2-1-1. 关于页面级别(PageRank)及Google的旧算法出现问题的原因


页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级越高,则随机网络冲浪者发现它的机率亦越高。


这种思路其实相当富有创意。一个网页的外部链接越多,则对任意网络冲浪者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导入链接就越能从链接中受益—这是由于任意网络冲浪者发现这些链接的机会就越大。


在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果用户查询关于素粒子物理学研究方面的论文(或网页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。


若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面级别系统考虑了所有链接,但却忽视了链接页面的主题性。

Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的搜索引擎营销商却通过在网络上到处建立充盈关键词的链接来欺骗Google的排名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些来自较高“页面级别”页的链接。

如果网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果的质量开始恶化时,它是不会坐视不管的。


2-1-2. 新技术闪亮登场:主题性页面级别技术(Topic-Sensitive PageRank)


2002年,斯坦福大学的一名博士生塔赫尔。哈维利瓦拉(Taher H. Haveliwala)发表了一篇非常有意思的论文,名为“Topic-Sensitive PageRank(主题性页面级别计算系统)”。而更加有趣的是,一年之后哈维利瓦拉成了Google的一份子。


“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有明确的查询目的,并更感兴趣于跟进那些具有某个特定主题的相关网页上的相关链接。这是一个相对而言较为新颖的思路,它解决了搜索结果的质量性方面的一系列关键性问题。

毫无疑问,哈维利瓦拉将成为搜索引擎业界中一个举足轻重的角色。他已经在搜索技术的其它领域方面进行了一些实质性的研究工作,包括如何更有效计算页面级别方面的一些比较有趣的研究。


在最初的研究论文中,哈维利瓦拉描述了他是如何利用斯坦福大学的网络数据库,对应于ODP(开放目录)的16个顶级目录的16个主题来计算“主题性”页面级别得分。虽然该研究的主题和数据数量(8千万个网页)十分有限,但能够看出这种新系统可改善搜索结果,且具备对查询用户感兴趣于何种主题的理解能力。


就在去年,当我回过头来再阅读这篇论文时,我注意到哈维利瓦拉所描述的这种系统对搜索引擎来说还存在着两个问题。不过下面我们将会看到,这两个问题现在都能得到妥善解决了。


第一个问题是充分拓展主题的数量。要想改善搜索结果,16个主题自然是远远不够的。但由于Google的页面级别计算系统的代价非常之高,因而除非新系统能够提供一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领域在过去的一年中的深远发展,因而我相信现在在主题数量上已不是大问题了。


第二个问题就是如何决定一个查询条件可能对应的主题–- 当用户输入诸如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以最恰当的主题,以及为什么一些查询条件更容易受到影响的原因。


2-1-3. 关于Applied Semantics公司及其专利技术CIRCA


Applied Semantics网络广告软件公司是互联网广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC广告客户提供基于内容的广告就是采用了Applied Semantics的AdSense技术。


事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是Applied Semantics公司所拥有的专利技术CIRCA。


CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。


CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。


尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。


2-1-4. 二者的有机结合:主题性搜索引擎的实现


现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?


首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。


在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。


现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。

由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。


当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。


2-1-5. 安然接受和理解算法的改变


可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。


有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站提供的。

我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。


我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外,把它当成规则就大错特错了。


2-1-6. 主题并非关键词... 亦并非十全十美


千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“网络营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。


但从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果所匹配的主题是错误的。例如对”laptop rental”,用户搜索“笔记本租赁”往往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大学里面的笔记本租赁信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。


这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发现这些链接大都具有相似的主题性,如Computing,Housing(学生在校园里出租住处),等等。大家可以用其它词语进行查询,然后分析排名靠前的那些页面上的外部链接,就会更容易理解为什么“laptop rentals”会有如此的搜索结果了。


Google仍有可能提供不够理想的搜索结果,当然也有可能再次受到蒙骗,只是这种机率越来越小而已。同时我们相信Google会多花一些时间来修正这些问题。


2-1-7. 为什么只有部分搜索结果页发生了根本的改变?


我们不必理会那些对Google新算法的非议,只要再来看看真实的数据,你就不难理解为什么有些查询条件较其它查询条件更易受到影响。


我们以“Real Estate”为例,依照Scroogle.org的方法论,有77个原来排名在前100位的网页排名降到了100名之后。而对于更为具体的查询条件“Colorado Real Estate”,有24个排名在前100名的网站受到了影响。


而在那些被刷下来的网页中,我第一个看到的是一个标题为“Southern California Real Estate”的页面。有趣的是,倘若用“Southern California Real Estate”进行更具体的查询,你会发现它排名高踞第二位。换言之,这些网页并不是受到了Google的处罚,而只是由于缺乏对查询条件的相关主题性而使排名掉下来罢了。


也有极少数竞争性很强的查询关键词对搜索结果的排名没有造成什么影响。这种现象已被用作对Google排名算法的各种猜测的正确性与否的一个依据。但我认为对这种现象的解释其实也很简单--以“search engine optimization”为例,在返回的搜索结果中,前30个网页列表几乎没什么变化。如果对排在榜首的页面进行分析的话,就可以发现这些网页上的外部链接都具有良好的相关性,这样的网页在一个主题性页面级别的计算系统下也会做的很好。


可能Google采用的新算法与我的猜测大相径庭,不过目前为止我尚未发现比这更好的猜测。不过这些并不重要,我们只要清楚一点:不管Google怎么改变它的算法,成功的秘诀其实相当简单--胜出的往往是那些拥有大量内容和大量相关链接(包括导入链接和导出链接)的站点。而那些使用门页(Doorway Page)和链接交换的网站就不会再这么好运气了。

- 作者: google 2005年07月16日, 星期六 02:28  回复(0) |  引用(0) 加入博采

Google排名新算法之一

第一部分: 最新消息! Google的主要变化


Google的主要变化始于2003年11月的16号,从那时候起,网上论坛就开始对此议论纷纷并产生了形形色色的推测。这种更新对一些人是坏消息,而对另外一些人却是好消息(不过大多数猜测都来自于那些认为这是坏消息的人)。Google对其变化只字不提,当然我们也别指望它会说点什么。因此,这篇文章代表了我个人的部分推测,希望它至少为读者您提供了一些“较为可靠的推测”。


除了在对搜索结果的排名方式上有一些显著变化外,Google在搜索结果的格式上亦有一些根本的改变,在我看来,这些变化在极大程度上展示了Google的整体发展方向。


我首先会回顾Google最近的变化,然后提出我对Google新策略的一些探索,并对一些不好的传言进行澄清。最后为如何在“新”Google中取得成功献上我的个人建议,供大家参考。


1-1. 总观Google新变化


现在,Google确定无疑是在进行一些新的及与以往完全不同的改变,并使得如此多查询条件受到影响,使它们的搜索结果与以往完全不同。让我们在深入挖掘其“巨大变化”之前,先来看看并未引起人们太多关注的一些较小的变化(如下所示)。于用户而言,这些小变化加起来产生了许多新的特性



1-1-1.关键词词干法(Keyword Stemming)

Google的另外一个变化是开始采用词干法进行搜索服务。换言之,如果在搜索框中键入“dietary”,那么也会得到一些基于“diet”的搜索结果。关于这一点还是请大家看看Google的解释--“Google目前使用了词根还原技术”。也就是说,它不再拘泥搜索与输入查询完全相同的词语,亦会向用户提供与部分或所有查询词语相近的搜索结果。例如,对于查询词语“pet lemur dietary needs”,Google也会显示“pet lemur diet needs”及其它词性变化形式的搜索结果。而且对于搜索结果页上出现的查询词本身及其不同的变化形式,Google会以粗体突出表示。”


实际上词干法的介入已有一段时间了,只是在此之前我们没法确定它到底是属于玩票还是试验性质的,不过现在看来,Google已在其搜索技术中正式引入了词干法。


1-1-2. 信息第一位了吗


在“新”Google的搜索结果中,我们很多人注意到的第一件事情就是,即使用纯粹商业性质的词语进行查询时,位于页首的却往往并非一些相关的商业性站点,而是被大量含有“信息”和“资源”的性质的页面所占据。但我却并不认为它必然地说明了Google对商业站点存在着偏见。


我反而觉得,Google目前的搜索结果的变化揭示出一些原来排名很好的网站的“真实面目”,它们虽然赚取了较高的页面级别,但却只是徒有虚名,本身并没有提供什么有份量的网站内容。而且在过去,一个网站要想排名在前十位并非什么难事,只要对页面进行优化,获取足够的外部链接数量(不管这些链接是否具有同一主题甚至是否相关),然后您再瞧––排名效果立竿见影。

如果一个网站本身的内容就很少,而且相关的外部链接又少,并且所有外部链接都是通过链接交换而得到的,这种网站的排名在Google这次的更新中往往首当其冲受到显著的影响。Google的新算法似乎对那些含有大量实用内容的主题性站点极其有利,用户喜欢的也是这样的站点。


1-1-3. 随时调整排名算法


自从去年11月15号以来,Google始终在对排名算法进行调整,有很多原来排名大幅下降的网站现在不但恢复了排名,而且位置较以往有了显著的提升。我们可以期待,Google会坚持不懈地对算法进行调整和改变来提高搜索结果的质量。


1-2. Google的发展战略


倘若搜索引擎能够理解用户的查询本意,那么向用户提供高质量的搜索结果也并非难事。但是,当用户键入“DVD PLAYER”这几个字时,你知道他到底想要什么吗?是想买DVD播放机呢,还是想知道怎么把DVD和电视相联?是想看关于DVD播放软件方面的评论呢,还是要找能够在计算机上播放DVD的软件?


Google的发展战略与其它搜索门户网站不同,其目标是向不同类型的搜索用户提供不同的搜索服务类型。“新”Google的一个有趣之处是在其主要搜索结果中开始揉合使用其它搜索工具。


《搜索引擎观察》杂志的资深编辑丹尼-苏利文(Danny Sullivan)发明了一个叫“invisible tabs”的术语,用来描述搜索引擎可能会怎样来试图提供更贴近用户本意的搜索结果。

他认为:搜索引擎(例如Google)已然能够使用多种资源(象Google就提供了网页、目录、网上论坛、新闻、在线购物、图书搜索等多种服务形式),这些资源信息将被引入搜索引擎的主要搜索结果。


1-2-1. Google的商品购物搜索引擎Froogle


2002年12月,Google推出了商品购物搜索引擎Froogle测试版。用户登陆froogle.google.com后即可在网上找到想购物的网站,然后可以比较世界各地同类产品的价格。


此外,在用户进行普通查询时,若查询术语与商业相关,则Google将从Froogle获得相关商品信息,并将其展现在普通搜索结果的顶端。


对网上购物站点来说,Froogle实在是个不错的选择。不但免费收录你的网站,提交步骤亦相当简单。


1-2-2. Google的目录搜索服务


Google Directory依据的是网上最大的人工编辑网络目录DMOZ,再结合Google的“网页级别”技术,让网页根据重要性来排列,并通过网页列表前的绿色横线长度来标明网页的重要程度。


在Google提供的普通搜索结果中,若一个网页已被DMOZ收录,则Google会列出该网页在DMOZ中的描述及相应的目录信息。此外,在普通搜索结果页的最上方位置,大家也可以看到与查询条件相符合的目录链接。


Google的目录搜索服务可满足那些想要浏览某特定主题下相关信息的用户。如果你的网站还未被DMOZ收录,那就赶紧行动吧。


如果你还在质疑目录列表对网站的重要性,我建议你去读一读Google搜索小贴士上的最后一段:
“当无法确定查询条件时,我们推荐用户使用Google网页目录。它可有效限定搜索范围,不会向用户显示其它类似但无关的网页。例如,若在“天文学”目录下查找“土星”,则返回关于土星的信息。而在汽车目录下搜索“土星”时,则返回通用公司“土星车”方面的信息资讯。当搜索范围涵盖太广时,使用目录服务可有效缩小搜索范围。”


Google欲自用户处了解他们想在目录下查找什么样的信息。等我讲到“主题性页面级别”的时候,你就可以明白,Google是怎样来提供与目录主题匹配的搜索结果的。


1-2-3. Google的新闻搜索服务


Google新闻保留了三十天内所发生的较有价值的报道和头条新闻,用户可使用其新闻搜索系统查找当前事件的新闻。新闻报道依照发布日期,相关报道数量和新闻来源的受欢迎程度进行排序。


在一般性搜索中,我们可以看到搜索结果页顶端的部分新闻搜索结果,当用户进行一般性查询时亦可看到相关的新闻内容。


目前尚为测试版的Google News与其它搜索服务稍有不同,其新闻来源并不仅限于象“纽约时报”这样的大型传媒。目前Google新闻搜索服务已有4,500家传媒来源。尽管其它大型ICP网站也提供了重要新闻网站的链接,但在涵盖面和消息来源上往往不如Google。


1-2-4 Google的图书检索服务


继亚马逊网站之后,Google也推出了其测试版图书搜索服务Google Print。用户可找到图书的简要节选,评论及作者简介等,甚至可能找到图书的外观照片。搜索结果中还提供了在哪里可以买到这本书的相关链接以及Google的相关广告。Google一直都在探索如何进一步提高搜索服务的水平,这次推出的图书搜索服务的测试正是该公司不断改进搜索服务努力的一部分。目前该项服务所提供的印刷图书数量仍十分有限,不过Google这个搜索巨人是不会让我们失望的,让我们拭目以待吧。

1-2-5. Google会推出更多搜索服务吗?


Google不断地推出新的搜索服务,其目的无外为用户提供更好的搜索体验。这不但对用户来说是个好消息,因为他们可以更加便捷地找到自己所需的信息,而且对网站也是好事情。可能不久以后网站就只需针对目标群体来有的放矢,而无须在日益庞大的搜索结果中喊破嗓子来招揽生意了。

- 作者: google 2005年07月16日, 星期六 02:20  回复(0) |  引用(0) 加入博采

搜索引擎优化SEO全攻略
(本文将不断充实并提供相关例子、小工具、文章链接)

成功的搜索引擎营销策略应该是在网站建设之初开始的,从域名的选择到网页的源代码书写开始。但目前的现状是多数网站建设的分工和流程都是把针对搜索引擎的优化工作放在最后——网站已经建好了,向搜索引擎提交网站之前再做优化。这时做优化其实已经相当被动。所以,建议网站规划者在网站建设之初就提交给网页设计师、程序开发人员和内容编辑一份有利于搜索引擎排名的网站建设备忘录。

现将各种介绍搜索引擎优化(search engine optimation:SEO)的方法进行简要汇总。以下方法默认针对google的优化,但由于包括Yahoo在内的大部分搜索引擎机器人在索引网页时遵循的主要原则大同小异,故此文未对具体搜索引擎作个别研究。

1、关键词策略:
确定网站的核心关键词。网页中一切可让搜索引擎抓取的文本中都尽量带有关键词。这些地方包括:域名、title和meta标签、正文、链接文本、文件名、alt、header标签(即正文标题<H1>, <H2>, <H3>等)。让你的关键词无所不在,但又避免在同一处堆砌过多。

关键词选择技巧:相关性(即定位)、热门度的掌握(太热不好容易排前,太冷没人搜索)

2、域名策略:
域名中最好含有你的关键字,并且采用连字符“-”将该关键字单独突显出来以方便搜索引擎识别。有专家认为域名中含有关键字对于排名的作用微弱,但不可否认确有作用,因此能够兼顾的情况下尽量考虑采用关键字域名。

二、三级域名显然没有什么竞争优势。

3、虚拟主机策略:
检验共享IP地址网站:目前大都是多个中小网站共享一台虚拟主机,拥有同一IP地址。如果跟你共享IP的某一个网站被搜索引擎惩罚,将连累你也无法登陆到搜索引擎。除此之外,由于一个IP往往拥有上百个网站,因此会影响你的网页下载速度。特别是如果其中某些网站流量特别大的时候。如果搜索引擎在抓取某个页面时该页半天下载不了,搜索机器人将弃之而去。因此,除了了解多少网站与你共享IP,是否有受到惩罚,最好再了解它们的流量大致情况。如果情况不妙,赶紧换主机。

此外,搜索引擎都不愿收录免费主页空间上的网站,即使收录,也难有好的排名。

工具推荐:

通过域名获知你的IP地址:
http://www.linkwan.com/gb/broadmeter/tracemap/domaintoip.htm

通过IP地址获知共享网站的数量和地址:http://www.whois.sc/members/reverse-ip.html

4、网页文件目录策略:
有序、合理安排文件目录结构,规范命名。简单的网站最多呈现三个层次就可以了。重要内容放在顶级目录。目录文件夹命名含关键词,而HTML网页文件名也含关键词。图片文件也含关键词。这里所指的关键词主要针对具体页面内容而言。文件名是词组就用短横线或下划线隔开。规范的做法是使用英文而不是拼音字母:
http://www.emarketer.cn/em/about/help_faq_04.htm。以下是一主题为“儿童救助”网站的网页文件目录(含external文件):
[ 相关贴图 ]


5、external files(外部文件存储)策略:
javascript文件和css文件分别放在js和css外部文件中。这样做的好处是把重要的页面内容放到页面顶部,同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面重要内容。其他的字体(FONT)和格式化标签也尽量少用。

搜索引擎喜欢在页面一开始就找到本页的关键性内容。

6、动态策略:
动态页面,就是采用ASP,PHP,CGI等程序动态生成的页面,需要用户输入条件提交后才能产生。有两个办法可以让搜索引擎抓取到:在一个静态页面(如网站地图)建立一个链接指向该动态页面,或者修改这个动态页面的URL为静态的HTML文件,使URL中不再包含符号?、=、&、%、+和$等符号。

工具推荐(没用过,自己试):动静态网页转换器 V1.1

7、框架策略:
如果网站一定要用到框架,则应正确使用Noframe标签,在<Noframe></Noframe>区域中包含指向frame页的链接或带有关键词的描述文本,同时在框架以外的区域也出现关键词文本。

8、图片策略:
在图片的代码中运用Alt属性标签进行说明,含关键词,同时在图片旁边也加上含关键词的文本注释。避免纯图象网页(Splash),如一些企业网站首页形象页面。Flash更要少用,搜索引擎跟踪其内嵌链接的兴趣不大。

举例:本网的《Email营销》banner广告:
<img src="/service/member/ad/2003625180844.gif" width="750' height="100" border=0 alt="《Email营销》(冯英健 著)">

包括图像在内的一页网页字节数最好不要超过50K

9、网站地图策略:
基于文本的网站地图内含网站所有栏目、子栏目。网站地图的三大因素:文本、链接、关键词,都极其有利于搜索引擎抓取主要页面内容。因此,动态生成目录网站尤其需要创建网站地图。网页栏目若有所更新需要及时在网站地图上体现出来。

举例:微软网站的 Site Map

10、title和meta标签策略:
搜索引擎优化基本功:title标题内容将以链接标题的形式显示于搜索结果页面。标题一般是网站名称+简短描述,含核心丶剩纾?lt;title>时代营销,网络营销专业门户</title>,就好过单纯的<title>时代营销</title>。

meta中的关键词(keywords)和描述(description):确定几个核心关键词及组合,关键词以3-5个为宜,最好不要超过15个,以避免堆砌之嫌。描述是网站的简短说明,含有关键词。

如果每个主要页面的内容相差很大,则应根据网页内容不同而改变title和meta标签,不要全部网页都采用首页的标题和标签。

网页文本内容需出现该页关键词,关键词密度在3%-7%之间。太多有堆砌之嫌。

搜索结果页面在链接标题之后显示的描述文字一般是搜索引擎在本页正文中最先抓取到的含有关键词的那段文本。据说通常在网页左上角方向出现这段文字最有利。

11、链接策略:
尽可能多地让其他跟你主题相关的网站链接你,目前已成为在搜索引擎排名成功的关键性因素。有了这些网站链接你,即使不向搜索引擎提交网站,搜索引擎也自然找到你并给予好的排名。

另一方面,如果网站提供与主题相关的导出链接,被搜索引擎认为有丰富的与主题相关的内容,也有利于排名(这一点值得转摘高手们反思)。

12、网站流量:
Google在跟踪每个搜索结果的点击情况。有专家以此推测,点击量越大的结果,越被搜索引擎认为“相关性”高,从而给予好的排名。

13、避免惩罚:
搜索引擎对于蒙蔽它的手段识别越来越精,以下常用作弊方法很容易收到惩罚,拒绝收录:

隐藏文本,或无意间将文本文字设为背景色;
关键词堆砌;
主动链接到link farm网站(大量网站交叉链接而构成的网络系统);
……

- 作者: google 2005年07月16日, 星期六 02:07  回复(0) |  引用(0) 加入博采