统计在线人数...

如何提高网站在Google中的排名

[ 来源:不详 | 作者:车东 | 时间:2003-11-1 下午 10:55:58 | 浏览:统计中... ]

量使用静态网页:目前能够像Google一样对动态网页进行索引的搜索引擎还比较少,而即使是Google也更不会索引所有的内容,总体上说Google喜欢新的,静态的内容。

因此无论从效率上讲还是方便搜索引擎收录,使用内容发布系统将网站内容发布成静态网页都是非常必要的。
比如:http://www.chedong.com/phpMan.php/man/intro/3
比 http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3
更容易进入搜索引擎的索引。而且在URL中的命中有时候比在标题中还能突出关键词。

  • 而且能够进入Google索引的页面数量越多越好。可以用类似以下的脚本统计自己的网站被Google和百度索引的情况。
    #!/bin/sh
    YESTERDAY=`date -d yesterday +%y%m%d`
    LOG_PATH='/home/apache/logs'
    grep -i Googlebot $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.googlebot.txt
    grep -i baiduspider $LOG_PATH/access_log|awk '{print $7}' |sort -u>spider/$YESTERDAY.baiduspider.txt

  • 网站目录结构要扁平,因为每深一级目录,PAGERANK降低一个档次。假设首页是3,其子目录就是2,更深可能就无法列入评级范围了。

  • 表现和内容的分离:“绿色”网页
    网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存。

  • 让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。

  • 保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。

  • 保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排名“培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却是“404 页面不存在”吧,因此站点管理员对自身站点error.log的分析也是非常必要的。

  • 文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。
  • 常常能发现门户站点的一条新闻往往比其他站点的首页排名还要靠前。因此一个站点总体PageRank提高了以后,往往自身一些并不重要的内容也会被同那些高PageRank的内容一起带入被搜索引擎优先查询的列表中。这点有些不是很合理,因为这样经常造成很多大站点的邮件列表归档往往比其他站点的首页PageRank还要高。
  • 知己知彼——站点访问统计/日志分析挖掘的重要性

    网站设计不仅仅只是被动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前,来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能,相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要,以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置应用之一。

    以Apache/webalizer为例,具体的做法如下:
    1. 记录访问来源:
      在Apache配置文件中设置日志格式为combined格式,这样的日志中会包含扩展信息:其中有一个字段就是相应访问的转向来源: HTTP_REFERER,如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来,日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL,这个URL中包含了用户查询的关键词。
    2. 在webalizer中缺省配置针对搜索引擎的统计:如何提取HTTP_REFERER中的关键词
      webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式:这里我增加了针对国内门户站点的搜索引擎参数设置
      SearchEngine yahoo.com p=
      SearchEngine altavista.com q=
      SearchEngine google.com q=
      SearchEngine    sina.com.cn word=
      SearchEngine    baidu.com   word=
      SearchEngine    sohu.com    word=
      SearchEngine    163.com q=

    通过这样设置webalizer统计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来,比如:所有来自 google.com链接中,参数q的值都将被作为关键词统计下来:,从汇总统计结果中,就可以发现用户是根据什么关键词找到你的次数,以及找到你的用户最感兴趣的是那些关键词等,进一步的,在webalizer中有设置还可以将统计结果倒出成CSV格式的日志,便于以后导入数据库进行历史统计,做更深层次的数据挖掘等。

    以前通过WEB日志的用户分析主要是简单的基于日志中的访问时间/IP地址来源等,很明显,基于搜索引擎关键词的统计能得到的分析结果更丰富、更直观。因此,搜索引擎服务的潜在商业价值几乎是不言而喻的,也许这也是Yahoo! Altavista等传统搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因,看看Google的年度关键词统计就知道了,在互联网上有谁比搜索引擎更了解用户对什么更感兴趣呢?

    请看本站的反相链接统计:http://www.chedong.com/log/2003_6.log
    需要注意的是:由于Google针对Windows 2000中的IE使用的是UTF-8方式的编码,因此很多统计有时候需要在UTF-8方式下查看才是正确字符显示。从统计中能够感受到:在使用水平比较高的IT开发人员中Google已经成为最常用的搜索引擎。而使用百度的用户也已经大大超过了传统的搜狐,新浪等门户站点,因此传统门户网站在搜索引擎上的优势将是非常脆弱的。而从技术的发展趋势来看,以后还会有更多的利用互联网媒体做更深层次数据挖掘的服务模式出现:

    转载自cnblog.org——“突发”文字可能揭示社会趋势

    在“新科学家”(New Scientist)在线杂志上,公布了康奈尔大学的一个新研究成果,引人注目,也许与Google 收购Pyra 的动机有关。

    这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。

    Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

    虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。

    - NewScientist.com news, Word

    面向Google搜索引擎的网站设计优化
    http://www.google-search-engine-optimization.com/

    关于Google的十个神话:
    http://www.promotionbase.com/printTemplate.php?aid=971

    如何评价一个网站的人气
    http://www.chedong.com/tech/link_pop_check.html

    如何提高网站在Google中的排名——面向搜索引擎的广告模式
    http://www.chedong.com/tech/google_ads.html

    如何提高网站在Google中的排名——面向搜索引擎的网站链接设计
    http://www.chedong.com/tech/google_url.html

    Measuring Link Popularity
    http://searchenginewatch.com/webmasters/popularity.html

    Google の秘密 - PageRank ?底解?
    http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
    这篇文章是在查"Google PageRank"的时候查到的,这篇文章不仅有一个算法说明,也是一个Google的weblog,记录了很多关于Google的新闻和一些市场动态信息。

    更详细的PageRank算法说明:
    http://pr.efactory.de/

    Google的海量处理机制:鸽子系统
    http://www.google.com/technology/pigeonrank.html

    WEB日值统计工具Webalizer
    http://www.webalizer.org

    Robots的说明:
    http://bar.baidu.com/robots/
    http://www.google.com/bot.html
    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中哪些内容可以被robot访问,哪些不可以。

    反Google站点:观点也很有趣
    http://www.google-watch.org/

    关于Google的WebLog
    http://google.blogspace.com/

    搜索引擎论坛:
    http://searchengineforums.com/

    上一页  [1] [2] 

    共有0人参与评价,平均得分:0分
    评论内容只代表网友观点,与本站立场无关! 查看完整内容
       

    当前在线人数
    QQ:748838 MSN:allen_xia#msn.com E-mail:allenxia666#126.com QQ群:站长联盟北方区-北京(28200145) 站长联盟南方区-上海(67713522)