网站首页
Google专题
百度优化
网站建设
网站优化
Google优化
联系我们
 
 
 
低调做人,高调做事
网站优化往往会陷入一些误区
最新报告称09年百度搜索请求量市
谷歌中国命运将取决于工信部3月份
评论称谷歌退出中国 腾讯或沾光
谷歌中国业务何去何从,仍存悬疑。
谷歌退出对中国互联网不会造成冲击
谷歌事件再起风波 传退出中国已有
 
 
如何选择好网站优化的关键词的重要
最新网站优化现状之小见(一)
最新网站优化现状之小见(二)
网站seo新思路
网站seo新思路(二)
设计网站地图的五大技巧
博客网站优化技巧
增加网站外链的一百个方法
 
 
 
   
 
网站优化:google优化|知识编
发表时间:2007-9-29

森锐策划|网站优化|google优化|搜索引擎优化|网站建设:

静态链接:Blog网站另外一个优势在于其网页是静态链接:动态网页占到整个互联网内容的90%以上。各个搜索引擎其实能够表现的都只不过是互联网的冰山一角(3-5%),不同的只是谁让优质网页排名靠前的策略更优秀而已:大部分搜索引擎都认为静态链接的网页是优质网页,Google在优先抓取索引的网页中70%以上是不带参数链接的静态网页。而且即使同样的内容,静态网页也会比动态网页权重高:很容易理解:query?a=1&b=2这样的链接由于参数顺序颠倒的query?b=2&a=1完全相同。尽量使用静态网页:目前能够动态网页进行全面的索引还比较难,而即使是Google也更不会索引所有的内容,因此很少会对参数超过2个的动态网页进行进一步的抓取和分析。以下是一个phpBB论坛页面返回的HTTP头信息:

HTTP/1.1 200 OK
Date: Wed, 28 Jan 2004 12:58:54 GMT
Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4
X-Powered-By: PHP/4.3.4
Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/;
Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/;
Content-Encoding: gzip
Cache-Control: private, pre-check=0, post-check=0, max-age=0
Expires: 0
Pragma: no-cache
Connection: close
Content-Type: text/html

为了避免隐私问题:Googlebot可以通过对页面http header中的session id和session cookie进行一些甄别,这样很多需要认证信息的论坛内容就无法进入索引了。
总体上说Google喜欢新的,静态的内容。因此无论从效率上讲还是方便搜索引擎收录:使用内容发布系统将网站内容发布成静态网页都是非常必要的,从某种程度上说google friendly = anonymous cache friendly。
比如:http://www.chedong.com/phpMan.php/man/intro/3
比http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3这样的链接更容易进入搜索引擎的索引。而且在URL中的命中也能突出关键词。

  1. 能够进入Google索引的页面数量越多越好。用类似以下的脚本可以统计自己的网站被搜索引擎索引的情况。
    #!/bin/sh
    YESTERDAY=`date -d yesterday +%Y%m%d`
    # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d`
    LOG_FILE='/home/apache/logs/access_log'
    grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt
    grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt
    grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt
    grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt
    grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt
        
  2. 网站目录结构要扁平,因为每深一级目录,PAGERANK降低1-2个档次。假设首页是3,其子可能目录就是1了,更深可能就无法列入评级范围了。
  3. 表现和内容的分离:“绿色”网页
    网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。总之,应该鼓励遵循w3c的规范,使用更规范的XHTML和XML作为显示格式便于内容更长时间的保存。
  4. 让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。
  5. 保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。
  6. 保持网页内容/链接的稳定性和持久性:在搜索引擎索引中网页存在的历史也是一个比较重要的因素,而且历史比较久的网页被链接的几率越高。为了保证自己网页能够被比较持久的被其他网站的页面引用,如果自己网页中有链接更新时,最好能保留旧的页面并做好链接转向,以保持内容的连续性。要知道,把一个网站和内容在搜索引擎中的排名“培养”的很高是一件非常不容易的事情,谁都不希望好不容易自己的内容被别人找到了,点击却是“404 页面不存在”吧,因此站点管理员对自身站点error.log的分析也是非常必要的。
  7. 文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,由于这种文档的内容比一般的HTML经过了更多的整理,学术价值一般比较高,所以这些类型的文档天生就比一般的HTML类型的文档 PageRank要高。因此,对于比较重要的文档:技术白皮书,FAQ,安装文档等建议使用PDF PS等高级格式存取,这样在搜索结果中也能获得比较靠前的位置。
  8. 常常能发现门户站点的一条新闻往往比其他站点的首页排名还要靠前。因此一个站点总体PageRank提高了以后,往往自身一些并不重要的内容也会被同那些高PageRank的内容一起带入被搜索引擎优先查询的列表中。这样经常造成很多大的开发站点的邮件列表归档往往比其他站点的首页PageRank还要高。

知己知彼——站点访问统计/日志分析挖掘的重要性

网站设计不仅仅只是被动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。目前,来自搜索引擎关键词统计几乎是各种WEB日志分析工具的标准功能,相信商业日志统计工具在这方面应该会有更强化的实现。WEB日志统计这个功能如此重要,以至于新的RedHat 8中已经将日志分析工具webalizer作为标准的服务器配置应用之一。

以Apache/webalizer为例,具体的做法如下:
  1. 记录访问来源:
    在Apache配置文件中设置日志格式为combined格式,这样的日志中会包含扩展信息:其中有一个字段就是相应访问的转向来源: HTTP_REFERER,如果用户是从某个搜索引擎的搜索结果中找到了你的网页并点击过来,日志中记录的HTTP_REFERER就是用户在搜索引擎结果页面的URL,这个URL中包含了用户查询的关键词。
  2. 在webalizer中缺省配置针对搜索引擎的统计:如何提取HTTP_REFERER中的关键词
    webalizer中缺省有针对yahoo, google等国际流行搜索引擎的查询格式:这里我增加了针对国内门户站点的搜索引擎参数设置
    SearchEngine yahoo.com p=
    SearchEngine altavista.com q=
    SearchEngine google.com q=
    SearchEngine    sina.com.cn word=
    SearchEngine    baidu.com   word=
    SearchEngine    sohu.com    word=
    SearchEngine    163.com q=

通过这样设置webalizer统计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来,比如:所有来自 google.com链接中,参数q的值都将被作为关键词统计下来:,从汇总统计结果中,就可以发现用户是根据什么关键词找到你的次数,以及找到你的用户最感兴趣的是那些关键词等,进一步的,在webalizer中有设置还可以将统计结果倒出成CSV格式的日志,便于以后导入数据库进行历史统计,做更深层次的数据挖掘等。

以前通过WEB日志的用户分析主要是简单的基于日志中的访问时间/IP地址来源等,很明显,基于搜索引擎关键词的统计能得到的分析结果更丰富、更直观。因此,搜索引擎服务的潜在商业价值几乎是不言而喻的,也许这也是Yahoo! Altavista等传统搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因,看看Google的年度关键词统计就知道了,在互联网上有谁比搜索引擎更了解用户对什么更感兴趣呢?

请看本站的反相链接统计:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google针对Windows 2000中的IE使用的是UTF-8方式的编码,因此很多统计有时候需要在UTF-8方式下查看才是正确字符显示。从统计中能够感受到:在使用水平比较高的IT开发人员中Google已经成为最常用的搜索引擎。而使用百度的用户也已经大大超过了传统的搜狐,新浪等门户站点,因此传统门户网站在搜索引擎上的优势将是非常脆弱的。而从技术的发展趋势来看,以后还会有更多的利用互联网媒体做更深层次数据挖掘的服务模式出现:

转载自cnblog.org——“突发”文字可能揭示社会趋势

在“新科学家”(New Scientist)在线杂志上,公布了康奈尔大学的一个新研究成果,引人注目,也许与Google 收购Pyra 的动机有关。

这所大学的计算机科学家 Jon Klenberg 开发了一个计算机算法,能够识别一篇文章中某些文字的“突发”增长,而且他发现,这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。过去很多搜索技术都采用了简单计算文字/词组出现频率的方法,却忽略了文字使用增加的速率。

Jon 特别指出,这种方法可以应用到大量Weblog上,以跟踪社会趋势,这对商业应用也很有潜力。例如,广告商可以从成千上万的个人Blog 中快速找到潜在的需求风尚。而且只要Blog 覆盖话题范围足够大(实际上发展趋势确实如此),这项技术对政治、社会、文化和经济等领域也都会有实际意义了。

虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。

搜索引擎的宗旨在于提取互联网中质量最好的内容提供给用户,任何有利于帮助用户获得相对公正,优质内容的策略都是搜索引擎追求目标。PageRank是一个非常好的策略,但是并非所有策略都是基于非常复杂的算法。
从搜索引擎看来什么是互联网中“好”的内容呢?

  • 首先:互联网大约是8G个网页,而且以每天2M的速度增长的。其中80%以上是动态网页,而占总量20%的静态网页就是一个相对比较简单的过滤规则。
  • 其次:用户友好(User friendly)也是很重要的方面,搜索引擎利用算法帮助提升这些优质网站,包括:通过CSS将内容和表现分离:较少的javascript和frame结构,spider本身也很难深入抓取这些网页:Javascript和frame结构大部分是广告。
  • 标题明确:无标题,重复标题或者标题SPAM(类似于:游戏游戏游戏游戏游戏游戏这样的标题)进行过滤或降低得分页面大小:因为页面过大会导致用户下载缓慢,所以很多引擎只计算页面大小在100k以内的网页。
  • 链接引用:不仅需要有链接链入,也需要帮助用户找到其他更有价值的内容;
  • 文件类型:PDF和DOC等专业文档和来自edu,gov等非赢利网站的内容;
  • 链入网站的文字:所有用户不可见的因素全部被忽略。此外:用户搜索的行为本身也被Google记录,可能对目标网站的主题相关度有帮助。

参考资料:

面向Google搜索引擎的网站设计优化
http://www.google-search-engine-optimization.com/



信息来源:森锐中国


相关信息

·如何突出关键词|网站优化 (2007-9-29) ·网站优化:链接重要性|google优化 (2007-9-29)
 
 
 
 
Google优化成功案例: [更多合作链接...]

| 关于森锐 | 森锐策划 | 人才招聘 | 网站优化 | 加盟森锐 | 联系我们 | SiteMap.Xml | SiteMap.Html | 上海网站优化

Key:Google优化 门户开发 网站建设 pr值查询
(优化,搜索引擎优化,网站优化,上海网站优化,网站优化方案,海外推广 国际推广 Google国际推广 Google全球优化 Google排名 Google排名优化 Google优化排名 网站优化排名 网站排名优化 SEO优化)
(2003-2008) 高品质Google排名优化成就未来 ◎版权所有:上海森锐信息技术有限公司 技术支持:上海森锐优化 沪ICP备07004076号
总机:021-65427311 Mb:13816545498 13817049648
Msn:js.fang@hotmail.com 地址:上海虹口区凉城路465号302室 上海网站建设

沪ICP备07506830

[ 上海森锐:Google排名技术值得信赖 = >Google优化,网站优化:因为专注,所以专业!]
[ [ 森锐:Google排名:对细节的热爱源于对Google优化技术完美的追求... ]
未经本站允许镜像或盗链网站内容将追究法律责任! 法律顾问:上海律师
]

Link:[百度优化 上海网站建设]::SR提供SEO优化资讯、Google排名教程,网站优化经验交流与资源下载。上海优化公司-专业.诚信.高效.高品质优化公司.首选值得信赖的上海优化公司!上海Google排名-专业从事Google排名优化研究;技术精湛,服务一流!上海搜索引擎优化-行业领先的搜索引擎优化(SEO)服务提供商,总部设在上海,高品质为众多客户提供Google排名、Google优化服务,在许多难词的竞争中频频胜出。 未经本站允许镜像或盗链网站内容将追究法律责任!网站排名优化首选! 法律顾问:上海律师