读者hiisee问
请问如何用PHP脚本在后台获取蜘蛛的详细信息呀?如哪里的蜘蛛/何时来的/搜索了哪几个页面/哪些它喜欢哪些不喜欢等,和判断浏览器是不是用一样的技术?谢谢,再次麻烦您了.
刚好关于流量统计和分析以前还没有谈过,这两天分几个方面专门谈一下。今天先来谈作为SEO,怎样读服务器原始日志文件(server raw logfile)。
网站服务器会把每一个访客来访时的一些信息自动记录下来,存在服务器原始日志文件中。
一般主机提供商会在控制面板提供给你下载这个文件,如果你的主机提供商不提供原始日志文件的话,你就该换地方了。
原始日志文件只是一个纯文字形式的文件,只要用文字编辑软件如WordPad或Notepad打开就可以了。
下面是我从上个月这个blog本身的日志文件中随机选取的一行,我们来看一下它包括哪些信息:
221.201.77.63 – – [02/Jul/2006:15:30:41 +0800] “GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1” 200 19031 “http://www.baidu.com/s?
wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)”
(注:虽然上面是很久以前的日志中的一段,但现在的日志文件所包含的信息格式是一样的,完全没有变化)
用户IP地址
221.201.77.63
这是访问人所使用的IP 地址,能够告诉你来访的人来自什么地理位置。如果你查一下这个IP地址所属位置,可以看到这位访客来自中国北京。
日期/时间
02/Jul/2006:15:30:41
这是某一个文件被访问的时间,和IP地址结合起来,你就可以跟踪某一个特定的用户,从一个网页到另一个网页的访问顺序。
时区
+0800
这个数字是相对格林威治时间的时区差多少,北京处于东8区。
服务器动作
GET /seoblog/2006/04/17/user-friendly-website/ HTTP/1.1
服务器要做的动作要么是GET,要么是POST。除了一些CGI脚本外,通常都应该是GET,也就是从服务器上获取某个网页或图片文件。
例子里的这行意思就是按HTTP/1.1协议(protocol)获取文件/seoblog/2006/04/17/user-friendly-website/
返回状态码
200
下一行是服务器反应是否成功。200就是说成功获取了文件,如果是返回了404,就是文件没有找到。401是需要密码,403禁止查看,500服务器错误,当然还有其他很多服务器状态码。
文件大小
19031
这一行指的是所获取的文件大小,在我们的来自例子里是19031 byte。
访客来源
http://www.baidu.com/s?wd=PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl=3
这一段是告诉我们访客是从哪里来到这一个网页。有可能是同一个网站的其他页,有可能是来自搜索引擎的搜索页,也可能是来自其它网站的链接。
例子里的是来自百度,搜索关键词是”PRADA官方网站”。
这段信息以前是非常重要的,流量分析系统可以从这个信息统计出搜索用户是搜索了什么关键词访问你的网站。可惜的是,现在所有搜索引擎都已经屏蔽了这段关键词信息,我们只能知道流量来自哪个搜索引擎,无法知道是来自什么关键词。
浏览器类型
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)
这最后一段所表示的是浏览器和用户电脑的一些信息。
比如上面这一段所表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。
在这一段如果用户使用的是其他类型电脑或浏览器,或者来访问的是搜索引擎蜘蛛,你还可能看到这些代码:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon; Alexa Toolbar)
http://www.gougou.com RSS Online Reader
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
意义不用解释,一看就知道了。
跟踪用户轨迹
这是很多网站运行者需要研究的地方。
从日志文件中剔除对图片的访问,剔除中间插进来的其他访客的信息,只把来自某一个IP地址的用户在一段时间内所看的网页列出来,我们就能看到这个用户在你的网站上都做了哪些行动,看了哪些网页。
用户行为信息给网站运行者提供很大的帮助。
zac,你怎么把我的个人blog地址给弄错了?
不是你写的http://robinliuchina.spcaes.live.com
因为spcaes拼写有错误,应该是spaces.
正确的地址是:
http://robinliuchina.spaces.live.com
请教一下:服务器动作不是GET而是HEAD,为什么?
GOOGLE的蜘蛛访问我的网页时很多都是HEAD,是不是被惩罚了?
Zac 我想问你一下,我想租新加坡的服务器,价格方面是多少钱一个月?配置还行就可以
[email protected]
这是我电子邮件,,能否给我联系一下,我想租用新加坡的服务器
请问一下:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)中的,sv1是什么意思,谢谢
请问PRADA%B9%D9%B7%BD%CD%F8%D5%BE&cl到PRADA官方网站,你是用什么工具转换的
谢谢!
robin: URL改过来了,忘了是从哪copy的了。
仰慕: HEAD意思是只查head信息,比如查一下文件是否更新过了,而不是整个网页。这本身不是问题,但你可以留意下完整网页被抓取的频率是否降低了,快照日期是否都比较旧等。
bill: sv1应该是浏览器或OS的版本号。
sinkingstar: 不是软件,你把那一段URL copy/paste到浏览器地址栏里就知道了。中文没办法显示在浏览器地址栏,都会变这样。
pineter: 我发了email
你好,我看了这篇文章很有启发,但是还有一些问题搞不明白,比如我的日志中有“”GET / HTTP/1.0″ 200 12957”好像没有找到什么东西?这是什么意思呢?请指点一下阿谢谢!
66.231.188.116 – – [13/Apr/2007:17:21:05 +0800] “GET /robots.txt HTTP/1.0” 404 2278 “-” “Gigabot/2.0 (http://www.gigablast.com/spider.html)”
66.231.189.133 – – [13/Apr/2007:17:21:05 +0800] “GET / HTTP/1.0” 200 12957 “-” “Gigabot/2.0 (http://www.gigablast.com/spider.html)”
207.210.111.184 – – [13/Apr/2007:18:41:01 +0800] “GET / HTTP/1.0” 200 12957 “-” “-”
207.210.111.184 – – [13/Apr/2007:18:41:09 +0800] “GET / HTTP/1.0” 200 12957 “http://www.webconfs.com/search-engine-spider-simulator.php” “Mozilla/4.0 (compatible; MSIE 6.0)”
207.210.111.184 – – [13/Apr/2007:18:41:10 +0800] “GET / HTTP/1.0” 200 12957 “http://www.webconfs.com/search-engine-spider-simulator.php” “Mozilla/4.0 (compatible; MSIE 6.0)”
207.210.111.184 – – [13/Apr/2007:18:44:52 +0800] “GET / HTTP/1.0” 200 12957 “-” “-”
207.210.111.184 – – [13/Apr/2007:18:45:23 +0800] “GET / HTTP/1.0” 200 12957 “-” “-”
212.78.86.78 – – [13/Apr/2007:18:47:13 +0800] “GET / HTTP/1.1” 200 12957 “-” “Googlebot/2.1+(+http://www.googlebot.com/bot.html)”
楼上的,你粘的都是蜘蛛的访问记录啊
这个我还不知道,老大感谢中,原来还有这一招…
很多流量统计都有相关功能的`
楼主强啊。。。这些您也分析得这么好啊。。
从一篇seo圣经的贴子看到分析日志文件很重要的说..俺也去看一下..以前没有注意过..
学习了
太厉害了,我在日志里找到这段,前面到Windows NT5.1看懂了,接下来是什么?
58.61.164.139 – – [30/Mar/2009:01:25:34 +0800] “GET / HTTP/1.1” 200 12420 “http://www.emporioasia.cn/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)” http://www.emporioasia.cn text/html “/usr/home/u65291/htdocs/index.html”
没有看到这么看蜘蛛
请问用什么免费较好的工具能分析网络日志的?
不懂看日志,来学习一下!
在“服务器动作”这节中有拼写错误。
“要么是POSP”应为“要么是POST”