蓝派网(www.lan27.com)-精选网络资源,分享和交流! 文章首页站内搜索在线手册广告代码酷站欣赏万年历
您现在的位置: 蓝派网 >> 文章中心 >> seo专区 >> 搜索技巧 >> 正文

SQL Server做log日志分析实例

作者:佚名    文章来源:网络    更新时间:2012-4-28 13:04:00

对于数据分析来说通常可以借助第三方软件来实现,比较好的免费软件我们熟知的WA(google analytics) 、Awstats等等,这些免费的软件都可以支持一个网站日常的基础数据,例如日UV PV 频道转化 跳出率 来源等, 但如果更详细的数据就有些力不从心了,如来源的详细入口实例、用户访问行为的分析、爬虫日志的分析。

对SEO而言,看数据是一件非常重要的事情。 你的每一个优化方向和切入点如何找到? 网站现状如何? 还有哪些提升空间? 这一切都要来源于数据。

上面所说的免费第三方在某些方面是可以满足基本需求的,但到了一定阶段这些数据的更深层次的挖掘和解读就显的捉襟见肘;因此,我们需要更加详细的数据,其实这一点也不难,更原始的数据恰恰就是能够拓展你的想象空间的东西。

服务器上的日志就是这样的东西,这就会涉及到如何拿到和如何利用的问题。

如何拿到?这要看你所在的机构,但至少我们知道它在服务器端,所以我们要找到管理服务器的管理员(SA – system admin)。
其实这里面还隐藏着一个问题如何拿? 通常服务器上日志会非常大(按天计算)即使你可以获取到但放在那里也是问题,所以我的建议:
如果网站访问量不大每天的日志在100M级别的可以下载到本地硬盘上
如果网站访问量蛮大的那只能部署在服务器端(平台型网站)

前一篇日志分析方法中介绍了常用的日志分析工具,下面的实例是通过SQL server在处理日志数据。

SQL server log analytics

具体搭建的方法根据平台会有所不同,我们这里只说从几个维度来分拆数据供分析使用。

因为日志会记录全部的访问数据并且视图化也是分析必备的,所以在设计维度和展现时兼顾图表结合。
访问量图表’ ‘服务器平均耗时’ ‘日志明细报表
a.访问量图表 — 访问量数据在网站统计工具中有详细的记录,但它与日志数据在统计方法上的差别会表现出数据不一致,这里的访问量图表主要是为了配合分析使用,任何一个统计工具都有不完美的地方做到精准是比较难的,所以看数据要先学会看趋势。
b.服务器平均耗时 — 这里的数据价值在于我们可以看到访问时的服务器耗时状态以及爬虫在爬取网站时的服务器耗时情况。
c.日志明细报表 — 这里是SEO的重头戏,日志明细可以弥补图表的不足,渗入做网站不同产品线做分析。


分开展现每个部分的详细功能。‘日志明细报表’ 如图所示

对于服务器集群来说和不同的二级域名网站,因为数据的部署分布所以需要两个表格维度“站点”和“服务器”

规则(rule): 收录(爬虫)、流量、关键词、请求状态(SEO关注的常见状态值)

查询条件:起止时间 和 按天/按小时/按分钟

收录 — 爬虫每天/小时对网站页面的抓取情况
流量 — 这里是搜素引擎来源的访问数
关键词 — 搜索引擎来源的入口关键词
请求状态 — 关注爬虫和流量中发生的 400 500系列的状态值以及有发生301重定向的情况

日志详细报表

报表的维度拆分:时间、数据、计数、服务器平均耗时

时间 — 日志发生的日期,我们通常会观察一段时间内的变化
数据 — 按照所观察的不同频道拆分
计数 — 爬虫的访问数
服务器平均耗时 — 爬虫访问在服务器上的平均耗时(ms)

具体分析方法静待后续,下面在看一下最后一块图表。

日志图表

这里比较简单,它可以帮助你以可视图的方式来查看整体的表现。

分析思路:在趋势中发现问题,在详细报表中分析问题产生的原因。


发表评论】【打印此文】【关闭窗口】【点击数:
★好玩的休闲小游戏★