通过分析网站口志Log文件可以看到用户和搜索引擎的蛛访问网站的行为数据,这4让我们分析出用户和咖蛛对网站的偏好以及网站的健康情况,在网站日志分析中,我们析的是蜘蛛行为在如蛛爬取及收录的过程中,搜索引擎会给特定权重网站分配相应的资源量
友好型的网站应该充分利用这些资源,让如蛛可以迅速、准确、全面地爬取有价值、用户喜欢d容,而不浪费资源在无用的、访问异常的内容上。

在分析日志时,对于单日日志文件,需要外析的内容有访问次数、停留时间、抓取量进行抓取统计、页面抓取统计、蜘蛛访问IP, HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等,对日日志文件,需要分析的内容有蜘蛛访问次数趋势、停留时间趋势、整体抓取趋势、各1承抓势、抓取时间段、蜘蛛活跃周期等。
1,访问次数、停留时间、抓取量从这三项数据中可以得知平均每次抓取页面数、单页抓取停留时间和平均每次停留时间平均每次抓取页面数-总抓取量/访问次数单页抓取停留时间一每次停留时间/每次抓取时间
平均每次停留时间-总停留时间/访问次数
从这些数据可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间取量、平均抓取页面、平均停留时间数值越大,表明网站越受搜索引擎喜欢,而单页抓取停留时d表明网站页面的访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录越不利,应尽量提高网页加载速度,减少单页抓取停留时间,让爬虫资源更多地抓取收录。

另外,根据这些数据可以统计出一段时间内网站的整体趋势表现,如蜘蛛访问次数趋势留时间趋势、抓取趋势
2,目录抓取统计通过日志分析可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况
无效页面目录抓取状况等,通过对比目录下页面的抓取及收录情况可以发现更多问题,对于重要录,需要通过内外调整增加权重及爬取,对于无效页面,在robots.txt中进行屏蔽。
另外,通过多日日志统计可以看到站内外行为给目录带来的效果、优化是否合理,是否达了预期效果,对于同一目录,长期来看,可以看到该目录下页面的表现,根据行为推测表现的刷3,页面抓取
在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面,在这些页面中,我们可以分t旅爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值的页面、爬取了哪些重复页面
本文地址:http://www.haiyang8.cn/wangzhanjianshe//9295.html