网站流量都去哪了

网站开启CDN后,在CDN的后台有详细的访问日志。从这些日志中,可以直观的展示网站不同时段的访问情况。

本站之前采用的是读取Nginx日志的方式粗略的分析访问流量,展示很不直观。启用CDN后,在CDN的后台管理界面中,有带宽、流量、请求数、状态码、网络类型、客户端等多维度的分析结果,可以直观的展示网站不同时段的访问情况。

对于网站来说,自然是希望入站的流量越大越好。流量越大,意味着网站提供的内容或服务受众越多,越能体现网站价值。但实际上,仅从流量大小上评价网站好坏是不全面的。一个网站的流量往往来源以下几个方面:

正常用户

这部分流量是我们期望的正常的流量,这些请求的背后都是一个个的真实用户终端。真实用户访问的流量才是有价值的,网站应该努力提升这部分用户的访问体验。

恶意用户

这部分用户往往是和黑灰产有关联的,或仅仅是一个想炫技的黑客,通过暴力破解、SQL注入等攻击手段,试图获取网站的源码、密钥等重要资产。在easeapi的网站后台,几乎每天都会收到高达成百上千次的恶意请求记录。这些请求集中在某些IP,大部分攻击方式都比较低级,或通过访问特定地址的URL获取网站的敏感文件,或试图登陆后台入侵整个系统。从访问频次和行为上看,这部分流量很多都是通过爬虫自动发起的。可以想到,黑灰产使用特制的工具软件,可以对源站进行大规模自动化扫描,网站稍不注意就会留下可乘之机。网上有很多关于Apache/Nginx安全的文章,增强安全配置之后即可防范大部分低级的攻击。现在很多云服务商,也有动态感知的能力,当检测到攻击之后,也会做相应的处置。

网络爬虫

爬虫现在已经是个很宽泛的术语,除了来自搜索引擎的爬虫,还有很多来自各类分析网站、工具软件的访问,只要不是自然人主动发起的,都可以认为是网络爬虫。单从访问频次上来说,网络爬虫的流量要远远多于普通用户的请求量。有报道称,整个互联网的流量中,有超过一半都是来自各种爬虫,可见,爬虫是网站绕不过去的坎。爬虫有利有弊:搜索引擎的爬虫可以增加网站内容在搜索引擎的索引,从而带来搜索流量;RSS的爬虫可以及时让用户获取网站的内容更新;其它很多爬虫对于网站的意义并不是很大,甚至有时候还会给网站带来负担。

爬虫的应用很广泛。一个很显而易见的现象,很多的社交媒体或游戏行业,都存在“僵尸号”的情况,通过软件控制大量的“僵尸号”,营造虚假的繁荣,让真实用户享受其中,也让产品的数据报表更加好看。

作为站长,既要防止恶意用户和爬虫带来的危险,又要保证正常用户和爬虫能有良好的访问体验,这也是运维工作中很重要的内容。我觉得,评价网站的指标要有一个正常用户请求流量的占比,这个比例越高表示网站的其它数据指标越真实。遗憾的是,这个指标从外部获取的难度太大,必须是服务自身才可能粗略的统计出来。

其它文章

优化Nginx配置提升网站性能
inode用尽导致磁盘空间不足
近期服务器的一些改进
阿里云云盘扩容笔记