除了正常用户还有我们熟知的各大平台 “蜘蛛” 会向网站发起数据请求外,一些广告、数据分析类平台,也会放出自己的 “虫子” 在互联网上来回穿行,这类畜生一般都无视搜索引擎的 “交通规则”, 所以会导致我们网站消耗一些没有意义的流量,尤其是建站早期,这类 "虫子" 几乎占据网站请求的绝大部分。
既然是流氓行为,我们就不能坐以待毙,我们可以在服务器直接拒绝这些 “虫子” 的来访。我习惯用 Nginx 作为网站 web 服务器,所以这里我只说 Nginx 的操作方式。
一句话:修改 Nginx 配置文件,判断垃圾 "虫子" 的 UA 并拒绝访问。要添加的配置项如下(这是我搜集的常见垃圾 “虫子”,你可以按格式自行追加)。
if ($http_user_agent ~* (YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MJ12bot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler)){ return 403; }
复制上面的配置代码,添加到你网站对应的 Nginx 配置文件的 Server 段,如果你是不了解技术的站长朋友(废话,会技术的不会看这种文章)且使用的是宝塔面板,可以参考下图。配置成功后垃圾 "虫子" 来访,服务器会拒绝请求,返回 403 状态码(无权访问)。
有站长朋友反馈说,使用 缓存插件 后,缓存文件生成速度快,以至于磁盘消耗较大,也可以通过这个方式进行优化处理。