日常在SEO优化中,在查看百度统计数据时,总能有一堆无效、垃圾的关键词记录在表中,让技术分析后,可以坚信网站建设中没有被黑,没有被挂马,没有被植入,那这些关键词都是从哪里来的呢。
操作原理也很简单,先写一个机器爬虫,爬取页面内容,找到你的网站,源代码寻找「hm.baidu.com/hm.js」如果找到了就说明网站建设初期使用了百度统计,然后再取后面的参数,就得到了站点的百度统计ID,然后保存到数据库,拿到网站的百度统计ID以后,就可以进行下一步,使用程序批量的给百度统计接口发送数据,也就是说这些内容他们根本不是真的去你的网站,而是直接给百度统计的接口提交了数据,这样,就模拟用户关键词访问,把一条条垃圾关键词,写入你的统计报表里。
既然我们已经知道原理,那就有方法去处理这个问题。 虽然不能彻底杜绝刷百度统计代码的行为,但能有效遏制这种垃圾操作数据统计。
首先,你的旧的统计代码ID已经被他们获取到了,保存到了他们的数据库,所以建议旧的代码就放弃吧,去百度统计删除掉,再新增网站,你会获得一个新的统计代码。
然后,为了让他们的爬虫程序识别不到百度统计代码,我们需要将百度统计的URL地址做一个变换,我的方式是将原有的百度统计URL地址打散成一个一个的字符串数组,然后再拼装起来,实例如下:
百度统计给我们的代码:
var _hmt = _hmt || [];
(function() {
var hm = document.createElement("script");
hm.src = "https://hm.baidu.com/hm.js?ee1f1987ccfc332s9bcd61a1d220f5ae41e1";
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
})();
将百度统计的特征,也就是地址打散成数组,再组装使用:
var _hmt = _hmt || [];
(function() {
var hm = document.createElement("script");
var analytics_bd = 'ee1f1987ccfc332s9bcd61a1d220f5ae41e1';
hm.src = ['ht', 't', 'ps', ':/', '/h', 'm', '.', 'ba', 'i', 'd', 'u.c', 'o', 'm/', 'h', 'm', '.j', 's?', analytics_bd].join('');
var s = document.getElementsByTagName("script")[0];
s.parentNode.insertBefore(hm, s);
}
)();
需要改动的就只有一行,注意「hm.src = "https://hm.baidu.com/hm.js?ee1f1987ccfc332s9bcd61a1d220f5ae41e1";」这行代码,被拆散为数组,然后再拼装起来使用。这样他们的爬虫程序就无法识别到你在使用百度统计了。
上一篇新闻:提高网站权重的几大的技巧
下一篇新闻:网站优化中如何让网站单页面的权重提高
专属营销顾问为您提供免费方案及报价!