申请中介 论坛交易火爆,每月中介交易上千笔,查询最新300笔中介信息便捷 快速 高效 2%中介手续费 100元以下免任何费用 轻松四步中介交易 任务交易排行榜
发新话题
打印

如何防止采集?

如何防止采集?

  很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。
  相同点:
  a. 两者都需要直接抓取到网页源码才能有效工作,
  b. 两者单位时间内会多次大量抓取被访问的网站内容;
  c. 宏观上来讲两者IP都会变动;
  d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。
  不同点:
  搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过 html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。
  然后再来提出一些防采集方法
  1、限制IP地址单位时间的访问次数
  分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
  弊端:一刀切,这同样会阻止搜索引擎对网站的收录
  适用网站:不太依靠搜索引擎的网站
  采集器会怎么做:减少单位时间的访问次数,减低采集效率
  2、屏蔽ip
  分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
  弊端:似乎没什么弊端,就是站长忙了点
  适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
  采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。
  3、利用js加密网页内容
  Note:这个方法我没接触过,只是从别处看来
  分析:不用分析了,搜索引擎爬虫和采集器通杀
  适用网站:极度讨厌搜索引擎和采集器的网站
  采集器会这么做:你那么牛,都豁出去了,他就不来采你了
  4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
  分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
  适用网站:所有网站
  采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。
  5、用户登录才能访问网站内容
  分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
  适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
  采集器会怎么做:制作拟用户登录提交表单行为的模块
  6、利用脚本语言做分页(隐藏分页)
  分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
  适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
  采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。
  7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER") )
  分析:asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
  适用网站:不太考虑搜索引擎收录的网站
  采集器会怎么做:伪装HTTP_REFERER嘛,不难。
  8、全flash、图片或者pdf来呈现网站内容
  分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
  适用网站:媒体设计类并且不在意搜索引擎收录的网站
  采集器会怎么做:不采了,走人
  9、网站随机采用不同模版
  分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
  适用网站:动态网站,并且不考虑用户体验。
  采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。
  10、采用动态不规则的html标签
  分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果次页面的html标签内空格数随机,那么
  采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
  适合网站:所有动态且不想遵守网页设计规范的网站。
  采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。
  总结:
  一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。
相关主题

本人优点多如涛涛江水连绵不绝,又如黄河泛滥一发而不可收拾!支付宝交易虚拟物品不安全。为避免受骗上当,请通过人工中介。

TOP

随州之窗 综合门户网  PR3    交换链接        http://www.0722cn.com   
网站名称:随州之窗
地址:http://www.0722cn.com   
百度,google收录正常
欢迎各大小网站来交换链接
申请地址:http://www.0722cn.com/link      

如果你站没有PR。我们可以做在合作伙伴里面,哪果有PR我们可以做在首页。

随州之窗-随州最大综门户网站 http://www.0722cn.com

TOP

www.pr888.com PR站长论坛
支持一下,写的不错,

TOP

顶顶 学习

TOP

晕.在内容页里加个${变量就行了}

TOP

很好很强大!

TOP

http://www.0722cn.com  我建议首页如果换大气一点,即每个方框之前稍微宽一点,文字字体样式稍改一下,那就会更好。
www.jxwj.cn这个网站如何?

TOP

道高一尺,魔高一丈.
如果我们考虑采用不规则字母为ID索引
而不是数字的1,2,3,4,5来区别每个文章,又没有站点地图,只能是搜索出来,而且没有全部搜索
是否可行?
不过同时也影响了搜索引擎

TOP

理论上来说,能抓到HTML SOURCE就可以抓取,这些防范措施根本没什么意义.

TOP

道高一尺,魔高一丈.

TOP

好啊 不错 学习了

TOP

其轻轻巧巧

TOP

谢谢,顶起

TOP

防不胜防

TOP

好象打仗一样

TOP

不错,学习学习

那很多卖站的不是没饭吃了吗?

TOP

道高一尺,魔高一丈.

TOP

TOP

学习

QQ: 965861902   |   程序开发  |   源码修改 |   Axingweb  |  链接宝 智能友情链接交换系统

TOP

小生先从简单的学起

TOP

新人报道

www.spbug.cn,个人开发博客,探寻网络营销之路

www.spbug.cn个人开发博客,网络营销经历和程序开发心的

TOP

ai a

TOP

理论上来说只要能够浏览就可以被采集

TOP

.

写的可以啊。
我新手不知道怎么做。
psp88.cn

TOP

已阅 。。。

证券直通车www.zqztc.com

TOP

跟我链接吧.

TOP

可以啊,学习啊

★★★★玩转网赚 ★★★★

TOP

也许能行吧 现在高手太多了

TOP

很好很强大!

TOP

学习

TOP

怎么搞?

TOP

www.booktx.com支持顶

TOP

很好~~,顶一个

TOP