有没有比较好的防止采集的思路或代码
- 登录后方可回帖
回复#1 @lincanbin :
第三个方法会不会影响到搜索引擎显示网站内容?
回复#2 @ivanilla :
当然会。
回复#2 @ivanilla :
我只能说,只要搜索引擎的蜘蛛能抓取,也就能采集。
回复#4 @lincanbin :
这我知道,我要防止的是那些垃圾站的站长进行采集。
回复#5 @ivanilla :
那你用GUID主键就差不多了吧。
回复#6 @lincanbin :
具体怎样弄?(Google搜这些一般都是数据库方面的)
回复#7 @ivanilla :
对啊,主要不要用AI就差不多了,强度很低,防一般小白采集站够了。
回复#8 @lincanbin :
我再去研究下。
回复#8 @lincanbin :
我明白你的意思了:
现有的采集程序一般是按顺序抓取目标网站的内容,然后提取出正文信息。
如果网站的文章或者其他内容是有规律的(比如1、2、3…….html,DZ论坛固定的伪静态URL),又或者是WP那种固定链接格式(如按照日期、文章标题等)都可以通过采集程序去匹配抓取,如果是用GUID这种随机且唯一的链接形式就可以防止这种抓取方法。
不过我不清楚这样会不会对SEO有一定的影响。
另外我打算加入UA白名单,只允许浏览器和搜索引擎的UA,其他的UA全部403,这样可以防止那些不能改UA的抓站工具、恶意爬虫/蜘蛛、漏洞扫描工具等来采集信息。
回复#10 @ivanilla :
GUID主键,对于提高性能也有帮助。
現在市面上採集通常不是依序採集,而是抓取目錄。
基本上只要能顯示出來,都"有可能"能被採集,只是難度差異而已。
當文章很多時,限制單IP讀取頻率是最有效的解決方式。
至於UA限制,我覺得沒多大作用。
GUID主键对防止采集来说也没多大用途
我采集都是先采集列表,获取文章ID(GUID),队列之,再从里面取ID(GUID)来采集正文
采集是封不住的,不必要在上面下功夫。。。
回复#16 @小虫哥哥 :
不管怎么说,那些原创站和比较大的论坛一般都是反感采集的,因为这跟偷盗没有区别,很可能是侵权的,而且采集对目标站点服务器会造成一定的负担。
可以参考https://www.uunv.net/archives/344.html
目前简单防范还是可以的~