有没有比较好的防止采集的思路或代码

有没有比较好的防止采集的思路或代码

By ivanilla at 2016-05-17
0人收藏 • 4932人看过

我的CMS打算加入此功能,在尽量不影响收录的前提下,提高采集的难度,因为无法完全防止。

@lincanbin 

20 个回复 | 最后更新于 2016-05-26
lincanbin
2016-05-17
#1

  1. GUID主键

  2. 单IP读取频率限制

  3. 代码中间加入辣鸡字符,以CSS样式控制为不显示

ivanilla
2016-05-17
#2

回复#1 @lincanbin :

第三个方法会不会影响到搜索引擎显示网站内容?

lincanbin
2016-05-17
#3

回复#2 @ivanilla :

当然会。

lincanbin
2016-05-17
#4

回复#2 @ivanilla :

我只能说,只要搜索引擎的蜘蛛能抓取,也就能采集。

ivanilla
2016-05-17
#5

回复#4 @lincanbin :

这我知道,我要防止的是那些垃圾站的站长进行采集。

lincanbin
2016-05-17
#6

回复#5 @ivanilla :

那你用GUID主键就差不多了吧。

ivanilla
2016-05-17
#7

回复#6 @lincanbin :

具体怎样弄?(Google搜这些一般都是数据库方面的)

lincanbin
2016-05-17
#8

回复#7 @ivanilla :

对啊,主要不要用AI就差不多了,强度很低,防一般小白采集站够了。

ivanilla
2016-05-17
#9

回复#8 @lincanbin :

我再去研究下。

ivanilla
2016-05-17
#10

回复#8 @lincanbin :

我明白你的意思了:

现有的采集程序一般是按顺序抓取目标网站的内容,然后提取出正文信息。

如果网站的文章或者其他内容是有规律的(比如1、2、3…….html,DZ论坛固定的伪静态URL),又或者是WP那种固定链接格式(如按照日期、文章标题等)都可以通过采集程序去匹配抓取,如果是用GUID这种随机且唯一的链接形式就可以防止这种抓取方法。

不过我不清楚这样会不会对SEO有一定的影响。

另外我打算加入UA白名单,只允许浏览器和搜索引擎的UA,其他的UA全部403,这样可以防止那些不能改UA的抓站工具、恶意爬虫/蜘蛛、漏洞扫描工具等来采集信息。

lincanbin
2016-05-17
#11

回复#10 @ivanilla :

GUID主键,对于提高性能也有帮助。

達也
2016-05-18
#12

現在市面上採集通常不是依序採集,而是抓取目錄。

基本上只要能顯示出來,都"有可能"能被採集,只是難度差異而已。

當文章很多時,限制單IP讀取頻率是最有效的解決方式。


至於UA限制,我覺得沒多大作用。

達也
2016-05-18
#13

限制IP讀取限制,文字全部生成圖檔,圖片防盜鏈,限制註冊會員觀看,偽靜態中文url


全部弄一弄應該也沒人想寫規則採集了....。

ivanilla
2016-05-18
#14

回复#13 @達也 :

文字全部转图片对搜索引擎和使用屏幕阅读器的视力障碍用户都不友好。

所以PASS。

ivanilla
2016-05-18
#15

回复#12 @達也 :

UA限制是有用的,某些采集程序,比如DEDECMS等是空UA,如果站长不修改代码肯定会被挡住。

有些SQL注入工具也是空UA。

小虫哥哥
2016-05-19
#16

GUID主键对防止采集来说也没多大用途


我采集都是先采集列表,获取文章ID(GUID),队列之,再从里面取ID(GUID)来采集正文


采集是封不住的,不必要在上面下功夫。。。

ivanilla
2016-05-19
#17

回复#16 @小虫哥哥 :

我知道不能完全防止,但是我要尽可能加大采集的成本和难度,让那些垃圾站知难而退。

UA白名单+单IP频率限制已经可以在某种程度上防止采集了,至少效率会降低。

ivanilla
2016-05-19
#18

回复#16 @小虫哥哥 :

不管怎么说,那些原创站和比较大的论坛一般都是反感采集的,因为这跟偷盗没有区别,很可能是侵权的,而且采集对目标站点服务器会造成一定的负担。

uunvnet
2016-05-25
#19

可以参考https://www.uunv.net/archives/344.html

目前简单防范还是可以的~


登 录


现在注册

QQ  登 录    Weibo  登 录    GitHub  登 录