敏感词过滤系统的过滤规则初稿
敏感词过滤系统的过滤规则初稿
By lincanbin
at 2016-04-25
0人收藏 • 5126人看过
<?php /* 关键词均支持正则表达式,过多的过滤会影响性能 'fuck' => 'f**k', 以上规则表示发表含fuck的内容,会被过滤为f**k '敏感词0|敏感词1|敏感词2' => '***', 以上规则代表过滤以"|"分割的三个敏感词,自动替换为“***” '我们怎么能不支持特首?' => array(false, 0), 以上规则禁止发布含“我们怎么能不支持特首?”的内容 '董先生连任兹瓷不兹瓷' => array(false, 30), 以上规则禁止发布含“董先生连任兹瓷不兹瓷”的内容,并且尝试发表该内容的用户,即使发布已经失败了,但也会被续(jin)掉(yan)30秒生命 '包子' => array('维尼', 30), 以上规则表示发表含'包子'的内容,会被过滤为'维尼',并且在内容发表成功后,需要再等30秒才能发言(禁言) */ return array( 'fuck' => 'f**k', '敏感词0|敏感词1|敏感词2' => '***', '我们怎么能不支持特首?' => array(false, 0), '董先生连任兹瓷不兹瓷' => array(false, 30), '包子' => array('维尼', 30), );
计划支持以上几类过滤规则,支持敏感词的替换、禁止,与用户禁言等功能,同时还要完全支持正则表达式。
当然,要注意:过多、过复杂的正则表达式,会影响性能。
用户可以利用系统提供的过滤特性,自由制定过滤规则。
- 登录后方可回帖
20 个回复 | 最后更新于 2016-04-28
回复#3 @小虫哥哥 :
支持RegEX了,没过滤到只能是自己的规则没写好。
回复#4 @lincanbin :
对于中文,除非封单字,要不然都有其它的千奇百怪的方式来表达的
回复#7 @和坤和大人 :
https://github.com/lincanbin/Carbon-Forum/blob/master/includes/Filtering.words.config.php
直接把规则写在这个文件里。
网页上还是不适合编辑过多的内容。
回复#8 @lincanbin :
还是觉得能直接在后台改比较好,每当发现新的敏感字时,我需要FTP到服务器,找到这个文件,打开编辑保存,如果人在外边没电脑用,网站出现意料之外的敏感字,就显得有些被动了
回复#9 @和坤和大人 :
现在有智能手机啊,智能手机都有FTP……
回复#10 @lincanbin :
还是觉得麻烦,我比较喜欢傻瓜化的便捷操作
回复#11 @和坤和大人 :
编辑文件已经够简单了。
回复#12 @lincanbin :
也许这就是理科和文科思维上的差异了
回复#18 @lincanbin :
覺得可有可無的功能不用花這麼大心力。
貝葉斯方法我沒學過,但用算法處理違禁詞這樣是不是會多一次查詢?