“发帖时自动获取话题建议”功能的拓展数据表 Page2
- 登录后方可回帖
36 个回复 | 最后更新于 2017-12-08
回复#21 @doraemon :
ftp上传后用ssh执行。
虽然我不想挖坟但是我还是想说一下:
里面的词语有一些是作死的(以政治类居多)
(公元)XXX年,这些没有必要作为话题
单字的话题关键词大多数没有必要,除非是专有名词(比如化学元素名)
我已经在缩减文件了,因为我自己的网站跟自然科学有关,所以我只保留了自然科学方面的词汇,需要几天时间整理,有人需要的话我可以放上来。
回复#24 @lincanbin :
原始数据不适合直接用
回复 #26 @ivanilla :
几百万的数据也不方便处理。
回复#27 @lincanbin :
我在人工处理,也只需几天时间
回复#28 @ivanilla :
惊,你效率这么高,好几百万个词呢。
回复#29 @lincanbin :
做好之后用几行php代码插入数据库完事。
回复#32 @lincanbin :
正则是删除SQL语句,词汇匹配不到的。
回复#33 @ivanilla :
当然。