“发帖时自动获取话题建议”功能的拓展数据表 Page2

36 个回复 | 最后更新于 2017-12-08
李振冬
2015-09-24
#20

试一下引用功能

#11 @lincanbin :

回复#10 @hlbj105 :其实根本不必解压……

PHPMyAdmin是支持gzip压缩过的sql文件的,只有使用其他不支持gzip压缩过的sql文件的数据库管理面板时才需要解压。

doraemon
2015-10-19
#21

SQL上传最大限制2,047 MB 怎么破?


上传老提示超时。。。。



lincanbin
2015-10-19
#22

回复#21 @doraemon :

ftp上传后用ssh执行。

ivanilla
2016-04-22
#23

虽然我不想挖坟但是我还是想说一下:

  1. 里面的词语有一些是作死的(以政治类居多)

  2. (公元)XXX年,这些没有必要作为话题

  3. 单字的话题关键词大多数没有必要,除非是专有名词(比如化学元素名)

我已经在缩减文件了,因为我自己的网站跟自然科学有关,所以我只保留了自然科学方面的词汇,需要几天时间整理,有人需要的话我可以放上来。

lincanbin
2016-04-22
#24

回复#23 @ivanilla :

我是直接写爬虫从维基百科拉的,没做处理。

我记得有个坛友写了个从知乎抓取话题并存进数据库的程序。

lincanbin
2016-04-22
#25

回复#23 @ivanilla :

https://www.94cb.com/t/2919

这个

ivanilla
2016-04-22
#26

回复#24 @lincanbin :

原始数据不适合直接用

lincanbin
2016-04-22
#27

回复 #26 @ivanilla :

几百万的数据也不方便处理。

ivanilla
2016-04-23
#28

回复#27 @lincanbin :

我在人工处理,也只需几天时间

lincanbin
2016-04-23
#29

回复#28 @ivanilla :

惊,你效率这么高,好几百万个词呢。

ivanilla
2016-04-23
#30

回复#29 @lincanbin :

一行一个词语,不需要的几行直接删掉,不是很麻烦,就是费时间。我已经用正则删除了SQL语句。

而且可以几个人一起弄嘛。

ivanilla
2016-04-23
#31

回复#29 @lincanbin :

做好之后用几行php代码插入数据库完事。

lincanbin
2016-04-23
#32

回复#31 @ivanilla :

正则的话,也只能删一些带特殊符号的,但是其实关系不大,这些不影响使用。

回头我优化下词库。

ivanilla
2016-04-23
#33

回复#32 @lincanbin :

正则是删除SQL语句,词汇匹配不到的。

lincanbin
2016-04-23
#34

回复#33 @ivanilla :

当然。

theask
2017-12-08
#35


theask
2017-12-08
#36


登 录


现在注册

QQ  登 录    Weibo  登 录    GitHub  登 录