lanlantian123

lanlantian123

注册于: 2018-11-07

用户名 :lanlantian123

主题数: 1     回贴数: 0

网站:

介绍:

最后活动于 2018-11-07

boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】


自己用了一下结巴分词,感觉对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很好地分开机构名称。于是转而使用hanlp分词


但是hanlp分词的缺点是只有在java上可以用,但是java一向又是我的弱项。所以在这里写一篇博客从头至尾叙述一下怎么样使用hanlp



登 录


现在注册

QQ  登 录    Weibo  登 录    GitHub  登 录