A. 有哪些比较好的中文分词方案
1. 好词典很重要m不论什么样的分词方法, 优秀的词典必不可少, 越拿老掉牙的词典对越新的文本进行分词, 就越会分成一团糟. 怎样构建一个优秀的词典, 快速发现新新词汇.。可以看有几篇文章,讲的非常透彻明白 : 互联网时代的社会语言学:基于SNS的文本数据挖掘。
2. 算法跟着需求走,建议根据不同的需求选用不同的算法, 例如, 类似知乎头部搜索的 AutoComplete 部分, 讲究的是速度快, 兴趣相关( 优先找和你账户相关, 和可能感兴趣的内容 ), 分词算法反而在其次了. 而像全文搜索这样大段大段的长文字.。我觉得则更注重的是精准, 应该选一个像CRF这样的算法。