A. 有哪些比較好的中文分詞方案
1. 好詞典很重要m不論什麼樣的分詞方法, 優秀的詞典必不可少, 越拿老掉牙的詞典對越新的文本進行分詞, 就越會分成一團糟. 怎樣構建一個優秀的詞典, 快速發現新新詞彙.。可以看有幾篇文章,講的非常透徹明白 : 互聯網時代的社會語言學:基於SNS的文本數據挖掘。
2. 演算法跟著需求走,建議根據不同的需求選用不同的演算法, 例如, 類似知乎頭部搜索的 AutoComplete 部分, 講究的是速度快, 興趣相關( 優先找和你賬戶相關, 和可能感興趣的內容 ), 分詞演算法反而在其次了. 而像全文搜索這樣大段大段的長文字.。我覺得則更注重的是精準, 應該選一個像CRF這樣的演算法。