① 目前常用的自然語言處理開源項目/開發包有哪些
中文主要有:NLTK,HanLP,Ansj,THULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATE,SnowNLP,東北大學NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型與演算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。開發語言:Java,網址:hankcs/HanLP,開發機構:大快公司,協議:Apache-2.0功能:非常多,主要有中文分詞,詞性標注,命名實體識別,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具。
② python多線程並發訪問多個URi
我想問問看你說的」訪問一個站點「是什麼意思,是下載一個文件嗎?還是需要submit一些表單上去還是其他什麼訪問法?還有多線程是用來干什麼的?是多個線程同時下載一個文件讓這個文件可以下載得更快嗎?還是其他什麼目的?
本身python訪問web就很簡單,urllib的幾個函數一調用就好了,不過不清楚你想要做什麼,所以我感覺不知道怎麼回答你。
③ 現在自然語言處理(NLP)很火,對於NLP的學習有什麼建議
自然語言處理是研究如何讓計算機處理、理解及運用人類語言(中文、英文等),實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言理解的本質是結構預測。自然語言處理屬於人工智慧的一個重要分支,是計算機科學、語言學、統計學和數學的交叉學科。
搜索引擎、個人助理、機器翻譯、機器閱讀、智能問答、聊天機器人、知識圖譜、語義搜索、機器閱讀、輿情監控與分析、推薦系統、文本關鍵詞抽取、文本自動摘要這些都需要自然語言處理技術。
反正就是現在NLP特別火,對於學習建議,首先需要學一下ML(機器學習)、DL(深度學習)、RL(強化學習);可以去研究一兩個優秀開源項目,這些開源項目可以去github上找,GitHub上面牛人很多,有很多很好的開源項目。比如:
考慮字的詞表示學習演算法
GitHub - Leonard-Xu/CWE
網路表示學習
文本增強的網路表示學習演算法
GitHub - albertyang33/TADW: code for IJCAI2015 paper"Network Representation Learning with Rich Text Information"
跨語言詞表示學習演算法
Learning Cross-lingual Word Embeddings via MatrixCo-factorization
主題增強的詞表示學習演算法
GitHub - largelymfs/topical_word_embeddings: A demo code fortopical word embedding
可解釋的詞表示學習演算法
GitHub - SkTim/OIWE: Online Interpretable Word Embeddings
國內一個NLP工具:哈工大LTP:http://ir.hit.e.cn/
建議去研讀一些最新的經典的論文比如ACL、EMNLP、COLING、CCL等,
推薦幾本書關於學習自然語言處理的,首先是李航老師的《統計學方法》,還有《機器學習實戰》、《Python自然語言處理》