1. c++: 怎麼過濾掉文本文件中的禁用單詞
用java
api打開文本文件,循環遍歷文件中的內容,遇到停用詞就將它替換成空即可。
停用詞簡介:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop
Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成後的停用詞會形成一個停用詞表。但是,並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
Java簡介:Java是一種可以撰寫跨平台應用程序的面向對象的程序設計語言。Java
技術具有卓越的通用性、高效性、平台移植性和安全性,廣泛應用於PC、數據中心、游戲控制台、科學超級計算機、行動電話和互聯網,同時擁有全球最大的開發者專業社群。
2. Java如何判斷英文停用詞源代碼
importjava.util.*;
puclicclassDemo{
puclicstaticvoidmain(Stringargs[]){
Strings[]={"very","ourselves"};//常用的停用詞有很多,網路可以找到,我不全寫了
Scannerscanner=newScanner(System.in);
System.out.println("請輸入一個單詞:");
Stringworld=scanner.next();
booleankey=false;
for(Stringi:s){//遍歷數組,看輸入單詞是不是停用詞
if(i.equals(world)){
key=true;
}
}
if(key==true){
System.out.println("是停用詞");
}
else{
System.out.println("b不是停用詞");
}
}
}
3. java用bufferedreader如何實現讀到某個關鍵詞停止讀取,並輸出讀取內容
BufferedReader br = ...
這個 br本身一般常用來一行一行的讀取數據。
你可以讀取一行,然後判斷。
String content = br.readLine();
if(content.equals("...")) 或 if(content.indexOf("...")) 判斷關鍵詞
4. 文本分析怎麼導入中文停用詞
用JAVA api打開文本文件,循環遍歷文件中的內容,遇到停用詞就將它替換成空即可。 停用詞簡介:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words
5. ictclas如何去除停用詞 python代碼
以前ictclas014似乎只能在windows下被python調用。我就成功過。 不過到了linux下比較麻煩。java調用是可以的。但是python似乎有些麻煩。不過當時谷哥的code項目里有一個開源版本。 現在不用這么麻煩了。
6. Java怎麼去除文本文件中的停用詞
用JAVA
api打開文本文件,循環遍歷文件中的內容,遇到停用詞就將它替換成空即可。
停用詞簡介:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop
Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成後的停用詞會形成一個停用詞表。但是,並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
Java簡介:Java是一種可以撰寫跨平台應用程序的面向對象的程序設計語言。Java
技術具有卓越的通用性、高效性、平台移植性和安全性,廣泛應用於PC、數據中心、游戲控制台、科學超級計算機、行動電話和互聯網,同時擁有全球最大的開發者專業社群。
7. Java怎麼去除文本文件中的停用詞
用JAVA api打開文本文件,循環遍歷文件中的內容,遇到停用詞就將它替換成空即可。
停用詞簡介:在信息檢索中,為節省存儲空間和提高搜索效率,在處理自然語言數據(或文本)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。這些停用詞都是人工輸入、非自動化生成的,生成後的停用詞會形成一個停用詞表。但是,並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支持短語搜索的。
Java簡介:Java是一種可以撰寫跨平台應用程序的面向對象的程序設計語言。Java 技術具有卓越的通用性、高效性、平台移植性和安全性,廣泛應用於PC、數據中心、游戲控制台、科學超級計算機、行動電話和互聯網,同時擁有全球最大的開發者專業社群。
8. 搜索信息的技巧有哪些
搜索之前先思考
搜索引擎本事再大,也搜索不到網上沒有的內容,而且,有些內容雖然存在網上,卻因為各種原因,而成為漏網之魚。所以在你使用搜索引擎搜索之前,應該先花幾秒種想一下,我要找的東西網上可能有嗎?如果有,可能在哪裡,是什麼樣子的?網頁上會含有哪些關鍵字?
有些東西你根本用不著麻煩搜索引擎的,比如要找個公司的電話,打個114的速度大概比搜索引擎快得多。又有些問題,可能很難用合適的關鍵字描述,或者不能直接用搜索引擎搜到,那你可以嘗試找個精通這個問題的朋友,或者尋找這方面的熱門論壇來問,這也是一種搜索方法。有時,你能選擇的最好搜索方法是放棄網路,跑一趟附近的圖書館,圖書館里有網上找不到的成噸的「信息」。 當你確認你要找的信息適合通過搜索引擎在網上找之後,搜索到滿意結果的概率就大得多了。
各種搜索引擎的特點涇渭分明,如果你沒有為每次搜索分別選擇正確的搜索工具,你將浪費掉大量的時間。這次搜索,你應該使用新浪還是搜狐? Google還是網路? 分析你的需求,比較不同搜索引擎的強項和弱點,然後為這次搜索選擇最適合的搜索工具。
學會使用兩個關鍵詞搜索
如果一個陌生人突然走近你,向你問道:「北京」,你會怎樣回答?大多數人會覺得莫名其妙,然後會再問這個人到底想問「北京」哪方面的事情。同樣,如果你在搜索引擎中輸入一個關鍵詞「北京」,搜索引擎也不知道你要找什麼,它也可能返回很多莫名其妙的結果。因此你要養成使用多個關鍵詞搜索的習慣,當然,大多數情況下使用兩個關鍵詞搜索已經足夠了,關鍵詞與關鍵詞之間以空格隔開。
比如,你想了解北京旅遊方面的信息,就輸入「北京 旅遊」這樣才能獲取與北京旅遊有關的信息;如果想了解北京暫住證方面的信息,可以輸入「北京 暫住證」搜索;如果要下載名叫「xxxx」的MP3,就輸入「xxxx 下載」來搜索。
學會使用減號「-」
「-」的作用是為了去除無關的搜索結果,提高搜索結果相關性。有的時候,你在搜索結果中見到一些想要的結果,但也發現很多不相關的搜索結果,這時你可以找出那些不相關結果的特徵關鍵詞,把它減掉。
比如,你要找「申花」的企業信息,輸入「申花」卻找到一大堆申花隊踢足球的新聞,在發現這些新聞的共同特徵是「足球」後,輸入「申花 -足球」來搜索,就不會再有體育新聞來麻煩你了。
點擊搜索結果前先思考
一次成功的搜索由兩個部分組成:正確的搜索關鍵詞,有用的搜索結果。在你點擊任何一條搜索結果之前,快速地分析一下你的搜索結果的標題、網址、摘要,會有助於你選出更准確的結果,幫你節省大量的時間。當然,到底哪一個是你需要的內容,取決於你在尋找什麼,評估網路內容的質量和權威性是搜索的重要步驟。
一次成功的搜索也經常是由好幾次搜索組成的,如果對自己搜索的內容不熟,即使是搜索專家,也不能保證第一次搜索就能找到想要的內容。搜索專家會先用簡單的關鍵詞測試,他們不會忙著仔細查看各條搜索結果,而是先從搜索結果頁面里尋找更多的信息,再設計一個更好的關鍵詞重新搜索,這樣重復多次以後,就能設計出很棒的搜索關鍵詞,也就能搜索到滿意的搜索結果了。
善於改正錯誤
經常會有這樣的事情發生:你似乎已盡了全力來搜索,但是依然沒有找到需要的答案。這個時候,請不要放棄,認真回顧檢查你的搜索過程,也許只是因為一個小差錯。一個看上去毫無希望的搜索,很有可能在你檢討完自己的搜索策略後獲得成功。
下面描述了初學者搜索時容易犯的5個低級錯誤和解決方法,正是因為你經常犯這些錯誤,所以你總是得到無用的、荒謬的或者完全沒有意義的搜索結果。而一旦你認識到這些錯誤,將很容易把這些小鬼從你的搜索經歷中永遠驅逐出去。
常見錯誤1:錯別字
經常發生的一種錯誤是,你輸入的關鍵詞含有錯別字。筆者所做的統計表明,常有大量的錯誤搜索,光一個謝霆鋒就有「謝霆鋒」、「謝庭鋒」、「謝霆峰」、「謝廷鋒」、「謝庭峰」、「謝廷峰」6種查法,還有什麼「星際爭吧」、「以德制國」之類的,這樣的關鍵詞能搜索到什麼有用資料嗎?所以每當你覺得某種內容網上應該有不少、卻搜索不到結果時,你應該先查一下是否有錯別字。
常見錯誤2:關鍵詞太常見
搜索引擎對常見詞的搜索存在缺陷,因為這些詞曝光率太高了,以至於出現在成百萬網頁中,使得它們事實上不能被用來幫你找到什麼有用的內容。比如,搜索「電話」, 有無數網站提供跟「電話」相關的信息,從網上黃頁到電話零售商到個人電話號碼都有。所以當搜索結果太多太亂的時候,你應該嘗試使用更多的關鍵詞或者減號來搜索,不使用過於通用的詞彙來搜索,設計一個類似「上海 常用電話」這樣特殊的搜索關鍵詞,會給你真正有用的結果。當然,如果你想找的是一串汽車網站或一串MP3網站,那麼用「汽車」、「MP3」搜索就是正確的。
常見錯誤3:多義詞
要小心使用多義詞,比如搜索「Java」,你要找的信息究竟是太平洋上的一個島、一種著名的咖啡、還是一種計算機語言?搜索引擎是不能理解辨別多義詞的。最好的解決辦法是,在搜索之前先問自己這個問題,然後用短語、用多個關鍵詞或者用其他的詞語來代替多義詞作為搜索關鍵詞。比如用「爪哇 印尼」、「爪哇 咖啡」、「Java 語言」分別搜索可以滿足不同的需求。
常見錯誤4:不會輸關鍵詞,想要什麼輸什麼
搜索失敗的另一個常見原因是類似這樣的搜索:「現代愛情故事歌詞」、「信息早報在濟南發行情況」、「鈴羊車的各種圖案」、「上海到成都列車時刻表」。 網友錯把搜索引擎當成是聽話的服務員了,其實搜索引擎是很機械的,當你用關鍵詞搜索的時候,它只會把含有這個關鍵詞的網頁找出來,根本不管網頁上的內容是什麼。
而問題在於,沒有一個網頁上會含有「現代愛情故事歌詞」和「上海到成都列車時刻表」這樣的關鍵詞,所以搜索引擎也找不到這樣的網頁。但是真正含有你想找的內容的網頁,應該含有的關鍵詞是「現代愛情故事」、「歌詞」,「上海」、「成都」、「列車」、「時刻表」,所以你應該這樣搜索:「現代愛情故事 歌詞」、「信息早報 濟南 發行」、「鈴羊車 圖案」「上海 成都 列車 時刻表」。
明白了嗎?不要用你心中想的大白話去搜索,當搜索結果太少甚至沒有的時候,你應該輸入更簡單的關鍵詞來搜索,猜測你找的網頁中可能含有的關鍵詞,然後用那些關鍵詞搜索。
搜索關鍵詞提煉
選擇搜索關鍵詞的原則是,首先確定你所要達到的目標,在腦子里要形成一個比較清晰概念,即我要找的到底是什麼?是資料性的文檔?還是某種產品或服務?然後再分析這些信息都有些什麼共性,以及區別於其他同類信息的特性,最後從這些方向性的概念中提煉出此類信息最具代表性的關鍵詞。如果這一步做好了,往往就能迅速的定位你要找的東西,而且多數時候你根本不需要用到其他更復雜的搜索技巧。
細化搜索條件
你給出的搜索條件越具體,搜索引擎返回的結果也會越精確。比方說你想查找有關電腦冒險游戲方面的資料,輸入game是無濟於事的。computer game范圍就小一些,當然最好是敲入computer adventure game,返回的結果會精確得多。此外一些功能詞彙和太常用的名詞,如對英文中的「and」、「how」、「what」、 「web」、「homepage」和中文中的「的」、「地」、「和」等等搜索引擎是不支持的。這些詞被稱為停用詞(Stop Words)或過濾詞(Filter Words),在搜索時這些詞都將被搜索引擎忽略。
用好搜索邏輯命令
搜索引擎基本上都支持附加邏輯命令查詢,常用的是「+」號和「-」號,或與之相對應的布爾(Boolean)邏輯命令AND、OR和NOT。用好這些命令符號可以大幅提高我們的搜索精度。
精確匹配搜索
除利用前面提到的邏輯命令來縮小查詢范圍外,還可使用""引號(注意為英文字元。雖然現在一些搜索引擎已支持中文標點符號,但顧及到其他引擎,最好養成使用英文字元的習慣)來進行精確匹配查詢(也稱短語搜索)。
特殊搜索命令
標題搜索 多數搜索引擎都支持針對網頁標題的搜索,命令是「title:」,在進行標題搜索時,前面提到的邏輯符號和精確匹配原則同樣適用。網站搜索 此外我們還可以針對網站進行搜索,命令是「site:」(Google)、「host:」(AltaVista)、「url:」(Infoseek)或「domain:」(HotBot)。鏈接搜索 在Google和AltaVista中,用戶均可通過「link:」命令來查找某網站的外部導入鏈接(inbound links)。其他一些引擎也有同樣的功能,只不過命令格式稍有區別。你可以用這個命令來查看是誰以及有多少網站與你做了鏈接。
1、簡單查詢
在搜索引擎中輸入關鍵詞,然後點擊「搜索」就行了,系統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。
2、使用雙引號用(" ")
給要查詢的關鍵詞加上雙引號(半形,以下要加的其它符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入「電傳」,它就會返回網頁中有「電傳」這個關鍵字的網址,而不會返回諸如「電話傳真」之類網頁。
3、使用加號(+)
在關鍵詞的前面使用加號,也就等於告訴搜索引擎該單詞必須出現在搜索結果中的網頁上,例如,在搜索引擎中輸入「+電腦+電話+傳真」就表示要查找的內容必須要同時包含「電腦、電話、傳真」這三個關鍵詞。
4、使用減號(-)
在關鍵詞的前面使用減號,也就意味著在查詢結果中不能出現該關鍵詞,例如,在搜索引擎中輸入「電視台-中央電視台」,它就表示最後的查詢結果中一定不包含「中央電視台」。
5、使用通配符(*和?)
通配符包括星號(*)和問號(?),前者表示匹配的數量不受限制,後者匹配的字元數要受到限制,主要用在英文搜索引擎中。例如輸入 「computer*」,就可以找到「computer、computers、computerised、computerized」等單詞,而輸入 「comp?ter」,則只能找到「computer、compater、competer」等單詞。
6、使用布爾檢索
所謂布爾檢索,是指通過標準的布爾邏輯關系來表達關鍵詞與關鍵詞之間邏輯關系的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關系可以用邏輯關系詞來表示。and,稱為邏輯「與」,用and進行連接,表示它所連接的兩個詞必須同時出現在查詢結果中,例如,輸入「computer and book」,它要求查詢結果中必須同時包含computer和book。or,稱為邏輯「或」,它表示所連接的兩個關鍵詞中任意一個出現在查詢結果中就可以,例如,輸入「computer or book」,就要求查詢結果中可以只有computer,或只有book,或同時包含computer和book。not,稱為邏輯「非」,它表示所連接的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞,例如輸入「automobile not car」,就要求查詢的結果中包含automobile(汽車),但同時不能包含car(小汽車)。near,它表示兩個關鍵詞之間的詞距不能超過n個單詞。在實際的使用過程中,你可以將各種邏輯關系綜合運用,靈活搭配,以便進行更加復雜的查詢。
7、使用括弧
當兩個關鍵詞用另外一種操作符連在一起,而你又想把它們列為一組時,就可以對這兩個詞加上圓括弧。
8、使用元詞檢索
大多數搜索引擎都支持「元詞」(metawords)功能,依據這類功能用戶把元詞放在關鍵詞的前面,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特徵。例如,你在搜索引擎中輸入「title:清華大學」,就可以查到網頁標題中帶有清華大學的網頁。在鍵入的關鍵詞後加上「domainrg」,就可以查到所有以org為後綴的網站。其他元詞還包括:image:用於檢索圖片,link:用於檢索鏈接到某個選定網站的頁面,URL:用於檢索地址中帶有某個關鍵詞的網頁。
9、區分大小寫
這是檢索英文信息時要注意的一個問題,許多英文搜索引擎可以讓用戶選擇是否要求區分關鍵詞的大小寫,這一功能對查詢專有名詞有很大的幫助,例如:Web專指萬維網或環球網,而web則表示蜘蛛網.
更多搜索技巧,歡迎來我空間交流。
9. java 怎麼刪除停用詞
用JAVAapi打開文本文件,循環遍歷文件中的內容,遇到停用詞就將它替換成空即可。