java字元串中文亂碼_java程序中文漢字會亂碼

⑴ 在java中怎樣處理中文亂碼的問題（有幾種處理方式）

讀取文件的時候如果是用的read方法（位元組流），碰到中文輸出就是亂碼，然後存儲的時候設置下編碼為GBK或者是UTF-8形式即可，可以有效的解決亂碼問題。
可以通過BufferedReader 流的形式進行流緩存，之後通過readLine方法獲取到緩存的內容。
BufferedReader bre = null;
try {
String file = "D:/test/test.txt";
bre = new BufferedReader(new FileReader(file));//此時獲取到的bre就是整個文件的緩存流
while ((str = bre.readLine())!= null) // 判斷最後一行不存在，為空結束循環
{
System.out.println(str);//原樣輸出讀到的內容
}；
備註：流用完之後必須close掉，如上面的就應該是：bre.close()，否則bre流會一直存在，直到程序運行結束。
可以通過「FileOutputStream」創建文件實例，之後過「OutputStreamWriter」流的形式進行存儲，舉例：
OutputStreamWriter pw = null;//定義一個流
pw = new OutputStreamWriter(new FileOutputStream(「D:/test.txt」),"GBK");//確認流的輸出文件和編碼格式，此過程創建了「test.txt」實例
pw.write("我是要寫入到記事本文件的內容");//將要寫入文件的內容，可以多次write
pw.close();//關閉流
備註：文件流用完之後必須及時通過close方法關閉，否則會一直處於打開狀態，直至程序停止，增加系統負擔。

⑵ java爬蟲一段話里的部分字元亂碼解決

1. 網路爬蟲亂碼的原因。
源網頁的編碼與抓取後的編碼轉換不一致。如果源網頁是gbk編碼的位元組流，程序在我們抓取後直接用utf-8編碼輸出到存儲文件，這必然會造成亂碼，即當源網頁編碼與程序抓取後直接處理編碼一致時，就不會出現亂碼，然後統一字元編碼後也就不會出現亂碼。注意區分源網路代碼A，程序B直接使用的代碼，統一轉換字元的代碼C。
2. 是網頁的伺服器端代碼。
B.捕獲的數據原本是位元組數組，由A編碼，只有B=A才能保證不會出現亂碼；否則，當字元集不兼容時，就會出現亂碼字元。這一步常用於測試。
c、統一轉碼是指在獲得網頁的原始編碼A後進行統一編碼，主要是將每個網頁的數據統一成一種編碼，往往首選字元集較大的utf-8。
每個網頁都有自己的代碼，比如gbk，utf-8，iso8859-1，日本jp系統代碼，西歐，俄語等等。爬行時，所有類型的代碼都將被擴展。有的爬蟲只是簡單的識別網頁，然後統一編碼，有的則直接按照utf-8統一處理，不需要判斷源網頁，顯然會造成亂碼。
3. 亂碼的解決方案。
根據原因找到解決辦法很簡單。
1) 確定源網頁的代碼a。
代碼a通常位於網頁的三個位置，即httpheader的內容、網頁的元字元集和網頁標題中的文檔定義。獲取源網頁代碼時，依次判斷這三部分數據，從頭到尾優先順序相同。
理論上這是對的，但是國內有些網站不符合標准。比如寫出來的gbk其實是utf-8，有的寫出來是utf-8，其實是gbk。當然這是幾個網站，但是確實存在。因此，在確定網頁編碼時，應該對這種特殊情況給予特殊處理，如中文檢查、默認編碼等策略。
在另一種情況下，如果以上三種都沒有編碼信息，一般使用第三方的網頁編碼智能識別工具，如cpdetector。原理是通過統計位元組數組的特性來計算實際編碼，有一定的准確率，但是我發現在實踐中准確率還是很有限的。
但是綜合以上三種編碼確認方法後，中文亂碼的問題幾乎可以完全解決。在我的基於nutch1.6的網路爬蟲系統中，經過統計，編碼准確率可以達到99.99%，這也證明了上述方法和策略的可行性。
2) 程序通過代碼b還原源網頁數據。
顯然，這里的B應該等於a，在java中，如果源網頁的位元組數組是source_byte_array，就會轉換成stringstr=newstring(source_byte_array，B)。即這些位元組數組對應的字元被正確編碼顯示在內存中，此時列印結果正常。此步驟通常用於調試或控制台輸出測試。
3) 統一轉碼。
網路爬蟲系統中有很多數據源。如果無法使用數據，它將被轉換為其原始數據，如果這樣做是浪費的。所以一般爬蟲系統要對抓取的結果進行統一編碼，做到一致，使用方便。此時，在(2)的基礎上，可以進行統一的編碼轉換，在java中的實現如下。
源網頁的位元組數組是source_byte_array。
轉換為普通字元串:stringnormal_source_str=newstring(source_byte_array，c)。這時候可以直接用javaapi存儲，但是字元串往往不直接寫。因為一般爬蟲存儲是將多個源網頁存儲在一個文件中，所以要記錄位元組偏移量，所以下一步。再將得到的str轉換為統一的編碼C格式的位元組數組,則byte[] new_byte_array=normal_source_str.getBytes(C)即可，此時即可用java io api將數組寫入文件，並記錄相應的位元組數組偏移量等，待真正使用時，直接io讀取即可。
爬蟲過程不僅會存在亂碼問題，還會存在網站爬取涉及法律、IP受限，爬取行為受限等等問題，這個時候就需要不斷去解決這些問題。

⑶ Java如何判斷一個字元串是否為亂碼

1.在計算機中是沒有字元的，所有的字元都需要編碼後存入計算機中，當然拿出來的時候也需要解碼，所以如果你兩個過程用的編碼方式不同，就出現了亂碼。
2.嚴格來講java只能判斷簡單的亂碼例如：用正則表達式判斷一行字元串是否有字母，數字，等等吧但是不準確。亂碼一般情況下是沒有字母或者數字的。但是java沒法准確的判斷字元串是否為亂碼。解決辦法就是自己定義一種編碼（比如utf-8），只要不是此編碼的都認定為亂碼。

⑷ java程序中文漢字會亂碼

首先要加一個utf-8過濾器以過濾post提交亂碼問題；
再在tomcat的server.xml文件中配置<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="utf-8"/>
處理get提交亂碼問題；
注意在用了這2個配置後就不要再在程序中用getBytes對參數進行轉碼了

⑸ java輸入輸出的問題，輸出中文字元串出現亂碼

是你系統編碼設置有問題，右擊項目選擇properties，修改你項目的默認編碼為GBK或者為utf-8

⑹ java，為什麼讀取文本文件裡面的漢字是亂碼啊，怎麼改啊

漢字的字元集不匹配,比如說用UTF-8字元集去解析GBK字元集的漢字就會變成亂碼
這里不要用FileReader,這個類用的是默認字元集去讀取文本,改用InputStreamReader,它的構造方法中能夠指定字元集,讓它作為BufferedReader的源,就不會亂碼了
hcl=new
BufferedReader(new
InputStreamReader(new
FileInputStream(wjlj
),
"GBK"));
如果還是亂碼,就把GBK改成UTF-8

⑺ java中文亂碼，能說下string.getBytes()和new String()轉碼是，具體點。

1、Java中，【String.getBytes(String decode)】的方法，會根據指定的decode，編碼返回某字元串在該編碼下的byte數組表示，例如：

byte[] b_gbk = "中".getBytes("GBK");
byte[] b_utf8 = "中".getBytes("UTF-8");
byte[] b_iso88591 = "中".getBytes("ISO8859-1")

上面三行代碼表示：分別返回「中」這個漢字在GBK、UTF-8和ISO8859-1編碼下的byte數組表示，此時b_gbk的長度為2，b_utf8的長度為3，b_iso88591的長度為1。

2、而通過【new String(byte[], decode)】的方式來還原這個「中」字時，實際是使用decode指定的編碼來將byte[ ]解析成字元串，例如：

String s_gbk = new String(b_gbk,"GBK");
String s_utf8 = new String(b_utf8,"UTF-8");
String s_iso88591 = new String(b_iso88591,"ISO8859-1");

s_gbk和s_utf8都是「中」，而只有s_iso88591是一個不認識的字元，因為ISO8859-1編碼的編碼表中，根本就沒有包含漢字字元，當然也就無法通過"中".getBytes("ISO8859-1")。

因此，通過【String.getBytes(String decode)】方法來得到byte[ ]時，要確定decode的編碼表中確實存在String表示的碼值，這樣得到的byte[ ]數組才能正確被還原。

(7)java字元串中文亂碼擴展閱讀

java中文編碼避免亂碼

1、為了讓中文字元適應某些特殊要求（如http header頭要求其內容必須為iso8859-1編碼），可能會通過將中文字元按照位元組方式來編碼的情況，比如：

String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1")

2、上述例子中的s_iso8859-1字元串實際是三個在 ISO8859-1中的字元，在將這些字元傳遞到目的地後，目的地程序再通過相反的方式：

String s_utf8 = new String(s_iso88591.getBytes("ISO8859-1"),"UTF-8")

來得到正確的中文漢字。這樣就既保證了遵守協議規定、也支持中文。

3、String.getBytes(String decode)方法會根據指定的decode編碼返回某字元串在該編碼下的byte數組表示這里是encode ，not decode，從字元串到位元組數組是編碼的過程，從位元組數組到字元串（即 new String（byte[] , charsetname））才是解碼的過程。

⑻ java 編程中漢字字元串變成繁體或亂碼

這個是典型的GBK亂碼。
應該是你的jdk的編碼設置不對。和你的java文件編碼不一致。

⑼ java代碼中文亂碼怎麼解決方法

解決亂碼問題：可以修改eclipse里的編碼格式來解決亂碼問題：

1、window--> Preference

⑽ java 字元串字元串亂碼問題

應該是編碼格式的問題吧
//ISO編碼轉為GBK編碼
public static String ISOtoGBK(String s) {
String str = "";
try {
if (s == null || s == "" || s.equals("")) {
str = s;
} else {
str = new String(s.getBytes("ISO8859-1"),"GBK");
}
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return str;
}

導航:首頁 > 編程語言 > java字元串中文亂碼

java字元串中文亂碼

與java字元串中文亂碼相關的資料