① java 如何判斷字元串編碼格式
給你搜索了下,這個比較全的編碼轉換類:2java.net/doc/1004/code2014190.html
② Java: 如何知道一個字元串當前是什麼字元集
判斷java字元串的字元集有多種方法,我們一一討論如下:
1、通過把未知編碼字元串,用猜想的編碼再解碼,觀察字元串是不是正確還原了。
原理:假如目標編碼沒有數組中的字元,那麼編碼會破壞,無法還原。
缺點:假如字元少,而正巧錯誤的猜想編碼中有這種位元組,就會出錯。
如:new String("tested str".getBytes("enc"),"enc")
2、大多數時候,我們只要判斷本地平台編碼和utf8,utf8編碼相當有規律,所以可以分析是否是utf8,否則使用本地編碼。
原理:分析byte[]來判斷規律。
缺點:有時,個別本地編碼位元組在utf8中也會出現,導致出錯,需要分析。
如:判斷是否utf-8代碼:
public static boolean isValidUtf8(byte[] b,int aMaxCount){
int lLen=b.length,lCharCount=0;
for(int i=0;i
byte lByte=b[i++];//to fast operation, ++ now, ready for the following for(;;)
if(lByte>=0) continue;//>=0 is normal ascii
if(lByte<(byte)0xc0 || lByte>(byte)0xfd) return false;
int lCount=lByte>(byte)0xfc?5:lByte>(byte)0xf8?4
:lByte>(byte)0xf0?3:lByte>(byte)0xe0?2:1;
if(i+lCount>lLen) return false;
for(int j=0;j=(byte)0xc0) return false;
}
return true;
③ 如何獲取java源文件編碼格式
java中主要使用charset這個類來判斷文件的編碼格式,代碼如下:
packagecom.ghj.packageoftool;
importinfo.monitorenter.cpdetector.io.ASCIIDetector;
importinfo.monitorenter.cpdetector.io.ByteOrderMarkDetector;
importinfo.monitorenter.cpdetector.io.CodepageDetectorProxy;
importinfo.monitorenter.cpdetector.io.JChardetFacade;
importinfo.monitorenter.cpdetector.io.ParsingDetector;
importinfo.monitorenter.cpdetector.io.UnicodeDetector;
importjava.io.ByteArrayInputStream;
importjava.io.File;
importjava.io.InputStream;
importjava.net.URL;
importjava.nio.charset.Charset;
/**
*文件工具類
*
*@author高煥傑
*/
publicclassFileTool{
/**
*獲取本地文件的編碼格式
*
*@paramfile要判斷的文件編碼格式
*
*@author高煥傑
*/
(FilelocalFile){
/*
*cpDetector是探測器,它把探測任務交給具體的探測實現類的實例完成。
*cpDetector內置了一些常用的探測實現類,這些探測實現類的實例可以通過add方法加進來,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照「誰最先返回非空的探測結果,就以該結果為准」的原則返回探測到的字元集編碼。cpDetector是基於統計學原理的,不保證完全正確。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用於檢查HTML、XML等文件或字元流的編碼,構造方法中的參數用於指示是否顯示探測過程的詳細信息,為false不顯示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封裝了由Mozilla組織提供的JChardet,它可以完成大多數文件的編碼測定。所以,一般有了這個探測器就可滿足大多數項目的要求,如果你還不放心,可以再多加幾個探測器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(newByteOrderMarkDetector());
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用於ASCII編碼測定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用於Unicode家族編碼的測定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(localFile.toURI().toURL());
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}
/**
*獲得遠程URL文件的編碼格式
*
*@paramurl遠程文件的URL路徑
*
*@author高煥傑
*/
(URLurl){
/*
*cpDetector是探測器,它把探測任務交給具體的探測實現類的實例完成。
*cpDetector內置了一些常用的探測實現類,這些探測實現類的實例可以通過add方法加進來,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照「誰最先返回非空的探測結果,就以該結果為准」的原則返回探測到的字元集編碼。cpDetector是基於統計學原理的,不保證完全正確。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用於檢查HTML、XML等文件或字元流的編碼,構造方法中的參數用於指示是否顯示探測過程的詳細信息,為false不顯示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封裝了由Mozilla組織提供的JChardet,它可以完成大多數文件的編碼測定。所以,一般有了這個探測器就可滿足大多數項目的要求,如果你還不放心,可以再多加幾個探測器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用於ASCII編碼測定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用於Unicode家族編碼的測定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(url);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}
/**
*獲得文件流的編碼格式
*
*@paraminputStream文件流
*
*@author高煥傑
*/
(InputStreaminputStream){
/*
*cpDetector是探測器,它把探測任務交給具體的探測實現類的實例完成。
*cpDetector內置了一些常用的探測實現類,這些探測實現類的實例可以通過add方法加進來,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照「誰最先返回非空的探測結果,就以該結果為准」的原則返回探測到的字元集編碼。cpDetector是基於統計學原理的,不保證完全正確。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用於檢查HTML、XML等文件或字元流的編碼,構造方法中的參數用於指示是否顯示探測過程的詳細信息,為false不顯示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封裝了由Mozilla組織提供的JChardet,它可以完成大多數文件的編碼測定。所以,一般有了這個探測器就可滿足大多數項目的要求,如果你還不放心,可以再多加幾個探測器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用於ASCII編碼測定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用於Unicode家族編碼的測定
Charsetcharset=null;
try{
charset=codepageDetector.detectCodepage(inputStream,0);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}
/**
*獲得字元串的編碼格式
*
*@paramstringValue要判斷的文件編碼格式字元串
*
*@author高煥傑
*/
(StringstringValue){
/*
*cpDetector是探測器,它把探測任務交給具體的探測實現類的實例完成。
*cpDetector內置了一些常用的探測實現類,這些探測實現類的實例可以通過add方法加進來,如ParsingDetector、ByteOrderMarkDetector、JChardetFacade、ASCIIDetector、UnicodeDetector。
*cpDetector按照「誰最先返回非空的探測結果,就以該結果為准」的原則返回探測到的字元集編碼。cpDetector是基於統計學原理的,不保證完全正確。
*/
=CodepageDetectorProxy.getInstance();
codepageDetector.add(newParsingDetector(false));//ParsingDetector可用於檢查HTML、XML等文件或字元流的編碼,構造方法中的參數用於指示是否顯示探測過程的詳細信息,為false不顯示。
codepageDetector.add(JChardetFacade.getInstance());//JChardetFacade封裝了由Mozilla組織提供的JChardet,它可以完成大多數文件的編碼測定。所以,一般有了這個探測器就可滿足大多數項目的要求,如果你還不放心,可以再多加幾個探測器,比如下面的ASCIIDetector、UnicodeDetector等。
codepageDetector.add(ASCIIDetector.getInstance());//ASCIIDetector用於ASCII編碼測定
codepageDetector.add(UnicodeDetector.getInstance());//UnicodeDetector用於Unicode家族編碼的測定
Charsetcharset=null;
try{
InputStreaminputStream=newByteArrayInputStream(stringValue.getBytes());
charset=codepageDetector.detectCodepage(inputStream,3);
if(charset!=null){
returncharset.name();
}
}catch(Exceptione){
e.printStackTrace();
}
returnnull;
}
}
④ 文本編碼是什麼意思,怎麼看自己的java,是UTF-8還是 UTF-16的
文本編碼就是用什麼樣的編碼對你的代碼進行編碼,假如你用的記事本,當你保存時你可以看到下面可以選擇編碼,假如你選擇了UTF-8,這時就用UTF-8對你的代碼進行編碼,下次當你用gbk或者其他的編碼進行打開(解碼)時就會出現亂碼,在eclipse或者myeclipse中,可以再工程上右鍵,選擇Properties,然後可以看到第一個Resource裡面的Inherited from container,或者選擇other可以選擇你代碼的編碼和解碼,先說這么多吧,希望可以幫到你
⑤ Java中的字元採用的是兩個位元組編碼的什麼字元集。
java平台採用UTF-16(Unicode)編碼,一個字元佔2個位元組(不論英文,還是中文字元)。
⑥ java編碼問題
這種編碼問題真是很tricky的問題。說它tricky是因為這至少涉及到以下4種編碼選取的排列組合(有時甚至更多),更有時乃至會發生錯進錯出,負負得正,中間過程錯了但反而到不是亂碼的情況。
(1)源代碼的編碼
(2)編譯時告訴java編譯器的源代碼編碼
(3)運行時jvm參數file.encoding
(4)輸出終端對輸出位元組流的解碼所採用的碼組
在這簡單情況下(1)和(2)一致,(3)和(4)一致就不會因為編解碼映射錯誤(當然字元向終端字體映射的錯誤是另一回事,如字體缺失之類)。而(1)(2)和(3)(4)不必一致,這樣就使得不必強求開發編譯環境和運行應用環境的編碼必須一致。
源代碼的錄入與編譯若在在一個平台上時,大多數情況沒有問題(反而用聰明的Idea IDE設置錯誤時會亂套,越是簡陋的開發環境越不太會錯)。但是如果你在中文GBK編碼平台上的源代碼在別人的unicode編碼平台上編譯,就有問題了。所以和別人,特別是和不同母語的人合作編程時,建議要麼約定一律用unicode作為源文件編碼;要麼只用ASCII字元,反正其他編碼一般都和ASCII兼容的,對於非ASCII字元,用Java的/uxxxx表示機制,比如"中國"就表示為"\u4e2d\u56fd"。4e2d和56fd分別是中國二字的unicode十六進制編碼。
但我認為樓主在這里其實主要關心的是運行時的編碼一致問題,即(3)和(4)。所以言歸正傳,讓我們來檢查它們是否一致。
由於正如上述,iso8859-1編碼集其實是被其他所有公認的編碼集所兼容的,也就是說它是所有公認編碼集的公共子集。所以以iso8859-1為基礎可以外延到任何一個公認編碼集。事實上大多數情況也是這樣做的。比如java System property里設定了encoding為iso8859-1,事實上不僅僅是一個Latin字母的映射,在非Latin區域按JVM宿主操作系統的編碼擴展。即選iso8859-1其實是選擇了宿主操作系統的默認編碼。
假設樓主的操作系統編碼是GBK,那麼file.encoding=iso8859-1相當於選擇了file.encoding=GBK。那麼System.out.println(...)這個核心類方法會將china字元轉換為file.encoding指定的編碼(GBK)位元組由out流輸出給最終out所綁定的終端。比如console一般採用系統默認編碼也是GBK的話,那就和file.encoding一致,能正常解碼,不會亂碼。
至於System.out.write()直接寫位元組流。由於該位元組流是由china.getBytes()得到的,在不指定編碼的時候使用file.encoding指定的默認值的(即GBK),因此Str->Byte的編碼方法GBK和console採用的解碼方法GBK又是一致的,所以也不是亂碼。
但是這時候用toHexString列印出的兩個位元組串是不一樣的。先直接把china逐字強行轉換為int的情況,不涉及輸出編碼,總是unicode的。(JVM規范規定class里字串必須unicode編碼)只要上述(1) (2)匹配,java編譯器會自動從各種編碼的源文件正確轉成class文件里統一unicode編碼的字串。相反,作為一個題外話提一下,當(1)(2)不匹配時會在特定的一種配合(1)(2)的(3)(4)也不匹配的情況下會負負得正輸出正常,但這是絕對錯誤的做法,因為任何要求(1)(2)和(3)(4)有匹配關系的要求都是在應用中可能無法滿足的。java編譯器對這種情況也會報告warning,但不fail。
綜上,一旦file.encoding設成宿主操作系統默認而系統consle也採用操作系統默認編解碼的話,(3)(4)總是一致的,無論系統選擇的是GBK還是utf-8等等。
那麼如果file.encoding不選系統默認呢?比如utf-8。那就很可能出現亂碼了。但是,慢著,試驗的結果還是沒有亂碼。那是因為file.encoding是靜態的JVM系統參數,在程序里像樓主那樣設定是不起作用的(我不知道有沒有辦法發一個什麼通知讓這種程序改變生效的)。必須作為JVM參數直接傳給java程序讓它構造虛擬機的時候就得到這個參數,否則JVM會去拿宿主系統的默認值,就相當於又回到設file.encoding=iso8859-1了。
java -Dfile.encoding=utf-8 A
這下終於亂碼了,而且兩個都亂了。列印出的位元組串一個還是unicode,另一個從GBK變到utf-8了。
如果你發現試驗的現象和我上面說的正好相反,請注意檢查console的編碼設置,我們上面假設它也採用了宿主系統默認編碼,但有些console很高級的嘞,可以設置成不通編碼的(其實幾乎所有的都可以)。那麼分析的方法和上面一樣,結果可能正好相反。
⑦ java使用unicode為默認編碼是什麼意思
java初學者都會接觸到一個概念,既java的默認編碼是uincode,但書上也就出現這句話而已,究竟是什麼意思就沒再說。其實對於一個程序員來說,一個平台的編碼方式是不用了解的,因為這是他內部處理字元的方式,和我們頂層設計程序是沒有多大關系(如果真要說有關系的話,一個就是你對這個平台的熟悉程度,另一個就只能是你要處理的字元奇葩到要考慮編譯器有沒有包括這個字元)。但這並不是指我們在編程的時候完全不用考慮編碼問題,恰恰相反,編碼問題是跨系統交流的基本。
那java哪裡會用到編碼問題呢?最常見的是流,下面有兩個例子。1.在linux下用java創建了一個文件(這里默認代碼里沒有指定編碼),裡麵包括英文和中文,然後在windows下同樣用java讀取這個文件,並輸出,結果中文出現了亂碼;2.android手機和電腦的兩個java程序進行類似qq的信息交流,中文都是亂碼。疑惑來了,java不是跨平台嗎,而且默認編碼就是unicode,為什麼會有編碼? 正如上面所說,java的系統編碼是管理內部變數等信息的,是統一不能變的,但上面兩個例子出現亂碼的原因在於這些字元信息是從外界讀取的,編碼方式直接影響到字元的顯示,比如gbk一個字元是1或2個位元組,中文是2個,而utf8是1到4個位元組不定,中文是3個,utf16是2個位元組固定不變,所以很明顯了,同樣位元組數的源信息可以每2個或者每3個位元組表達一個中文,不同編碼當然不同了,而且即使gbk和utf16都是兩個位元組表示一個中文,同樣的二進制也對應不同的字元。所以從外部讀取到這些byte信息後,就要指定編碼,比如new
String(byte[],charset),當然,也可以在構建流的時候就指定,像new
InputStreamReader(InputStream,charset)等,但像BufferedReader等沒有相應的構造函數,就只能把上面的InputStreamReader作為參數了。
總結:
1.String和流(包括控制台的輸出輸入)的默認編碼是根據系統而定,即jvm假設這些信息是當前系統創建的,windows默認中文是gbk,linux和mac是utf8(這里又來了,utf8和unicode是什麼意思,簡單地說,unicode是把每個字元和一個唯一的二進制碼對應的標准,而utf是unicode
transformation
format,即如何表示每個唯一的二進制碼,utf8,utf16和utf32是不同的編碼方式);
2.IDE設置的編碼方式用於存取java源文件,對於在不同系統平台上共享代碼很重要;
3.java編譯器採用utf8,即class文件的存儲是用utf8,因為相對於utf16,utf8在處理英文佔用內存小,而程序大部分都是英文;
4.jvm運行時的編碼方式是utf16,即jvm用utf8從class文件讀取程序後再轉化為utf16編碼的字元串,因為utf16是2個位元組,統一的長度更方便jvm申請數組等操作;
5.網頁大部分是用utf8編碼的,在html頭幾行有charset的信息,在對下載下來的網頁進行解析時,要注意編碼,谷歌網路在對搜索結果的解析時也是用utf8的,所以在涉及到網路時編碼問題非常重要,本人曾經栽得很慘,當然了,誰叫windows的編碼不是utf8;
6.不知大家有沒有經歷過,如果編碼弄錯了,一般只有中文會出現亂碼,而中文後面的英文是正確的,不合理啊,這不是類似多骨諾米牌嗎,一個錯了,後面不是全倒嗎。所以別小看那些制定編碼的專家,像utf8每個位元組的前幾位都用來表示一些信息,不同位元組還不一樣,而utf16也有,所以弄出了utf16le和utf16be
⑧ 如何獲取java文件的編碼格式
java課程設計例子
Java如何獲取文件編碼格式
1:簡單判斷是UTF-8或不是UTF-8,因為一般除了UTF-8之外就是GBK,所以就設置默認為GBK。
按照給定的字元集存儲文件時,在文件的最開頭的三個位元組中就有可能存儲著編碼信息,所以,基本的原理就是只要讀出文件前三個位元組,判定這些位元組的值,就可以得知其編碼的格式。其實,如果項目運行的平台就是中文操作系統,如果這些文本文件在項目內產生,即開發人員可以控制文本的編碼格式,只要判定兩種常見的編碼就可以了:GBK和UTF-8。由於中文Windows默認的編碼是GBK,所以一般只要判定UTF-8編碼格式。
對於UTF-8編碼格式的文本文件,其前3個位元組的值就是-17、-69、-65,所以,判定是否是UTF-8編碼格式的代碼片段如下:
File file = new File(path);
InputStream in= new java.io.FileInputStream(file);
byte[] b = new byte[3];
in.read(b);
in.close();
if (b[0] == -17 && b[1] == -69 && b[2] == -65)
System.out.println(file.getName() + ":編碼為UTF-8");
else
System.out.println(file.getName() + ":可能是GBK,也可能是其他編碼");