導航:首頁 > 編程語言 > java寬字元

java寬字元

發布時間:2024-12-22 07:52:35

java的char類型包含哪些數據

java的char是2位元組,16bit,包含所有ascii字元,而且更多,api文檔里有描述

char的數據是通過 UnicodeData 文件中的信息定義的,該文件是 Unicode Consortium 維護的 Unicode Character Database 的一部分。此文件指定了各種屬性,其中包括每個已定義 Unicode 代碼點或字元范圍的名稱和常規類別。

此文件及其描述可從 Unicode Consortium 獲得,網址如下:

Unicode 字元表示形式

char 數據類型(和 Character 對象封裝的值)基於原始的 Unicode 規范,將字元定義為固定寬度的 16 位實體。Unicode 標准曾做過修改,以允許那些其表示形式需要超過 16 位的字元。合法代碼點 的范圍現在是從 U+0000 到 U+10FFFF,即通常所說的 Unicode 標量值。(請參閱 Unicode 標准中 U+n 表示法的定義。)

從 U+0000 到 U+FFFF 的字元集有時也稱為 Basic Multilingual Plane (BMP)。代碼點大於 U+FFFF 的字元稱為增補字元。Java 2 平台在 char 數組以及 String 和 StringBuffer 類中使用 UTF-16 表示形式。在這種表現形式中,增補字元表示為一對 char 值,第一個值取自高代理項 范圍,即 (uD800-uDBFF),第二個值取自低代理項 范圍,即 (uDC00-uDFFF)。

所以,char 值表示 Basic Multilingual Plane (BMP) 代碼點,其中包括代理項代碼點,或 UTF-16 編碼的代碼單元。int 值表示所有 Unicode 代碼點,包括增補代碼點。int 的 21 個低位(最低有效位)用於表示 Unicode 代碼點,並且 11 個高位(最高有效位)必須為零。除非另有指定,否則與增補字元和代理項 char 值有關的行為如下:

只接受一個 char 值的方法無法支持增補字元。它們將代理項字元范圍內的 char 值視為未定義字元。例如,Character.isLetter('uD840') 返回 false,即使是特定值,如果在字元串的後面跟著任何低代理項值,那麼它將表示一個字母。

接受一個 int 值的方法支持所有 Unicode 字元,其中包括增補字元。例如,Character.isLetter(0x2F81A) 返回 true,因為代碼點值表示一個字母(一個 CJK 象形文字)。

在 Java SE API 文檔中,Unicode 代碼點 用於范圍在 U+0000 與 U+10FFFF 之間的字元值,而 Unicode 代碼點 用於作為 UTF-16 編碼的代碼單元的 16 位 char 值。有關 Unicode 技術的詳細信息,請參閱 Unicode Glossary。

閱讀全文

與java寬字元相關的資料

熱點內容
程序員這個工作好嗎 瀏覽:898
agps定位伺服器地址 瀏覽:659
用水做的解壓玩具怎麼做 瀏覽:418
安卓411能下載什麼 瀏覽:304
小海龜logo命令 瀏覽:493
java製作界面 瀏覽:895
台達plc編程電纜製作 瀏覽:249
30多歲當程序員 瀏覽:442
怎樣把表格轉換成pdf 瀏覽:514
行列式分解演算法 瀏覽:291
mscoreedll是什麼文件夾修復 瀏覽:697
什麼app測臉型 瀏覽:43
cf手游刀戰演算法 瀏覽:318
北京壓縮米飯 瀏覽:554
施工員與程序員哪個好 瀏覽:207
vc與word編程 瀏覽:951
androidmenu文字顏色 瀏覽:983
安卓手機玩游戲怎麼會閃退 瀏覽:554
聲控解壓球要晾幾天才能晾乾呢 瀏覽:562
安卓手機拍照如何自動調整 瀏覽:627