导航:首页 > 源码编译 > 汉字编译

汉字编译

发布时间:2022-02-05 13:31:41

Ⅰ 什么是汉字编码

每天,我们都窝在格子间里噼里啪啦敲代码敲到脱发,对代码我们是再熟悉不过的老朋友了。


但不知道小伙伴们有没有想过这样一个问题:


那些让我们“英年早秃”的代码,到底是怎么来的呢?


今天,丽斯老师就带大家看看,这个让我们爱恨两难的“老朋友”究竟是何方神圣。


什么是编码?


编码,是信息从一种形式或格式转换为另一种形式的过程,简单来讲就是语言的翻译过程。


我们都知道计算机使用的是机器语言即二进制码,相信大部分人都无法流畅的阅读二进制码。


于是为了能够让人类更好的理解计算机输出的结果就需要将机器语言转换为自然语言。


比如英语、俄语和中文等。


这看似简单的语言转换过程,随着计算机的普及,与互联网化对语言字符的编码冲击也越来越大。


编码规范的调整也伴随着整个计算机发展历史在逐步完善,甚至“愈演愈烈”。


UTF-8又是什么


Unicode确实是一套能够满足全球使用的字符集,但是难道真的需要每一个字符都占用4个字节吗?


虽然现在的存储空间已经足够大了,但是4个字节一个字符的方式还是很不明智的。


比如字符“A”二进制码01000001却需要以的方式存储。


这一定不是我们想要的。


于是UTF(Unicode/UCS Transformation Format)应运而生。


UTF是字符编码五层次模型的第三层,通过特定的规则对Unicode字符编码进行一定的压缩和转换以便快捷传输。



UTF的代表就是UTF-16和UTF-8。


千万不要以为UTF-16比UTF-8更厉害能够容纳更多字符。


字符容纳数量都是是Unicode编码集所确定的范围,UTF只是通过不同的转换形式更快更高效的找到特定字符。


而UFT-16 比较奇葩,它使用 2 个或者 4 个字节来存储。


对于 Unicode 编号范围在 0 ~ FFFF 之间的字符,UTF-16 使用两个字节存储,并且直接存储 Unicode 编号,不用进行编码转换,这跟 UTF-32 非常类似。


对于 Unicode 编号范围在 10000~10FFFF 之间的字符。


UTF-16 使用四个字节存储,具体来说就是:


将字符编号的所有比特位分成两部分。


较高的一些比特位用一个值介于 D800~DBFF 之间的双字节存储。


较低的一些比特位(剩下的比特位)用一个值介于 DC00~DFFF 之间的双字节存储。


设计UTF-8编码表达方式的理由:

1、单字节字符的最高有效比特永远是0(大家可以看看其他编码方式如何别扭的兼容ASCII码的);


2、多字节序列中的首个字符组的几个最高有效比特决定了序列的长度。最高有效位为110的是2字节序列,而1110的是三字节序列,如此类推;


3、多字节序列中其余的字节中的首两个最高有效比特为10。


转换关系如下图:



这样我们根据所要兼容的语言不同根据UTF-8多字节最高有效比特,去判断编码最终使用了多少个字节来存储。


其余的字节也都满足最高有效比特为10的特点有了一定的纠错功能。


简单一些理解就是UTF-16就是通过2个字节16位来控制压缩比例。


而UTF-8已经以高精度的1个字节8位来控制压缩比例了。


当然还有中UTF-32就可想而知,基本跟Unicode如出一辙。

Ⅱ 计算机中常见的汉字编码有哪些

根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。

1.外码(输入码)

外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。

2.交换码(国标码)

计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。

区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。

3.机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。

4.汉字的字形码
字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。

Ⅲ 百度搜索时解释汉字的叫什么编译方法

UTF-8编码或者gbk(GB2312)编码

中文的gbk(GB2312)编码

如果是中文的gbk(GB2312)编码,那么它的形式应该是这样的,即一个汉字对应两组%xx,即%xx%xx,比如http://www..com/?tn=&word=%D6%D0%B9%FA 这个网页地址是网络的,网络是使用GB2312编码的,这个网址中我们可以看到的特殊代码是“%D6%D0%B9%FA”,其中前面的“%D6%D0”就对应中文汉字“中”字,后面的“%B9%FA”就对应中国汉字“国”字。

中文的UTF-8编码

如果是中文的UTF-8编码,那么它的形式应该是这样的,即一个汉字对应三组%xx,即%xx%xx%xx,比如http://www.icpoline.com/tag/%e7%bd%91%e6%b0%91 ,这个网址是本站IcpOline.com的网页,IcpOline使用的是UTF-8编码,这个网址中的”%e7%bd%91%e6%b0%91〃对应着中文汉字“网民”,即“%e7%bd%91”对应汉字“网”,“%e6%b0%91”对应中文汉字“民”。

Ⅳ 汉字如何使用摩斯密码编译

一是直接发拼音,二是用不同组合的数字代替汉语的意思,三是拍发英文的缩写。(摩尔斯码就是由“·”和“—”组成,不同的组合组成数字或字母,比划目前是没有,太费劲了,毕竟是外国发明的)

Ⅳ 汉字编码有哪些

汉字的编码体系主要有以下几种:
⑴ 国标、区位、“准国标”
国标是将七千余个汉字以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行称为一个“区”,每个区有94个“位”。一个汉字在方阵中的坐标,称为该字的区位码。为了与美标(ASCII)的形象码的范围重合,出现了“国标码”,即将区位码的两个十进制数都加上32,得到该汉字的国标码。
当需要区分国标码和美标码时,出现了“准国标”,即将国标码的两个数字各加上128,而把原来的国标码称为“纯国标”。
⑵ GBK
GBK码是GB码的扩展字符编码,对多达两万多的简繁汉字进行了编码。
⑶ BIG5码
BIG5码是针对繁体汉字的汉字编码。
⑷ HZ码
HZ码是在Internet上广泛使用的一种汉字编码,它是以“纯国标”的中文与美标码混用为方案。
⑸ ISO 2022 CJK码
这是国际标准组织为各种语言字符制定的编码标准。CJK是中、日、韩语的合称。它主要在Internet中使用。
⑹ UCS和ISO 10646
UCS是由ISO 10646定义的,是其他字符集标准的一个超集,保证与其他字符集是双向兼容的,它包含了所有已知语言的字符。
⑺ Unicode
Unicode提供一种统一的字符标识方法,它是16位编码的,具备世界各地计算机与出版行业所用字符的全部代码。而且它的产生是以各个国家或国标字符编码为基础的。目前,Unicode在网络、Windows系统和很多大型软件中得到应用。

建议你去图书馆找些书查查,书本会介绍得很清楚的,嘿嘿.

Ⅵ 什么软件能把汉字编译成C语言

C语言、JAVA语言,这些可以统称为机器语言。
机器语言就是“电脑编译器可以看得懂的语言”,目前绝大部分机器语言都是用英语语系,中文语系的机器语言并不成熟,有个“易语言”算是半成品。
但无论使用什么语言,人可以理解的文字和机器可以理解的文字,有本质区别。目前还没有可能“将人可以看得懂的变成机器可以看得懂的”这样的工具,目前最先进的,也不过是用汉字写成的“伪代码”或流程图变成C语言,但这也是个非常复杂的工程,缺乏准确性。
如果这个从“人看得懂的汉字”变成了C语言 实现了,那么,具有创造力的智能机器人 就很可能实现了,这是世界难题。

Ⅶ 什么是汉字编码

计算机内部使用的汉字编码称为汉字内码或汉字机内码。汉字机内码由国标码(GB2312-80)演化而来,把表示国际码的两个字节的最高位分别加1,就变成了汉字机内码。
汉字字模信息码即汉字字形码,用点阵方式来构造汉字字型。它们的关系是这样的,汉字输入编码是外部码,同一个汉字可以有不同的输入编码,但它们的汉字机内码是惟一的。汉字的输出则根据点阵方式构成的汉字字模信息码输出。

汉字编码系统

为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。

国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字,GBK收录20912个汉字,最新的GB18030收录27533个汉字。

BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。

在国际通信化和软件设计领域,CJK编码收集了汉语、日语、韩语中的汉字集。

Ⅷ C语言编译的汉字问题

用VC算了,不一定非要用TC

Ⅸ 中国的汉字如何编码

所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一
内部特征,这个字符排列顺序被称为“编码”。

字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编
码标准,和中文字库有关的常见编码有:单字节编码、GB2312-80、GB12345-90、GBK、U
nicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码,下面简要介绍一
下:

单字节编码

MS Windows:Windows Latin 1(ANSI)

MS-DOS:MS-DOS Latin US

Macintosh:Macintosh Roman
GB2312-80

全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信
息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯
一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则
以GBK为基本汉字编码、但兼容支持GB2312。

双字节编码

范围:A1A1~FEFE

A1-A9:符号区,包含682个符号

B0-F7:汉字区,包含6763个汉字

GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排
序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了
很大作用。

GB12345-90

1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集 第一辅助
集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866
个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有
2200余个。

双字节编码

范围:A1A1~FEFE

A1-A9:符号区,增加竖排符号

B0-F9:汉字区,包含6866个汉字
Unicode编码(Universal Multiple Octet Coded Character Set)

国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号
进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2
达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO1
0646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf
International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字209
02个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。

ISO10646 / Unicode字符集

全球可以共享的编码字符集。

UCS-4:组八位 平面八位 行八位 字位八位

UCS-2:00组中的00平面是基本多文种平面(BMP),4E00~9FFF 中日韩文字

Ext A(CJK):3400~4DB7,共6584字

Ext B(CJK):42,807个汉字,在第2平面的0100~A836

GBK编码(Chinese Internal Code Specification)

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组
于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、
符号883个,并提供1894个造字码位,简、繁体字融于一库。
Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的
码表与底层字库联系。

英文名:Chinese Internal Code Specification

中文名:汉字内码扩展规范1.0版

双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容

范围:8140~FEFE(剔除xx7F)共23940个码位

包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字

GB18030-2000

英文名:Chinese Internal Code Specification
中文名:信息技术 信息交换用汉字编码字符集
基本集的扩充( 2000-03-17发布和实施)
单字节、双字节、四字节编码
向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。
在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK统一汉字扩
充A的字符。
BIG5编码

是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级
汉字5401个、二级汉字7652个,共计13060个汉字。

Ⅹ 汉字的编码有几种各有什么用途

汉字的编码分为外码、交换码、机内码、字形码和地址码。具体用途如下:

1、外码(输入码)

外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。

2、交换码(国标码)

计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。

3、机内码

根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。

4、汉字的字形码

字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。

5、汉字地址码

汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。

(10)汉字编译扩展阅读

1、机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。

2、通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。

3、通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

阅读全文

与汉字编译相关的资料

热点内容
linuxvi下一个 浏览:973
安卓手机的应用锁怎么解 浏览:733
linux增加路径 浏览:845
sql身份证号最后四位加密 浏览:533
xp系统表格加密 浏览:854
光遇安卓军大衣什么时候上线 浏览:838
android应用商店图标 浏览:341
java计算圆的面积 浏览:643
应用编译优化recovery 浏览:577
域控命令n 浏览:258
php导出文件 浏览:13
谷歌地图网页版无法连接服务器地址 浏览:298
菜鸟工具在线编译python 浏览:858
栅格化命令有何作用 浏览:823
为什么压缩文件不能解压 浏览:311
足球app哪个软件好 浏览:96
产品经理逼疯程序员的一天 浏览:17
修改svn服务器ip地址 浏览:584
下列关于编译说法正确的是 浏览:246
java马克思 浏览:118