phputf8strlen_php 截取utf-8格式的字符串实例代码

‘壹’ php哪个函数能取得字符串长度

1、首先新建一个php文件，命名为test.php。

‘贰’ 怎么用PHP把unicode转成utf8

function unescape($str) {
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
$ar = $r[0];
//print_r($ar);
foreach($ar as $k=>$v) {
if(substr($v,0,2) == "%u"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
}
elseif(substr($v,0,3) == "&#x"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
}
elseif(substr($v,0,2) == "&#") {

$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
}
}
return join("",$ar);
}
echo unescape("紫星蓝");
今天有用户反馈，表单系统用户提交的数据中文会乱码。测试发现问题出在 iconv 转换上。
iconv('UCS-2', 'GBK', '中文')
Google 搜索发现，原因是 linux 服务器上 UCS-2 编码方式与 Winodws 不一致。
于是，我改成 iconv('UCS-2BE', 'GBK', '中文') 试试，中文正常了

以下是有关两个平台 UCS-2 编码的潜规则：

1, UCS-2 不等于 UTF-16。 UTF-16 每个字节使用 ASCII 字符范围编码，而 UCS-2 对每个字节的编码可以超出 ASCII 字符范围。UCS-2 和 UTF-16 对每个字符至多占两个字节，但是他们的编码是不一样的。

2, 对于 UCS-2, windows 下默认是 UCS-2LE。用 MultibyteToWidechar（或者A2W）生成的是 UCS-2LE 的 unicode。windows记事本可以将文本保存为 UCS-2BE，相当于多了层转换。

3, 对于 UCS-2, linux 下默认是 UCS-2BE。用iconv(指定UCS-2)来转换生成的是 UCS-2BE 的 unicode。如果转换windows平台过来的 UCS-2, 需要指定 UCS-2LE。

4, 鉴于windows和linux等多个平台对 UCS-2 的理解不同（UCS-2LE,UCS-2BE）。MS 主张 unicode 有个引导标志(UCS-2LE FFFE, UCS-2BE FEFF)，以表明下面的字符是 unicode 并且判别 big-endian 或 little-endian。所以从 windows 平台过来的数据发现有这个前缀，不用慌张。

5, linux 的编码输出，比如从文件输出，从 printf 输出，需要控制台做适当的编码匹配（如果编码不匹配，一般和该程序编译时的编码有若干关系），而控制台的转换输入需要查看当前的系统编码。比如控制台当前的编码是 UTF-8, 那么 UTF-8 编码的东西能正确显示，GBK 就不能；同样，当前编码是 GBK, 就能显示 GBK 编码，后来的系统应该更智能的处理好更多的转换了。不过通过 putty 等终端还是需要设置好终端的编码转换以解除乱码的烦恼。
PHP中对汉字进行UNICODE编码和解码的实现
//将内容进行UNICODE编码
function unicode_encode($name)
{
$name = iconv('UTF-8', 'UCS-2', $name);
$len = strlen($name);
$str = '';
for ($i = 0; $i < $len - 1; $i = $i + 2)
{
$c = $name[$i];
$c2 = $name[$i + 1];
if (ord($c) > 0)
{ // 两个字节的文字
$str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
}
else
{
$str .= $c2;
}
}
return $str;
}
$name = 'MY,你大爷的';
$unicode_name=unicode_encode($name);
echo '<h3>'.$unicode_name.'</h3>';
// 将UNICODE编码后的内容进行解码
function unicode_decode($name)
{
// 转换编码，将Unicode编码转换成可以浏览的utf-8编码
$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
preg_match_all($pattern, $name, $matches);
if (!empty($matches))
{
$name = '';
for ($j = 0; $j < count($matches[0]); $j++)
{
$str = $matches[0][$j];
if (strpos($str, '\\u') === 0)
{
$code = base_convert(substr($str, 2, 2), 16, 10);
$code2 = base_convert(substr($str, 4), 16, 10);
$c = chr($code).chr($code2);
$c = iconv('UCS-2', 'UTF-8', $c);
$name .= $c;
}
else
{
$name .= $str;
}
}
}
return $name;
}
echo 'MY,\u4f60\u5927\u7237\u7684 -> '.unicode_decode($unicode_name);

‘叁’ php 如何判断字符是汉字还是英文

常见的就是用strlen()和mb_strlen()函数
strlen($str); 中文utf8占3个字符
mb_strlen($str,'utf8'); 中文utf8占1个字符
可以根据strlen()和mb_strlen()返回结果，两者比较判断是汉字、英文还是中英混合
strlen() 等于 mb_strlen() 全英
strlen() 对 mb_strlen() 取余为0 全汉

需要注意的是，mb_strlen并不是PHP核心函数，使用前需要确保在php.ini中加载了php_mbstring.dll，即确保“extension=php_mbstring.dll”这一行存在并且没有被注释掉，否则会出现未定义函数的问题。

‘肆’ PHP怎么统计文章字数

很多备弯人可能会用strlen函数，但是统计中文字符和英文字符的时候是会有出入的。
给你一个我自己写的自定义函数，可完整统计中英文，每个中文或英文占一个。

<?php
functionutf8_strlen($string=null){
preg_match_all("/./us",$string,$match);
returncount($match[0]);
}
echoutf8_strlen("网络是一部内容开放、自由的网络网络全书(ke..com),旨在创造一个涵盖所有领域知识,服务所有互联网用户的中文知识性网络全书。在这里你可以参与词条编辑,分享贡献你的知识。他们以分享知识、协作编辑为共同信仰，是网络用户的中坚力差滚此量，内容合作秒懂网络(qtfyfl.com)网络TA说数字博物馆非遗网络影视合作虚迅。");
?>

代码不多就那么一点点，可以亲自测试一下。

‘伍’ php 截取utf-8格式的字符串实例代码

php
截取utf-8格式的字符串
php中，我们经常需要截取字符串。英文字符占用一个字节，中文字符占用两个字节，但中文字符占用两个字节是相对于GBK编码而言但是在时下国际流行的UTF8编码中，一个中文字符占用3个字节。本文章向大家介绍一个php
截取utf-8格式字符串的函数。
举例说明：
function
truncate_utf8_string($string,
$length,
$etc
=
'...')
{
$result
=
'';
$string
=
html_entity_decode
(
trim
(
strip_tags
(
$string
)
),
ENT_QUOTES,
'UTF-8'
);
$strlen
=
strlen
(
$string
);
for($i
=
0;
(($i
<
$strlen)
&&
($length
>
0));
$i
++)
{
if
($number
=
strpos
(
str_pad
(
decbin
(
ord
(
substr
(
$string,
$i,
1
)
)
),
8,
'0',
STR_PAD_LEFT
),
'0'
))
{
if
($length
<
1.0)
{
break;
}
$result
.=
substr
(
$string,
$i,
$number
);
$length
-=
1.0;
$i
+=
$number
-
1;
}
else
{
$result
.=
substr
(
$string,
$i,
1
);
$length
-=
0.5;
}
}
$result
=
htmlspecialchars
(
$result,
ENT_QUOTES,
'UTF-8'
);
if
($i
<
$strlen)
{
$result
.=
$etc;
}
return
$result;
}
如果需要截取utf-8格式的字符串，直接调用这个函数即可。
<?php
$str="如果需要截取utf-8格式的字符串，直接调用这个函数即可。";
echo
truncate_utf8_string($str,10);//输出结果：如果需要截取utf-8格...
?>
感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

‘陆’ php strlen utf8一个中文算3个字节吗

utf8是变长编码, 不一定是3字节, 可能是2~3, 当然ASCII字符还是1字节.gbk也是变长编码, 非ASCII的2字节, ASCII还是1字节.这两个编码对于非ASCII字符, 都是多字节的, 并且多字节字符每个字节都是>127的, 也就是负数(最高位是1).另外, PHP里的strlen不是依靠判断字符串结尾的, 因为PHP是脚本语言, 它的字符串和C++的string是一样的, 将存储的字节个数当作字符串长度.另外, PHP里想数数有多少个字节用strlen, 想数数有多少个字符, 用mb系列函数, 自己去了解一下.还有些需求, 比如字符串匹配查找之类的, gbk是存在双字节匹配问题的, 两个连续汉字的中间2个字节可能被误认为其他字符, 所以不能用strstr之类的字节匹配函数(PHP里是纯字节匹配的, 不关心), 但utf-8是可以的, 它不会有类似的冲突, 另外最好的做法当然还是用mb系列, 安全可靠, 而且还支持猜编码功能.

‘柒’ 如何使用PHP批量去除文件UTF8 BOM信息

使用PHP批量去除文件UTF8 BOM信息的方法是移除特定的utf-8 bom文件头。

1、找到\xef\xbb\xbf后并做移除

2、全部参考代码如下：

<?php//RemovesBOM(Byteordermark)fromfile(ifnecessary)functionbomStrip(path,output){
	$bufsize=65536;
	$utf8bom="\xef\xbb\xbf";

	$inf=fopen(path,r);
	$outf=fopen(output,w);

	$buf=fread($inf,strlen($utf8bom));	if($buf!=$utf8bom)
	{
		fwrite($outf,$buf);
	}	if($buf=="")
	{		exit();
	}	while(true)
	{
		$buf=fread($inf,$bufsize);		if($buf=="")
		{			exit();
		}
		fwrite($outf,$buf);
	}
}?>

导航:首页 > 编程语言 > phputf8strlen

phputf8strlen

与phputf8strlen相关的资料