phpiconvsubstr_php里面函数iconv_substr什么意思

㈠ php里面函数iconv_substr什么意思

返回字符串的字符数统计

㈡怎么用PHP把unicode转成utf8

function unescape($str) {
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U",$str,$r);
$ar = $r[0];
//print_r($ar);
foreach($ar as $k=>$v) {
if(substr($v,0,2) == "%u"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
}
elseif(substr($v,0,3) == "&#x"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
}
elseif(substr($v,0,2) == "&#") {

$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
}
}
return join("",$ar);
}
echo unescape("紫星蓝");
今天有用户反馈，表单系统用户提交的数据中文会乱码。测试发现问题出在 iconv 转换上。
iconv('UCS-2', 'GBK', '中文')
Google 搜索发现，原因是 linux 服务器上 UCS-2 编码方式与 Winodws 不一致。
于是，我改成 iconv('UCS-2BE', 'GBK', '中文') 试试，中文正常了

以下是有关两个平台 UCS-2 编码的潜规则：

1, UCS-2 不等于 UTF-16。 UTF-16 每个字节使用 ASCII 字符范围编码，而 UCS-2 对每个字节的编码可以超出 ASCII 字符范围。UCS-2 和 UTF-16 对每个字符至多占两个字节，但是他们的编码是不一样的。

2, 对于 UCS-2, windows 下默认是 UCS-2LE。用 MultibyteToWidechar（或者A2W）生成的是 UCS-2LE 的 unicode。windows记事本可以将文本保存为 UCS-2BE，相当于多了层转换。

3, 对于 UCS-2, linux 下默认是 UCS-2BE。用iconv(指定UCS-2)来转换生成的是 UCS-2BE 的 unicode。如果转换windows平台过来的 UCS-2, 需要指定 UCS-2LE。

4, 鉴于windows和linux等多个平台对 UCS-2 的理解不同（UCS-2LE,UCS-2BE）。MS 主张 unicode 有个引导标志(UCS-2LE FFFE, UCS-2BE FEFF)，以表明下面的字符是 unicode 并且判别 big-endian 或 little-endian。所以从 windows 平台过来的数据发现有这个前缀，不用慌张。

5, linux 的编码输出，比如从文件输出，从 printf 输出，需要控制台做适当的编码匹配（如果编码不匹配，一般和该程序编译时的编码有若干关系），而控制台的转换输入需要查看当前的系统编码。比如控制台当前的编码是 UTF-8, 那么 UTF-8 编码的东西能正确显示，GBK 就不能；同样，当前编码是 GBK, 就能显示 GBK 编码，后来的系统应该更智能的处理好更多的转换了。不过通过 putty 等终端还是需要设置好终端的编码转换以解除乱码的烦恼。
PHP中对汉字进行UNICODE编码和解码的实现
//将内容进行UNICODE编码
function unicode_encode($name)
{
$name = iconv('UTF-8', 'UCS-2', $name);
$len = strlen($name);
$str = '';
for ($i = 0; $i < $len - 1; $i = $i + 2)
{
$c = $name[$i];
$c2 = $name[$i + 1];
if (ord($c) > 0)
{ // 两个字节的文字
$str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
}
else
{
$str .= $c2;
}
}
return $str;
}
$name = 'MY,你大爷的';
$unicode_name=unicode_encode($name);
echo '<h3>'.$unicode_name.'</h3>';
// 将UNICODE编码后的内容进行解码
function unicode_decode($name)
{
// 转换编码，将Unicode编码转换成可以浏览的utf-8编码
$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
preg_match_all($pattern, $name, $matches);
if (!empty($matches))
{
$name = '';
for ($j = 0; $j < count($matches[0]); $j++)
{
$str = $matches[0][$j];
if (strpos($str, '\\u') === 0)
{
$code = base_convert(substr($str, 2, 2), 16, 10);
$code2 = base_convert(substr($str, 4), 16, 10);
$c = chr($code).chr($code2);
$c = iconv('UCS-2', 'UTF-8', $c);
$name .= $c;
}
else
{
$name .= $str;
}
}
}
return $name;
}
echo 'MY,\u4f60\u5927\u7237\u7684 -> '.unicode_decode($unicode_name);

㈢ PHP中使用substr截取字符串出现中文乱码问题该怎么办

在PHP程序开发中，经常会执行字符串的截取操作，比如输出信息列表时，标题不宜过长，打印文章摘要时，也要执行一系列的字符串截取操作。遇到这些需求时，我春皮们经常会想到使用substr()方法来实现，substr()对全英文字符串的截取是比较适合的。

但字符串只要出现中文字符，就有可能导致PHP
substr中文乱码，因为中文UTF-8编码，每个汉字占3字节，而GB2312占2字节，英文占1字节，截取位数不准确，substr()硬生生地将
一个中文字符“锯”成两半，造成断开的字符会把其后的..拉过来一起做一个字，所以出现了PHP substr中文乱码。

substr --- 取得部份字符串

语法 : string substr (string string, int start [, int length])

说明 :

substr( )传回 string的一部份字符串，由参数 start和 length指定。

如果 start是正数扒搏差，传回的字符串将会从 string的第 start个字符开始。

Example :

<?php
$rest = substr ("abcdef", 1); // returns "bcdef"
$rest = substr ("abcdef", 1, 3); // returns "bcd"
?>

如果 start是负数，传回的字符串将会从 string结尾的第 start个字开始。

Example :

<?php
$rest = substr ("abcdef", -1); // returns "f"
$rest = substr ("abcdef", -2); // returns "ef"
$rest = substr ("abcdef", -3, 1); // returns "d"
?>

如果有给予参数 length而且是正数时，传回的字符串将会从 start传回 length个字符。
如果有给予参数 length而且是负数时，传回的字符串将会结束于 string结尾的第 length个字符。

Example :

<?php
$rest = substr ("abcdef", 1, -1); // returns "bcde"
?>

对于英文没有问题，我们测试一个中文

<?php
$rest = substr ("中国人", 1, -1); // returns "fdsafsda" 就是乱码了
?>

这种截取字符的结果，肯定不是我们想要的结果，这种出现PHP substr中文乱码的银腔情况，可能会导致程序无法正常运行。解决办法主要有两种：

一、使用mbstring扩展库的mb_substr()截取就不会出现乱码了。

可以用mb_substr()/mb_strcut()这个函数，mb_substr()/mb_strcut()的用法与substr()相似，
只是在mb_substr()/mb_strcut最后要加入多一个参数，以设定字符串的编码，但是一般的服务器都没打开
php_mbstring.dll，需要在php.ini在把php_mbstring.dll打开。

<?php
echo mb_substr("php中文字符encode",0,4,"utf-8");
?>

如果未指定最后一个编码参数，会是三个字节为一个中文，这就是utf-8编码的特点，若加上utf-8字符集说明，所以，是以一个字为单位来截取的。

使用的时候要注意php文件的编码，和网页显示时的编码。使用这个mb_substr方法要事先知道字符串的编码，如果不知道编码，就需要判断，mbstring库还提供了mb_check_encoding来检验字符串编码，但还不完善。

PHP 自带几种字符串截取函数，其中常用到的就是 substr 和 mb_substr。前者在处理中文时，GBK 为 2 个长度单位，UTF 为 3 个长度单位，后者指定编码后，一个中文即为 1 个长度单位。

substr 有时会截 1/3 个中文或半个中文，会显示乱码，相对来说 mb_substr 更适合我们使用。不过有时候 mb_substr
就显得不那么好用了。例如我要显示一个小图片的简要信息，5 个中文正好，超过 5 个就截取前4再加上
”…”，这样处理中文是没问题了，可是处理英文或数字，这样截取就太短了。

二、自己书写截取函数，但效率不如用mbstring扩展库来得高。下面是ecshop里面的截取UTF-8编码下字符串的函数。

function sub_str($str, $length = , $append = true)
{
$str = trim($str);
$strlength = strlen($str);
if ($length == || $length >= $strlength)
{
return $str; //截取长度等于或大于等于本字符串的长度，返回字符串本身
}
elseif ($length < ) //如果截取长度为负数
{
$length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
if ($length < )
{
$length = $strlength;//如果截取长度的绝对值大于字符串本身长度，则截取长度取字符串本身的长度
}
}
if (function_exists('mb_substr'))
{
$newstr = mb_substr($str, , $length, EC_CHARSET);
}
elseif (function_exists('iconv_substr'))
{
$newstr = iconv_substr($str, , $length, EC_CHARSET);
}
else
{
//$newstr = trim_right(substr($str, , $length));
$newstr = substr($str, , $length);
}
if ($append && $str != $newstr)
{
$newstr .= '...';
}
return $newstr;
}

㈣ PHP读取目录下所有文件内容并显示

<?php

function printFile($filepath)

{

//substr(string,start,length)函数返回字符串的一部分；start规定在字符串的何处开始；length规定要返回的字符串长度。默认是直到字符串的结尾。

//strripos(string,find,start)查找 "php" 在字符串中最后一次出现的位置； find为规定要查找的字符；start可选。规定开始搜索的位置

//读取文件后缀名

//$filetype = substr ( $filename, strripos ( $filename, "." ) + 1 );

//判断是不是以txt结尾并且是文件

#if ($filetype == "txt" && is_file ( $filepath . "/" . $filename ))

if ( is_file ( $filepath))

{

$filename=iconv("gb2312","utf-8",$filepath);

echo $filename."内容如下:"."<br/>";

$fp = fopen ( $filepath, "r" );//打开文件

#while (! feof ( $f )) //一直输出直到文件结尾

$i = 1;

while ($i < 10)

{

$line = fgets ( $fp );

echo $line."<br/>";

$i = $i +1;

}

fclose($fp);

}

（此处空一行）

function readFileRecursive($filepath)

{

if (is_dir ( $filepath )) //判断是不是目录

{

$dirhandle = opendir ( $filepath );//打开文件夹的句柄

if ($dirhandle)

{

//判断是不是有子文件或者文件夹

while ( ($filename = readdir ( $dirhandle ))!= false )

{

if ($filename == "." or $filename == "..")

{

//echo "目录为“.”或“..”"."<br/>";

continue;

}

//判断是否为目录，如果为目录递归调用函数，否则直接读取打印文件

if(is_dir ($filepath . "/" . $filename ))

{

readFileRecursive($filepath . "/" . $filename);

}

else

{

//打印文件

printFile($filepath . "/" . $filename);

echo "<br/>";

}

closedir ( $dirhandle );

}

else

{

printFile($filepath . "/" . $filename);

return;

}

（此处空一行）

header("content-type:text/html;charset=utf-8");

#echo "Hello World"."<br/>";

$filepath = "C:/phpStudy/PHPTutorial/WWW/test/results"; //想要读取的目录

readFileRecursive($filepath )

(4)phpiconvsubstr扩展阅读：

php还可以读取文件夹下所有图片，方法如下

hostdir=dirname(__FILE__).'/data/upload/admin/20170517/'; //要读取的文件夹

（此处空一行）

$url = '/data/upload/admin/20170517/'; //图片所存在的目录

（此处空一行）

$filesnames = scandir($hostdir); //得到所有的文件

（此处空一行）

// print_r($filesnames);exit;

//获取也就是扫描文件夹内的文件及文件夹名存入数组 $filesnames

（此处空一行）

$www = 'http://www.***.com/'; //域名

（此处空一行）

foreach ($filesnames as $name) {

$aurl= "<img width='100' height='100' src='".$www.$url.$name."' alt = '".$name."'>"; //图片

echo $aurl . "<br/>"; //输出他

㈤如何将phpinfo字符串类型转换

php中iconv、mb_convert_encoding函数字符编码转换详解如下：

iconv函数库能够完成各种字符集间的转换，是php编程中不可缺少的基础函数库。

用法如下：

$string="亲爱的朋友欢迎访问博客，希望给您带来一点点的帮助！";
iconv("utf8","gbk",$string)//将字符串string编码由utf8转变成gbk；

扩展如下：

echo[MathProcessingError]str=′好,欢迎访问博客，该博客记录一个程序员的成长过程!′;echo′<br/>′;echoiconv(′GB2312′,′UTF−8′,str);//将字符串的编码从GB2312转到UTF-8
echo'<br/>';
echoiconv_substr([MathProcessingError]str,1,1,′UTF−8′);//按字符个数截取而非字节printr(iconvgetencoding());//得到当前页面编码信息echoiconvstrlen(str,'UTF-8');//得到设定编码的字符串长度
//也有这样用的
[MathProcessingError]content=iconv("UTF−8","gbk//TRANSLIT",content);

备注：

1、iconv不是php的默认函数，也是默认安装的模块。需要安装才能用的。

如果是windows2000+php，你可以修改php.ini文件，将extension=php_iconv.dll前的";"去掉，同时你要你的原php安装文件下的iconv.dll到你的winnt/system32下（如果你的dll指向的是这个目录，我本地的没有操作这一步）

在linux环境下，用静态安装的方式，在configure时加多一项 --with-iconv就可以了，phpinfo看得到iconv的项。(Linux7.3+Apache4.06+php4.3.2)；

到此php中的iconv 介绍完毕

2、用iconv函数把抓取来过的utf-8编码的页面转成gb2312，发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。原因是这样的：

string iconv ( string in_charset, string out_charset, string str )

注意：第二个参数，除了可以指定要转化到的编码以外，还可以增加两个后缀：//TRANSLIT 和 //IGNORE，其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符，//IGNORE 会忽略掉不能转化的字符，而默认效果是从第一个非法字符截断。被截断了，当然就会少了；

可以这样修改iconv("UTF-8","GB2312//IGNORE",$string) 会忽略掉不能转化的字符；

附加：

PHP中的mb_convert_encoding与iconv函数介绍
mb_convert_encoding这个函数是用来转换编码的，和iconv函数差不多。
英文一般不会存在编码问题，只有中文数据才会有这个问题。比如用Zend Studio或Editplus写程序时，用的是gbk编码，如果数据需要入数据库，而数据库的编码为utf8时，这时就要把数据进行编码转换，不然进到数据库就会变成乱码。

做一个GBK To UTF-8

<?php
header("content-Type:text/html;charset=Utf-8");//设置字符的编码是utp-8
echomb_convert_encoding("你系我的友仔","UTF-8","GBK");
?>

再做GB2312 To Big5

<?php
header("content-Type:text/html;charset=big5");
echomb_convert_encoding("朋友","big5","GB2312");
?>

不过要使用上面的函数需要安装但是需要先enable mbstring 扩展库，道理还是一样的，修改php.ini。

PHP中的另外一个函数iconv也是用来转换字符串编码的，与上函数功能相似。

下面还有一些详细的例子：

iconv—
(PHP4>=4.0.5,PHP5)
mb_convert_encoding—Convertcharacterencoding
(PHP4>=4.0.6,PHP5)

用法：

stringmb_convert_encoding(stringstr,stringto_encoding[,mixedfrom_encoding]

需要先enable mbstring 扩展库，在 php.ini里将; extension=php_mbstring.dll 前面的 ;
去掉mb_convert_encoding 可以指定多种输入编码，它会根据内容自动识别,但是执行效率比iconv差太多；
那为何还要讲解这个 mb_convert_encoding()函数呢？答案如下：
发现iconv在转换字符”—”到gb2312时会出错，如果没有ignore参数，所有该字符后面的字符串都无法被保存。不管怎么样，这个”—”都无法转换成功，无法输出。
另外mb_convert_encoding没有这个bug.

一般情况下用 iconv，只有当遇到无法确定原编码是何种编码，或者iconv转化后无法正常显示时才用mb_convert_encoding 函数.

导航:首页 > 编程语言 > phpiconvsubstr

phpiconvsubstr

(4)phpiconvsubstr扩展阅读：

与phpiconvsubstr相关的资料