php截取字符串中文_php如何分割中文字符串

Ⅰ php如何分割中文字符串

php分割中文字符串,如果直接用PHP函数“str_split”来分割，会出现乱码，因为中文字符长度和英文字符长度是不一样的。

所以，可以建立新的函数先把字符转成ASCII值，接着通过判断不同字符的长度来正确分割中文字符串，把结果存入数组，最后再用PHP函数“join”在字符间插入百分号。

具体参考代码如下：

<?php
functionstr_split_utf8($str){
$split=1;
$array=array();
for($i=0;$i<strlen($str)){
$value=ord($str[$i]);
if($value>127){
if($value>=192&&$value<=223)$split=2;
elseif($value>=224&&$value<=239)$split=3;
elseif($value>=240&&$value<=247)$split=4;
}else{
$split=1;
}
$key=NULL;
for($j=0;$j<$split;$j++,$i++){
$key.=$str[$i];
}
array_push($array,$key);
}
return$array;
}
$string="网络知道www..cn";
$arr1=str_split_utf8($string);
echojoin("%",$arr1);
?>

Ⅱ php关于截取中文字符串的问题

php中文乱码的原因及解决方法
原因：1.php页面语言本身的编码类型不合适，这时候，你直接在脚本中写的中文肯定是乱码，不用说数据库了；
解决方法：选择'utf8'或者'薯郑gb2312'，这样客户浏览器会自动选择并出现正确的中文显示。注意：'utf8'或者'gb2312'都可以正确显示中文的。
2.数据库mysql中的编码类型不正确。
解决方法：创建数据库的时候，mysql
字符集选择'utf8'，mysql
连接校对选择utf8_general_ci，这样创建的数据库用来存储中文肯定没有问题，
否则，你的中文首先在mysql中就是乱码，更不要期望它会给你在php页面中显示正确。
3.与平时的脚本编辑握辩环境有关。比如，有些内容是自己用word写的，有些是用记事本写的，有些用editplus、ultraplus等文本编辑器。有时候就直接在dw中写中文了，
这样做不出乱码才怪呢。
解决方法：尽量用同一种编辑器。如果是拷贝来得既有的内容，建议用ultraplus中的编码转换功能把它转换成utf8或者gb2312。
到底转换成什么类型并不重要，关键要求你的php
web应用程序中的编码要一致就行。
4.编程访问
mysql时，建议添加段手缺一行代码：mysql_query("set
names
'gbk'");
这是解决方法
我没看懂你贴上来的程序
所以给你一些方法去解决乱码的问题
希望可以帮得上

Ⅲ PHP中使用substr截取字符串出现中文乱码问题该怎么办

在PHP程序开发中，经常会执行字符串的截取操作，比如输出信息列表时，标题不宜过长，打印文章摘要时，也要执行一系列的字符串截取操作。遇到这些需求时，我春皮们经常会想到使用substr()方法来实现，substr()对全英文字符串的截取是比较适合的。

但字符串只要出现中文字符，就有可能导致PHP
substr中文乱码，因为中文UTF-8编码，每个汉字占3字节，而GB2312占2字节，英文占1字节，截取位数不准确，substr()硬生生地将
一个中文字符“锯”成两半，造成断开的字符会把其后的..拉过来一起做一个字，所以出现了PHP substr中文乱码。

substr --- 取得部份字符串

语法 : string substr (string string, int start [, int length])

说明 :

substr( )传回 string的一部份字符串，由参数 start和 length指定。

如果 start是正数扒搏差，传回的字符串将会从 string的第 start个字符开始。

Example :

<?php
$rest = substr ("abcdef", 1); // returns "bcdef"
$rest = substr ("abcdef", 1, 3); // returns "bcd"
?>

如果 start是负数，传回的字符串将会从 string结尾的第 start个字开始。

Example :

<?php
$rest = substr ("abcdef", -1); // returns "f"
$rest = substr ("abcdef", -2); // returns "ef"
$rest = substr ("abcdef", -3, 1); // returns "d"
?>

如果有给予参数 length而且是正数时，传回的字符串将会从 start传回 length个字符。
如果有给予参数 length而且是负数时，传回的字符串将会结束于 string结尾的第 length个字符。

Example :

<?php
$rest = substr ("abcdef", 1, -1); // returns "bcde"
?>

对于英文没有问题，我们测试一个中文

<?php
$rest = substr ("中国人", 1, -1); // returns "fdsafsda" 就是乱码了
?>

这种截取字符的结果，肯定不是我们想要的结果，这种出现PHP substr中文乱码的银腔情况，可能会导致程序无法正常运行。解决办法主要有两种：

一、使用mbstring扩展库的mb_substr()截取就不会出现乱码了。

可以用mb_substr()/mb_strcut()这个函数，mb_substr()/mb_strcut()的用法与substr()相似，
只是在mb_substr()/mb_strcut最后要加入多一个参数，以设定字符串的编码，但是一般的服务器都没打开
php_mbstring.dll，需要在php.ini在把php_mbstring.dll打开。

<?php
echo mb_substr("php中文字符encode",0,4,"utf-8");
?>

如果未指定最后一个编码参数，会是三个字节为一个中文，这就是utf-8编码的特点，若加上utf-8字符集说明，所以，是以一个字为单位来截取的。

使用的时候要注意php文件的编码，和网页显示时的编码。使用这个mb_substr方法要事先知道字符串的编码，如果不知道编码，就需要判断，mbstring库还提供了mb_check_encoding来检验字符串编码，但还不完善。

PHP 自带几种字符串截取函数，其中常用到的就是 substr 和 mb_substr。前者在处理中文时，GBK 为 2 个长度单位，UTF 为 3 个长度单位，后者指定编码后，一个中文即为 1 个长度单位。

substr 有时会截 1/3 个中文或半个中文，会显示乱码，相对来说 mb_substr 更适合我们使用。不过有时候 mb_substr
就显得不那么好用了。例如我要显示一个小图片的简要信息，5 个中文正好，超过 5 个就截取前4再加上
”…”，这样处理中文是没问题了，可是处理英文或数字，这样截取就太短了。

二、自己书写截取函数，但效率不如用mbstring扩展库来得高。下面是ecshop里面的截取UTF-8编码下字符串的函数。

function sub_str($str, $length = , $append = true)
{
$str = trim($str);
$strlength = strlen($str);
if ($length == || $length >= $strlength)
{
return $str; //截取长度等于或大于等于本字符串的长度，返回字符串本身
}
elseif ($length < ) //如果截取长度为负数
{
$length = $strlength + $length;//那么截取长度就等于字符串长度减去截取长度
if ($length < )
{
$length = $strlength;//如果截取长度的绝对值大于字符串本身长度，则截取长度取字符串本身的长度
}
}
if (function_exists('mb_substr'))
{
$newstr = mb_substr($str, , $length, EC_CHARSET);
}
elseif (function_exists('iconv_substr'))
{
$newstr = iconv_substr($str, , $length, EC_CHARSET);
}
else
{
//$newstr = trim_right(substr($str, , $length));
$newstr = substr($str, , $length);
}
if ($append && $str != $newstr)
{
$newstr .= '...';
}
return $newstr;
}

Ⅳ php如何获取中文字符长度，一个中文字符算一个

在PHP中专门的mb_substr和mb_strlen函数，可以对中文进行截取和计算长度，但是，由于这些函数并非PHP的核心函数，所以，它们常常有可能没有开启。要在php.ini中开启即可。获取长度实例：1 ，utf-8环境下使用

header('Content-type:text/html;charset=utf-8');
/**
*可以统计中文字符串长度的函数
*@param$str要计算长度的字符串
*@param$type计算长度类型，0(默认)表示一个中文算一个字符，1表示一个中文算两个字符
*
*/
functionabslength($str)
{
if(empty($str)){
return0;
}
if(function_exists('mb_strlen')){
returnmb_strlen($str,'utf-8');
}
else{
preg_match_all("/./u",$str,$ar);
returncount($ar[0]);
}
}
$str='我们都是中国人啊，ye！';
$len=abslength($str);
var_mp($len);//return12
$len=abslength($str,'1');
echo'<br/>'.$len;//return22

/*
utf-8编码下截取中文字符串,参数可以参照substr函数
@param$str要进行截取的字符串
@param$start要进行截取的开始位置，负数为反向截取
@param$end要进行截取的长度
*/
functionutf8_substr($str,$start=0){
if(empty($str)){
returnfalse;
}
if(function_exists('mb_substr')){
if(func_num_args()>=3){
$end=func_get_arg(2);
returnmb_substr($str,$start,$end,'utf-8');
}
else{
mb_internal_encoding("UTF-8");
returnmb_substr($str,$start);
}

}
else{
$null="";
preg_match_all("/./u",$str,$ar);
if(func_num_args()>=3){
$end=func_get_arg(2);
returnjoin($null,array_slice($ar[0],$start,$end));
}
else{
returnjoin($null,array_slice($ar[0],$start));
}
}
}
$str2='wo要截取zhongwen';
echo'<br/>';
echoutf8_substr($str2,0,-4);//returnwo要截取zhon

2，支持gb2312,gbk,utf-8,big5 中文截取方法

* 中文截取，支持gb2312,gbk,utf-8,big5

* @param string $str 要截取的字串

* @param int $start 截取起始位置

* @param int $length 截取长度

* @param string $charset utf-8|gb2312|gbk|big5 编码

* @param $suffix 是否加尾缀

public function csubstr($str, $start=0, $length, $charset="utf-8", $suffix=true)

{

if(function_exists("mb_substr"))

{

if(mb_strlen($str, $charset) <= $length) return $str;

$slice = mb_substr($str, $start, $length, $charset);

}

else

{

$re['utf-8'] = "/[x01-x7f]|[xc2-xdf][x80-xbf]|[xe0-xef][x80-xbf]{2}|[xf0-xff][x80-xbf]{3}/";

$re['gb2312'] = "/[x01-x7f]|[xb0-xf7][xa0-xfe]/";

$re['gbk'] = "/[x01-x7f]|[x81-xfe][x40-xfe]/";

$re['big5'] = "/[x01-x7f]|[x81-xfe]([x40-x7e]|xa1-xfe])/";

preg_match_all($re[$charset], $str, $match);

if(count($match[0]) <= $length) return $str;

$slice = join("",array_slice($match[0], $start, $length));

}

if($suffix) return $slice."…";

return $slice;

}

Ⅳ php中explode截取中文又乱码，求解~~

如下面例子，在GBK编码下会产生乱码。
原因，在php6之前，字符是以字节形式存在的，字符"碪"的gbk字节码是"B4 55",而字符"U"的字节码是"55"，在explode函数中第一个参数的字符串会转成相应的字节，然后和第二个参数的字节码比对，进行分割。
在下面例子中就是 55 分割 B4 55 B4 55 55 B4 55 B4 55 ,所以"碪"字被分割了。

这种情况很多，所以在php中使用explode时应多注意！

<?php
$result = explode("U", "碪碪U碪碪");
print_r($result);
?>

我也碰到这问题了，正在研究字母解决

导航:首页 > 编程语言 > php截取字符串中文

php截取字符串中文

与php截取字符串中文相关的资料