『壹』 php哪個函數能取得字元串長度
1、首先新建一個php文件,命名為test.php。
『貳』 怎麼用PHP把unicode轉成utf8
function unescape($str) {
$str = rawurldecode($str);
preg_match_all("/(?:%u.{4})|.{4};|\d+;|.+/U",$str,$r);
$ar = $r[0];
//print_r($ar);
foreach($ar as $k=>$v) {
if(substr($v,0,2) == "%u"){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,-4)));
}
elseif(substr($v,0,3) == ""){
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("H4",substr($v,3,-1)));
}
elseif(substr($v,0,2) == "") {
$ar[$k] = iconv("UCS-2BE","UTF-8",pack("n",substr($v,2,-1)));
}
}
return join("",$ar);
}
echo unescape("紫星藍");
今天有用戶反饋,表單系統用戶提交的數據中文會亂碼。測試發現問題出在 iconv 轉換上。
iconv('UCS-2', 'GBK', '中文')
Google 搜索發現,原因是 linux 伺服器上 UCS-2 編碼方式與 Winodws 不一致。
於是,我改成 iconv('UCS-2BE', 'GBK', '中文') 試試,中文正常了
以下是有關兩個平台 UCS-2 編碼的潛規則:
1, UCS-2 不等於 UTF-16。 UTF-16 每個位元組使用 ASCII 字元范圍編碼,而 UCS-2 對每個位元組的編碼可以超出 ASCII 字元范圍。UCS-2 和 UTF-16 對每個字元至多佔兩個位元組,但是他們的編碼是不一樣的。
2, 對於 UCS-2, windows 下默認是 UCS-2LE。用 MultibyteToWidechar(或者A2W)生成的是 UCS-2LE 的 unicode。windows記事本可以將文本保存為 UCS-2BE,相當於多了層轉換。
3, 對於 UCS-2, linux 下默認是 UCS-2BE。用iconv(指定UCS-2)來轉換生成的是 UCS-2BE 的 unicode。如果轉換windows平台過來的 UCS-2, 需要指定 UCS-2LE。
4, 鑒於windows和linux等多個平台對 UCS-2 的理解不同(UCS-2LE,UCS-2BE)。MS 主張 unicode 有個引導標志(UCS-2LE FFFE, UCS-2BE FEFF),以表明下面的字元是 unicode 並且判別 big-endian 或 little-endian。 所以從 windows 平台過來的數據發現有這個前綴,不用慌張。
5, linux 的編碼輸出,比如從文件輸出,從 printf 輸出,需要控制台做適當的編碼匹配(如果編碼不匹配,一般和該程序編譯時的編碼有若干關系),而控制台的轉換輸入需要查看當前的系統編碼。比如控制台當前的編碼是 UTF-8, 那麼 UTF-8 編碼的東西能正確顯示,GBK 就不能;同樣,當前編碼是 GBK, 就能顯示 GBK 編碼,後來的系統應該更智能的處理好更多的轉換了。不過通過 putty 等終端還是需要設置好終端的編碼轉換以解除亂碼的煩惱。
PHP中對漢字進行UNICODE編碼和解碼的實現
//將內容進行UNICODE編碼
function unicode_encode($name)
{
$name = iconv('UTF-8', 'UCS-2', $name);
$len = strlen($name);
$str = '';
for ($i = 0; $i < $len - 1; $i = $i + 2)
{
$c = $name[$i];
$c2 = $name[$i + 1];
if (ord($c) > 0)
{ // 兩個位元組的文字
$str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
}
else
{
$str .= $c2;
}
}
return $str;
}
$name = 'MY,你大爺的';
$unicode_name=unicode_encode($name);
echo '<h3>'.$unicode_name.'</h3>';
// 將UNICODE編碼後的內容進行解碼
function unicode_decode($name)
{
// 轉換編碼,將Unicode編碼轉換成可以瀏覽的utf-8編碼
$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
preg_match_all($pattern, $name, $matches);
if (!empty($matches))
{
$name = '';
for ($j = 0; $j < count($matches[0]); $j++)
{
$str = $matches[0][$j];
if (strpos($str, '\\u') === 0)
{
$code = base_convert(substr($str, 2, 2), 16, 10);
$code2 = base_convert(substr($str, 4), 16, 10);
$c = chr($code).chr($code2);
$c = iconv('UCS-2', 'UTF-8', $c);
$name .= $c;
}
else
{
$name .= $str;
}
}
}
return $name;
}
echo 'MY,\u4f60\u5927\u7237\u7684 -> '.unicode_decode($unicode_name);
『叄』 php 如何判斷字元是漢字還是英文
常見的就是用strlen()和mb_strlen()函數
strlen($str); 中文utf8佔3個字元
mb_strlen($str,'utf8'); 中文utf8佔1個字元
可以根據strlen()和mb_strlen()返回結果,兩者比較判斷是漢字、英文還是中英混合
strlen() 等於 mb_strlen() 全英
strlen() 對 mb_strlen() 取余為0 全漢
需要注意的是,mb_strlen並不是PHP核心函數,使用前需要確保在php.ini中載入了php_mbstring.dll,即確保「extension=php_mbstring.dll」這一行存在並且沒有被注釋掉,否則會出現未定義函 數的問題。
『肆』 PHP怎麼統計文章字數
很多備彎人可能會用strlen函數,但是統計中文字元和英文字元的時候是會有出入的。
給你一個我自己寫的自定義函數,可完整統計中英文,每個中文或英文佔一個。
<?php
functionutf8_strlen($string=null){
preg_match_all("/./us",$string,$match);
returncount($match[0]);
}
echoutf8_strlen("網路是一部內容開放、自由的網路網路全書(ke..com),旨在創造一個涵蓋所有領域知識,服務所有互聯網用戶的中文知識性網路全書。在這里你可以參與詞條編輯,分享貢獻你的知識。他們以分享知識、協作編輯為共同信仰,是網路用戶的中堅力差滾此量,內容合作秒懂網路(qtfyfl.com)網路TA說數字博物館非遺網路影視合作虛迅。");
?>
代碼不多就那麼一點點,可以親自測試一下。
『伍』 php 截取utf-8格式的字元串實例代碼
php
截取utf-8格式的字元串
php中,我們經常需要截取字元串。英文字元佔用一個位元組,中文字元佔用兩個位元組,但中文字元佔用兩個位元組是相對於GBK編碼而言但是在時下國際流行的UTF8編碼中,一個中文字元佔用3個位元組。本文章向大家介紹一個php
截取utf-8格式字元串的函數。
舉例說明:
function
truncate_utf8_string($string,
$length,
$etc
=
'...')
{
$result
=
'';
$string
=
html_entity_decode
(
trim
(
strip_tags
(
$string
)
),
ENT_QUOTES,
'UTF-8'
);
$strlen
=
strlen
(
$string
);
for($i
=
0;
(($i
<
$strlen)
&&
($length
>
0));
$i
++)
{
if
($number
=
strpos
(
str_pad
(
decbin
(
ord
(
substr
(
$string,
$i,
1
)
)
),
8,
'0',
STR_PAD_LEFT
),
'0'
))
{
if
($length
<
1.0)
{
break;
}
$result
.=
substr
(
$string,
$i,
$number
);
$length
-=
1.0;
$i
+=
$number
-
1;
}
else
{
$result
.=
substr
(
$string,
$i,
1
);
$length
-=
0.5;
}
}
$result
=
htmlspecialchars
(
$result,
ENT_QUOTES,
'UTF-8'
);
if
($i
<
$strlen)
{
$result
.=
$etc;
}
return
$result;
}
如果需要截取utf-8格式的字元串,直接調用這個函數即可。
<?php
$str="如果需要截取utf-8格式的字元串,直接調用這個函數即可。";
echo
truncate_utf8_string($str,10);//輸出結果:如果需要截取utf-8格...
?>
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
『陸』 php strlen utf8一個中文算3個位元組嗎
utf8是變長編碼, 不一定是3位元組, 可能是2~3, 當然ASCII字元還是1位元組.gbk也是變長編碼, 非ASCII的2位元組, ASCII還是1位元組.這兩個編碼對於非ASCII字元, 都是多位元組的, 並且多位元組字元每個位元組都是>127的, 也就是負數(最高位是1).另外, PHP里的strlen不是依靠判斷字元串結尾的, 因為PHP是腳本語言, 它的字元串和C++的string是一樣的, 將存儲的位元組個數當作字元串長度.另外, PHP里想數數有多少個位元組用strlen, 想數數有多少個字元, 用mb系列函數, 自己去了解一下.還有些需求, 比如字元串匹配查找之類的, gbk是存在雙位元組匹配問題的, 兩個連續漢字的中間2個位元組可能被誤認為其他字元, 所以不能用strstr之類的位元組匹配函數(PHP里是純位元組匹配的, 不關心), 但utf-8是可以的, 它不會有類似的沖突, 另外最好的做法當然還是用mb系列, 安全可靠, 而且還支持猜編碼功能.
『柒』 如何使用PHP批量去除文件UTF8 BOM信息
使用PHP批量去除文件UTF8 BOM信息的方法是移除特定的utf-8 bom文件頭。
1、找到\xef\xbb\xbf後並做移除
2、全部參考代碼如下:
<?php//RemovesBOM(Byteordermark)fromfile(ifnecessary)functionbomStrip(path,output){
$bufsize=65536;
$utf8bom="\xef\xbb\xbf";
$inf=fopen(path,r);
$outf=fopen(output,w);
$buf=fread($inf,strlen($utf8bom)); if($buf!=$utf8bom)
{
fwrite($outf,$buf);
} if($buf=="")
{ exit();
} while(true)
{
$buf=fread($inf,$bufsize); if($buf=="")
{ exit();
}
fwrite($outf,$buf);
}
}?>