Ⅰ 請問下php怎麼處理截取字元串出現的亂碼問題
利用php內置方法mb_substr截取不亂碼;
1、GBK編碼截取示例:
$str = '我是誰'; //gbk編碼的字元串
echo mb_substr($str, 0, 1, 'gbk'); //輸出 我
mb_substr方法比substr多一個參數,用來指定字元串編碼。
2、utf-8編碼截取示例:
[code]
$str = '我abc是誰'; //utf-8編碼的字元串
echo mb_substr($str, 0, 2, 'utf-8'); //輸出 我a
[/code]
中英混合也完全沒有問題。
Ⅱ PHP中如何過濾掉非漢字字元
首先需要先把帶有中文的字元串進行編碼轉化,由GB2312編碼轉化為UTF-8編碼。
這樣是為了PHP正則表達式可以正確的去匹配
然後通過preg_match_all()函數以及相應的中文匹配正則表達式,把所有的中文匹配出來
最後,把匹配到的中文字元串再轉為B2312編碼,這樣做是為了可以在網頁編碼為GB2312上正確顯示。
例如:
<?php
$str = "ddddvvv(,中文.)dfdsfds字元啊.";
//把GB2312編碼轉化為 UTF-8編碼
$str = mb_convert_encoding($str, 'UTF-8', 'GB2312');
//正則匹配
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str, $matches);
//把匹配到的數組連接為字元串
$str = implode('', $matches[0]);
//把UTF-8編碼轉化為 GB2312編碼
$str = mb_convert_encoding($str, 'GB2312', 'UTF-8');
echo $str;
//輸出 中文字元啊
?>
Ⅲ php頁面解決亂碼問題
1、文件編碼:指的是頁面文件(.html,.php等)本身是以何種編碼來保存的。記事本和Dreamweaver在打開頁面時候會自動識別文件編碼因而不太會出問題。而ZendStudio卻不會自動識別編碼,它只會根據首選項的配置固定以某種編碼打開文件,如果工作時候一不注意,用錯誤編碼打開文件,做了修改之後一保存,亂碼就出現了(我深有體會)。
2、頁面申明編碼:在HTML代碼HEAD裡面,可以用<meta http-equiv="Content-Type" content="text/html; charset="XXX" />來告訴瀏覽器網頁採用了什麼編碼,目前中文網站開發中XXX主要用的是GB2312和UTF-8兩種編碼。
3、資料庫連接編碼:指的是進行資料庫操作時候以哪種編碼與資料庫傳輸數據,這里需要注意的是不要與資料庫本身的編碼混淆,比如MySQL內部默認是latin1編碼,也就是說Mysql是以latin1編碼來存儲數據,以其他編碼傳輸給Mysql的數據會被轉換成latin1編碼。
知道了WEB開發中哪些地方涉及到了編碼,也就知道了PHP頁面亂碼產生的原因:上述3項編碼設置不一致,由於各種編碼絕大部分是兼容ASCII的,所以英文符號不會出現,中文就倒霉了。下面是一些常見的錯誤情況與解決:
1、資料庫採用UTF8編碼,而頁面申明編碼是GB2312,這是最常見的產生亂碼的原因。這時候在PHP腳本裡面直接SELECT數據出來的就是PHP頁面亂碼,需要在查詢前先使用:
mysql_query("SET NAMES GBK"); 來設定MYSQL連接編碼,保證頁面申明編碼與這里設定的連接編碼一致(GBK是GB2312的擴展)。如果頁面是UTF-8編碼的話,可以用:
mysql_query("SET NAMES UTF8"); 注意是UTF8而不是一般用的UTF-8。假如頁面申明的編碼與資料庫內部編碼一致可以不設定連接編碼。
註:事實上MYSQL的數據輸入輸出比上面講的更復雜一些,MYSQL配置文件my.ini中定義了2個默認編碼,分別是[client]里的default-character-set和[mysqld]里的default-character-set來分別設定默認時候客戶端連接和資料庫內部所採用的編碼。我們上面指定的編碼其實是MYSQL客戶端連接伺服器時候的命令行參數character_set_client,來告訴MYSQL伺服器接受到的客戶端數據是什麼編碼的,而不是採用默認編碼。
2、頁面申明編碼與文件本身編碼不一致,這種情況很少發生,因為如果編碼不一致美工做頁面時候在瀏覽器看到的就是亂碼了。更多時候是發布以後修改一些小BUG,以錯誤編碼打開頁面然後保存導致的。或者是用某些FTP軟體直接在線修改文件,比如CuteFTP,由於軟體編碼配置錯誤而導致轉換錯了編碼。
3、一些租用虛擬主機的朋友,明明上述3項編碼都設置正確了還是有PHP頁面亂碼。比方說網頁是GB2312編碼的,IE等瀏覽器打開卻總是識別成UTF-8,網頁HEAD裡面已經申明是GB2312了,手動修改瀏覽器編碼為GB2312後頁面顯示正常。產生原因是伺服器Apache設定了伺服器全局的默認編碼,在httpd.conf裡面加了AddDefaultCharset UTF-8。這時候伺服器會首先發送HTTP頭給瀏覽器,其優先順序比頁面里申明編碼高,自然瀏覽器就識別錯了。解決辦法有2個,請管理員在配置文件自己的虛機里加上一條AddDefaultCharset GB2312來覆蓋全局配置,或者在自己目錄的.htaccess里配置。
Ⅳ php亂碼怎麼辦
PHP中文亂碼一般是字元集問題,編碼主要有下面幾個問題。
一.首先是PHP網頁的編碼
1.php文件本身的編碼與網頁的編碼應匹配
a.如果欲使用gb2312編碼,那麼php要輸出頭:header(「Content-Type: text/html; charset=gb2312"),靜態頁面添加<meta http-equiv="Content-Type" content="text/html; charset=gb2312">,所有文件的編碼格式為ANSI,可用記事本打開,另存為選擇編碼為ANSI,覆蓋源文件。
b.如果欲使用utf-8編碼,那麼php要輸出頭:header(「Content-Type: text/html; charset=utf-8"),靜態頁面添加<meta http-equiv="Content-Type" content="text/html; charset=utf-8">,所有文件的編碼格式為utf-8。保存為utf-8可能會有點麻煩,一般utf-8文件開頭會有BOM,如果使用session就會出問題,可用editplus來保存,在editplus中,工具->參數選擇->文件->UTF-8簽名,選擇總是刪除,再保存就可以去掉BOM信息了。
2.php本身不是Unicode的,所有substr之類的函數得改成mb_substr(需要裝mbstring擴展);或者用iconv轉碼。
二.PHP與Mysql的數據交互
PHP與資料庫的編碼應一致
1.修改mysql配置文件my.ini或my.cnf,mysql最好用utf8編碼
[mysql]
default-character-set=utf8
[mysqld]
default-character-set=utf8
default-storage-engine=MyISAM
在[mysqld]下加入:
default-collation=utf8_bin
init_connect='SET NAMES utf8'
2.在需要做資料庫操作的php程序前加mysql_query("set names '編碼'");,編碼和php編碼一致,如果php編碼是gb2312那mysql編碼就是gb2312,如果是utf-8那mysql編碼就是utf8,這樣插入或檢索數據時就不會出現亂碼了
三.PHP與操作系統相關
Windows和Linux的編碼是不一樣的,在Windows環境下,調用PHP的函數時參數如果是utf-8編碼會出現錯誤,比如move_uploaded_file()、filesize()、readfile()等,這些函數在處理上傳、下載時經常會用到,調用時可能會出現下面的錯誤:
Warning: move_uploaded_file()[function.move-uploaded-file]:failed to open stream: Invalid argument in ...
Warning: move_uploaded_file()[function.move-uploaded-file]:Unable to move '' to '' in ...
Warning: filesize() [function.filesize]: stat failed for ... in ...
Warning: readfile() [function.readfile]: failed to open stream: Invalid argument in ..
在Linux環境下用gb2312編碼雖然不會出現這些錯誤,但保存後的文件名出現亂碼導致無法讀取文件,這時可先將參數轉換成操作系統識別的編碼,編碼轉換可用mb_convert_encoding(字元串,新編碼,原編碼)或iconv(原編碼,新編碼,字元串),這樣處理後保存的文件名就不會出現亂碼,也可以正常讀取文件,實現中文名稱文件的上傳、下載。
其實還有更好的解決方法,徹底與系統脫離,也就不用考慮系統是何編碼。可以生成一個只有字母和數字的序列作為文件名,而將原來帶有中文的名字保存在資料庫中,這樣調用move_uploaded_file()就不會出現問題,下載的時候只需將文件名改為原來帶有中文的名字。實現下載的代碼如下
header("Pragma: public");
header("Expires: 0");
header("Cache-Component: must-revalidate, post-check=0, pre-check=0");
header("Content-type: $file_type");
header("Content-Length: $file_size");
header("Content-Disposition: attachment; filename=\"$file_name\"");
header("Content-Transfer-Encoding: binary");
readfile($file_path);
$file_type是文件的類型,$file_name是原來的名字,$file_path是保存在服務上文件的地址。
Ⅳ PHP怎麼判斷字元串里有沒有亂碼
可以用json_encode( $string) === 'null'來判斷,該函數只支持utf8去轉換,如果有其他格式返回null
Ⅵ 關於運行php項目出現亂碼的問題
首先明確一點,這不是亂碼,而是出錯信息
你一定是改了php.ini里的display_errors為On
這樣就打開了錯誤輸出
本來你的程序是有錯誤的,但是關閉了錯誤輸出,你看不到
現在有錯誤輸出了
看你的錯誤提示是鏈接資料庫失敗
最後一張圖片還有其他的錯誤
你應該把error_reporting改為E_ALL & ~E_NOTICE這樣就不會有NOTICE級的警告
Ⅶ 如何解決PHP中文亂碼問題
作為該國家/區域內信息處理的基礎,字元編碼集起著統一編碼的重要作用。字元編碼集按長度分為 SBCS(單位元組字元集),DBCS(雙位元組字元集)兩大類。早期的軟體(尤其是操作系統),為了解決本地字元信息的計算機處理,出現了各種本地化版本 (L10N),為了區分,引進了 LANG, Codepage 等概念。但是由於各個本地字元集代碼范圍重疊,相互間信息交換困難;軟體各個本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來,作一 致處理,將特別的本地化處理內容降低到最少。這也就是所謂的國際化(118N)。各種語言信息被進一步規范為 Locale 信息。處理的底層字元集變成了幾乎包含了所有字形的 Unicode。
現在大部分具有國際化特徵的軟體核心字元處理都是以 Unicode 為基礎的,在軟體運行時根據當時的ocale/Lang/Codepage 設置確定相應的本地字元編碼設置,並依此處理本地字元。在處理過程中需要實現 Unicode 和本地字元集的相互轉換,甚或以 Unicode 為中間的兩個不同本地字元集的相互轉換。這種方式在網路環境下被進一步延伸,任何網路兩端的字元信息也需要根據字元集的設置轉換成可接受的內容。
資料庫中的字元集編碼問題
流行的關系資料庫系統都支持資料庫字元集編碼,也就是說在創建資料庫時可以指定它自 己的字元集設置,資料庫的數據以指定的編碼形式存儲。當應用程序訪問數據時,在入口和出口處都會有字元集編碼的轉換。對於中文數據,資料庫字元編碼的設置 應當保證數據的完整性。GB2312、GBK、UTF-8 等都是可選的資料庫字元集編碼;當然我們也可以選擇 ISO8859-1 (8-bit),只是我們得在應用程序寫數據之前先將 16Bit 的一個漢字或 Unicode 拆分成兩個 8-bit 的字元,讀數據之後也需要將兩個位元組合並起來,同時還要判別其中的 SBCS 字元,因此我們並不推薦採用 ISO8859-1 作為資料庫字元集編碼。這樣不但沒有充分利用資料庫自身的字元集編碼支持,而且同時也增加了編程的復雜度。編程時,可以先用資料庫管理系統提供的管理功能 檢查其中的中文數據是否正確。
PHP 程序在查詢資料庫之前,首先執行 mysql_query("SET NAMES xxxx"); 其中 xxxx 是你網頁的編碼(charset=xxxx),如果網頁中 charset=utf8,則 xxxx=utf8,如果網頁中 charset=gb2312,則xxxx=gb2312,幾乎所有 WEB 程序,都有一段連接資料庫的公共代碼,放在一個文件里,在這文件里,加入 mysql_query("SET NAMES xxxx") 就可以了。
定位問題時常用的技巧
定位中文編碼問題通常採用最笨的也是最有效的辦法―在你認為有嫌疑的程序處理後列印 字元串的內碼。通過列印字元串的內碼,你可以發現什麼時候中文字元被轉換成 Unicode,什麼時候Unicode 被轉回中文內碼,什麼時候一個中文字成了兩個 Unicode 字元,什麼時候中文字元串被轉成了一串問號,什麼時候中文字元串的高位被截掉了。
解決各種應用的亂碼問題
使用標簽設置頁面編碼
這個標簽的作用是聲明客戶端的瀏覽器用什麼字元集編碼顯示該頁面,xxx 可以為 GB2312、GBK、UTF-8(和 MySQL 不同,MySQL 是 UTF8)等等。因此,大部分頁面可以採用這種方式來告訴瀏覽器顯示這個頁面的時候採用什麼編碼,這樣才不會造成編碼錯誤而產生亂碼。但是有的時候我們會 發現有了這句還是不行,不管 xxx 是哪一種,瀏覽器採用的始終都是一種編碼,這個情況我後面會談到。
請注意, 是屬於 HTML 信息的,僅僅是一個聲明,僅表明伺服器已經把 HTML 信息傳到了瀏覽器。
header("content-type:text/html; charset=xxx");
這個函數 header() 的作用是把括弧裡面的信息發到 http 標頭。如果括弧裡面的內容為文中所說那樣,那作用和 標簽基本相同,大家對照第一個看發現字元都差不多的。但是不同的是如果有這段函數,瀏覽器就會永遠採用你所要求的 xxx 編碼,絕對不會不聽話,因此這個函數是很有用的。為什麼會這樣呢?那就得說說 http 標頭和 HTML信息的差別了:
http 標頭是伺服器以 http 協議傳送 HTML 信息到瀏覽器前所送出的字串。而 標簽是屬於 HTML 信息的,所以 header() 發送的內容先到達瀏覽器,通俗點就是 header() 的優先順序高於 (不知道可不可以這樣講)。假如一個 php 頁面既有header("content-type:text/html;charset=xxx"),又有,瀏覽器就只認前者 http 標頭而不認 meta 了。當然這個函數只能在 php 頁面內使用。
AddDefaultCharset
Apache 根目錄的 conf 文件夾里,有整個 Apache 的配置文檔 httpd.conf。
用文本編輯器打開 httpd.conf,第 708 行(不同版本可能不同)有 AddDefaultCharset xxx,xxx為編碼名稱。這行代碼的意思:設置整個伺服器內的網頁文件 http 標頭里的字元集為你默認的 xxx字元集。有這行,就相當於給每個文件都加了一行 header("content-type:text/html; charset=xxx")。這下就明白為什麼明明 設置了是 utf-8,可瀏覽器始終採用 gb2312 的原因。
如果網頁里有 header("content-type:text/html; charset=xxx"),就把默認的字元集改為你設置的字元集,所以這個函數永遠有用。如果把 AddDefaultCharset xxx 前面加個"#",注釋掉這句,而且頁面里不含 header("content-type…"),那這個時候就輪到 meta 標簽起作用了。
下面列出以上的優先順序:
.. header("content-type:text/html; charset=xxx")
如果你是 web 程序員,建議給你的每個頁面都加個header("content-type:text/html;charset=xxx"),這樣就可以保證它在任何伺服器都能正確顯示,可移植性也比較強。
php.ini 中的 default_charset 配置
php.ini 中的 default_charset = "gb2312" 定義了 php 的默認語言字元集。一般推薦注釋掉此行,讓瀏覽器根據網頁頭中的 charset 來自動選擇語言而非做一個強制性的規定,這樣就可以在同台伺服器上提供多種語言的網頁服務。
其實 php 開發中的中文編碼並沒有想像的那麼復雜,雖然定位和解決問題沒有定規,各種運行環境也各不盡然,但後面的原理是一樣的。了解字元集的知識是解決字元問題的 基礎。
Ⅷ php總是出現亂碼,怎麼才能實現不出現亂碼呢
因為你的編碼格式不統一,最好都使用utf-8編碼格式,你要是用的notepad書寫的話就打開你要改變編碼的文件---點擊菜單欄:格式---utf-8編碼就行,也可以修改成ANSI中文編碼
Ⅸ php查詢資料庫亂碼
MySQL和PHP產生亂碼的原因:◆MySQL資料庫的默認編碼是utf8,如果這與你的PHP頁面編碼不一致,會造成MySQL亂碼;◆MySQL創建表,讓你選擇一個編碼,這種編碼與你的網頁編碼不一致,並能也可能造成MySQL亂碼;◆MySQL創建表,添加欄位,可以選擇的編碼,這種編碼與你的網頁編碼不一致,也可能會造成MySQL亂碼;◆用戶提交頁面的編碼頁顯示的數據編碼不一致,肯定會引起PHP頁面亂碼;◆BIG5代碼頁,如用戶輸入數據的頁面,用戶輸入是gb2312,這將導致100%的PHP頁面亂碼;◆PHP頁面字元集是不正確的;◆PHP連接到MySQL資料庫語句指定的編碼不正確的。
註:
很多人都持懷疑態度的MySQL版本不一致導致MySQL和PHP亂碼相信看過這個節目,你會不會這么認為。通常你看到某些網站中的文字可能有幾種編碼,如果你看到中國傳統的字元,它可能會BIG5編碼,有可能是utf-8編碼,GB碼更容易,是的,編碼的中國傳統簡體,繁體編碼的簡化字元,我們必須認識到這一點。如果你正在做一個簡體編碼的網頁,編碼為GB2312,香港和台灣的傳統訪問者提交的信息,它可能會導致亂碼的解決方法:
網站為utf-8編碼,因此可以兼容在世界上的所有字元。如果網站已在運行很長一段時間,有大量的舊數據不能改變簡體中文設置,建議設置為GBK編碼的頁面,GBK和GB2312的區別就在於:GBK顯示更多比GB2312簡體中國傳統要顯示的字元代碼,只能用GBK字元。 MySQL和PHP產生亂碼的了解很清楚的原因,那麼解決的辦法是不困難的。
MySQL和PHP亂碼的解決方法:
如果你安裝MySQL的編碼不能改變的,我的很多朋友購買虛擬主機建立網站,無權更改MySQL的安裝編碼,我們可以跳過,因為只要後面的步聚是正確的,同樣作為解決垃圾問題。
PHP入門網 - 常見問題解答
Ⅹ PHP過濾編輯器代碼導致頁面亂碼
可能是你由word到編輯器的方法不跟他的用法一樣。現在有些編輯器,都有個按鈕,專門處理有word過來的內容。
簡單看了頁面代碼。他用的是tinyeditor編輯器。