❶ image segmentation摘要翻譯=.=
顏色的目標圖像分割是仍然把圖像分成均勻的地區。目標提取、目標識別的統整與分裂是典型的應用程序,使用壓縮分割為低層仍然圖像處理。摘要提出了一種新的方法,色彩分割。該演算法把圖像分成均勻的地區被當地閾值。他們的數量自適應閾值,導出了一個自動過程,是考慮到當地的信息。首先,分水嶺演算法的應用。其結果是作為一個初始化的下一步,是融合過程中迭代。在迭代過程中,區域合並和當地的閾值。一個接一個的閾值確定不同時期的歷史過程。每個閾值進行局部信息和其周圍地區。任何統計信息輸入圖像是無法得到。該演算法是可靠的,具有較強的魯棒性,發現不同類型的圖像。
圖像分割的圖像重疊區域的劃分成…一個地區被定義為一種一元化的連接與尊重,選定一個像素財產有幾種方法可以確定的一個區域,是基於一種特定的目標分割過程例如,它可以用色,灰色層次,紋理、運動、深度的層次,等之間的重疊
地區是不被允許的,因此,每個像素只屬於一個地區兩個相鄰區域應該融合的新組合區是均勻的. 因此,每一個地區預計在盡可能大在它的某些特性然後,總數量的地區就減少了。
❷ MATLAB 分水嶺分割演算法
其實,這涉及到命令和演算法,單一的命令往往不能解決所有的問題,要有前處理或後處理,才能達到目的。另外,也說明,某個命令應該升級或更新了。所以,watershed這個命令,單用達不到所期望的效果,只有加上預處理才行。
❸ OpenCV 如何進行二值圖像的分水嶺演算法
沒用過。不過從程序看,處理彩色圖像先要轉成灰色圖像,處理完再轉回彩色。轉換函數是cvCvtColor(...),參數CV_BGR2GRAY 是RGB到grey, 參數 CV_GRAY2BGR 是grey 到RGB.
處理結果是彩色的,則轉灰色就是了:
cvCvtColor( inputImg, grayImg, CV_BGR2GRAY);
❹ matlab圖像方面的問題
我把正確的給你傳過去了,不懂在追問我。
❺ 水文分析系統怎麼下手
水文分析
水文分析是
DEM
數據應用的一個重要方面。利用
DEM
生成的集水流域和水流網路,
成為大多數地表水文分析模型的主要輸入數據。
表面水文分析模型研究與地表水流有關的各
種自然現象例如洪水水位及泛濫情況,
劃定受污染源影響的地區,
預測當某一地區的地貌改
變時對整個地區將造成的影響等。
基於
DEM
地表水文分析的主要內容是利用水文分析工具提取地表水流徑流模型的水流
方向、匯流累積量、水流長度、河流網路(包括河流網路的分級等)以及對研究區的流域進
行分割等。
通過對這些基本水文因子的提取和分析,
可再現水
流的流動過程,最終完成水文分析過程。
本章主要介紹
ArcGIS
水文分析模塊的應用。
ArcGIS
提供
的水文分析模塊主要用來建立地表水的運動模型,
輔助分析地
表水流從哪裡產生以及要流向何處,
再現水流的流動過程。
同
時,
通過水文分析工具的應用,
有助於了解排水系統和地表水
流過程的一些基本概念和關鍵過程。
ArcGIS
將水文分析中的地表水流過程集合到
ArcToolbox
里,如圖
11.1
所示。主要包括水流的地表模擬過程中的水流
方向確定、
窪地填平、
水流累計矩陣的生成、
溝谷網路的生成
以及流域的分割等。
本章
1
至
5
節主要是依據水文分析中的水文因子的提取過
程對
ArcGIS
中的水文分析工具逐一介紹。文中所用的
DEM
數據在光碟中
chp11
文件夾下的
tutor
文件夾裡面,每個計算
過程以及每一節所產生的數據存放在
tutor
文件夾的
result
文件
夾裡面,
文件名與書中所命名相同,
讀者可以利用該數據進行
參照練習。本章最後一節還提供了三個水文分析應用的實例。
9.1
無窪地
DEM
生成
DEM
一般被認為是比較光滑的地形表面的模擬,但是由於內插的原因以及一些真實地
形(如喀斯特地貌)的存在,使得
DEM
表面存在著一些凹陷的區域。這些區域在進行地表
水流模擬時,
由於低高程柵格的存在,
使得在進行水流流向計算時在該區域得到不合理的或
錯誤的水流方向。因此,在進行水流方向的計算之前,應該首先對原始
DEM
數據進行窪地
填充,得到無窪地的
DEM
。
窪地填充的基本過程是先利用水流方向數據計算出
DEM
數據中的窪地區域,
然後計算
出這些的窪地區域的窪地深度,最後以這些窪地深度為參考而設定填充閾值進行窪地填充。
9.1.1
水流方向提取
水流方向是指水流離開每一個柵格單元時的指向。
在
ArcGIS
中通過
將中心柵格的
8
個鄰域柵格編碼,
水流方向便可由其中的某一值來確定,
圖
11.2
水流流向編碼
圖
11.1 ArcToolBox
中的
水文分析模塊
柵格方向編碼如圖
11.2
所示。
例如:如果中心柵格的水流流向左邊,則其水流方向被賦值為
16
。輸出的方向值以
2
的冪值指定是因為存在柵格水流方向不能確定的情況,
此時需將數個方向值相加,
這樣在後
續處理中從相加結果便可以確定相加時中心柵格的鄰域柵格狀況。
水流的流向是通過計算中心柵格與鄰域柵格的最大距離權落差來確定。
距離權落差是指
中心柵格與鄰域柵格的高程差除以兩柵格間的距離,
柵格間的距離與方向有關,
如果鄰域柵
格對中心柵格的方向值為
2
、
8
、
32
、
128
,則柵格間的距離為
2
倍的柵格大小,否則距離
為
1
。
ArcGIS
中的水流方向是利用
D8
演算法(最大距離權落差)來計算水流方向的。具體計
算步驟如下:
1.
在
ArcMap
中單擊
ArcToolbox
圖標,啟動
ArcToolbox
;
2.
展開
Spatial Analysis Tools
工具箱,打開
Hydrology
工具集;
3.
雙擊
Flow Direction
工具,彈出(如圖
11.3
所示)水流方向(
Flow Direction
)
計算對話框;
(
1
)
I
nput surface data
文本框中選擇輸入的
DEM
數據:
dem
。
(
2
)
在
Output flow direction raster
文本框中
命名計算出來的水流方向文件名為
flowdir
,並選擇保存路徑;
(
3
)
若
選
中
Force
all
edge
cells
to
flow
outward(Optional)
前的復選框,指所有
在
DEM
數據邊緣的柵格的水流方向全
部是流出
DEM
數據區域。默認為不選擇。這一步為可選步驟;
(
4
)
輸
出
drop
raster
。
drop
raster
是該柵格在其水流方向上與其臨近的柵格之間的高程差與
距離的比值,
以百分比的形式記錄,
它反映了在整個區域中最大坡降的分布情況。
這一
步為可選步驟;
(
5
)
單
擊
OK
按鈕,完成操作。按鈕,完成操作。計算出的水流方向數據結果如圖
11.4
所
示。
圖
11.3
水流方向
Flow Direction
計算對話框
9.1.2
窪地計算
窪地區域是水流方向不合理的地方,
可以通過水流方向來判斷哪些地方是窪地,
然後對
窪地填充。
但是,
並不是所有的窪地區域都是由於數據的誤差造成的,
有很多窪地是地表形
態的真實反映。
因此,在進行窪地填充之前,
必須計算窪地深度,
判斷哪些地區是由於數據
誤差造成的窪地而哪些地區又是真實的地表形態,
然後在窪地填充的過程中,
設置合理的填
充閾值。
1.
窪地提取
(
1
)
雙
擊
Hydrology
工具集中的
Sink
工具,
彈出窪地計算對話框,如圖
11.5
所示;
(
2
)
在
Input flow direction raster
文本框中,
選擇水流方向數據
flowdir
;
(
3
)
在
Output raster
文本框中,選擇存放的
路徑以及重新命名輸出文件為
sink
;
圖
11.4
利用
Flow Direction
工具計算出來的水流方向圖
圖
11.5
窪地計算對話框
(
4
)
單
擊
OK
按鈕,完成操作。計算結果如圖
11.6
所示,深色的區域是窪地。
2.
窪地深度計算
(
1
)
雙
擊
Hydrology
工具集中的
Watershed
工具,彈出流域計算對話框,如圖
11.7
所示,
它用來計算窪地的貢獻區域;
(
2
)
在
Input flow direction raster
文本框中
選擇水流方向數據
flowdir
,在
Input
raster or feature pour point
文本框中選
擇窪地數據
sink
,在
pour
point
field
文本框中選擇
value
;
(
3
)
在
Output
raster
文本框中設置輸出數
據的名稱為
watershsink
;
(
4
)
單
擊
OK
按鈕,完成操作。計算出的
窪地貢獻區域如圖
11.8
所示;
圖
11.7
窪地貢獻區域計算對話窗口(
watershed
)
圖
11.6
計算出來的窪地區域
(
5
)
計
算每個窪地所形成的貢獻區域的最低高程;
1
)
打開
Spatial Analysis Tools
工具箱中
Zonal
工具集,雙擊
Zonal Statistic
工具,彈出
如圖
11.9
所示的分區統計對話框;
2
)
在
Input raster or feature zonal data
文本框中,選擇窪地貢獻區域數據
watershsink
;
3
)
在
Input value raster
文本框中選擇
dem
作為
value raster
;
4
)
在
Output raster
文本框中將輸出數
據文件命名為
zonalmin
,存放路徑
保持不變;
5
)
在統計類型選擇的下拉菜單中選
擇最小值(
MINIMUM
)作為統計
類型;
6
)
單擊
OK
按鈕,完成操作。
(
6
)
計
算每個窪地貢獻區域出口的最低高程即窪地出水口高程;
1
)
打開
Spatial Analysis Tools
工具箱中
Zonal
工具集,雙擊
Zonal Fill
工具,彈出如圖
11.10
所示的
Zone Fill
對話框;
2
)
在
Input zone raster
文本框中選擇
watershsink
,在
Input weight raster
文本框中選擇
dem
,在
Output raster
文本框中將輸出數據命名改為
zonalmax
;
3
)
單擊
OK
按鈕,完成操作。
(
7
)
計
算窪地深度。
圖
11.8
計算出來的窪地貢獻區域
圖
11.9
分區統計對話框
❻ 幫幫我 我不知道分水嶺演算法在圖像分割中的應用…… 代碼,還有別的幫幫我
clear,clc
%三種方法進行分水嶺分割
%讀入圖像
filename='sar1.bmp';
f=imread(filename);
Info=imfinfo(filename);
if Info.BitDepth>8
f=rgb2gray(f);
end
figure,mesh(double(f));%顯示圖像,類似集水盆地
%方法1:一般分水嶺分割,從結果可以看出存在過分割問題
b=im2bw(f,graythresh(f));%二值化,注意應保證集水盆地的值較低(為0),否則就要對b取反
d=bwdist(b); %求零值到最近非零值的距離,即集水盆地到分水嶺的距離
l=watershed(-d); %matlab自帶分水嶺演算法,l中的零值即為風水嶺
w=l==0; %取出邊緣
g=b&~w; %用w作為mask從二值圖像中取值
figure
subplot(2,3,1),imshow(f);
subplot(2,3,2),imshow(b);
subplot(2,3,3),imshow(d);
subplot(2,3,4),imshow(l);
subplot(2,3,5),imshow(w);
subplot(2,3,6),imshow(g);
%方法2:使用梯度的兩次分水嶺分割,從結果可以看出還存在過分割問題(在方法1的基礎上改進)
h=fspecial('sobel');%獲得縱方向的sobel運算元
fd=double(f);
g=sqrt(imfilter(fd,h,'replicate').^2+imfilter(fd,h','replicate').^2);%使用sobel運算元進行梯度運算
l=watershed(g);%分水嶺運算
wr=l==0;
g2=imclose(imopen(g,ones(3,3)),ones(3,3));%進行開閉運算對圖像進行平滑
l2=watershed(g2);%再次進行分水嶺運算
wr2=l2==0;
f2=f;
f2(wr2)=255;
figure
subplot(2,3,1),imshow(f);
subplot(2,3,2),imshow(g);
subplot(2,3,3),imshow(l);
subplot(2,3,4),imshow(g2);
subplot(2,3,5),imshow(l2);
subplot(2,3,6),imshow(f2);
%方法3:使用梯度加掩模的三次分水嶺演算法(在方法2的基礎上改進)
h=fspecial('sobel');%獲得縱方向的sobel運算元
fd=double(f);
g=sqrt(imfilter(fd,h,'replicate').^2+imfilter(fd,h','replicate').^2);%使用sobel運算元進行梯度運算
l=watershed(g);%分水嶺運算
wr=l==0;
rm=imregionalmin(g); %計算圖像的區域最小值定位,該函數僅僅是用來觀察為何分水嶺演算法產生這么多集水盆地
im=imextendedmin(f,2);%上面僅是產生最小值點,而該函數則是得到最小值附近的區域,此處的附近是相差2的區域
fim=f;
fim(im)=175; %將im在原圖上標識出,用以觀察
lim=watershed(bwdist(im));%再次分水嶺計算
em=lim==0;
g2=imimposemin(g,im|em);%在梯度圖上標出im和em,im是集水盆地的中心,em是分水嶺
l2=watershed(g2); %第三次分水嶺計算
f2=f;
f2(l2==0)=255; %從原圖對分水嶺進行觀察
figure
subplot(3,3,1),imshow(f);
subplot(3,3,2),imshow(g);
subplot(3,3,3),imshow(l);
subplot(3,3,4),imshow(im);
subplot(3,3,5),imshow(fim);
subplot(3,3,6),imshow(lim);
subplot(3,3,7),imshow(g2);
subplot(3,3,8),imshow(l2)
subplot(3,3,9),imshow(f2);
❼ matlab中面積閾值演算法是什麼跪求!!!!謝謝了!!!
第一類是閾值方法,這種方法是根據圖像灰度值得分布特性確定某個閾值來進行圖像分割...MATLAB圖像處理工具箱中的watershed函數可以用於顯示分水嶺演算法。
❽ MP4到底是代表哪幾種視頻格式呀!真是急死了,沒有人能說清楚嗎謝謝!
自己找找相關的基礎文章看看吧,沒什麼好急的,學知識要主動才行。mpeg4壓縮方案包含很多種編碼方式的。
MPEG全稱是Moving Pictures Experts Group,它是「動態圖象專家組」的英文縮寫,該專家組成立於1988年,致力於運動圖像及其伴音的壓縮編碼標准化工作,原先他們打算開發MPEG1、MPEG2、MPEG3和MPEG4四個版本,以適用於不同帶寬和數字影像質量的要求。
目前,MPEG1技術被廣泛的應用於VCD,而MPEG2標准則用於廣播電視和DVD等。MPEG3最初是為HDTV開發的編碼和壓縮標准,但由於MPEG2的出色性能表現, MPEG3隻能是死於襁褓了。而我們今天要談論的主角——MPEG4於1999年初正式成為國際標准。它是一個適用於低傳輸速率應用的方案。與MPEG1和MPEG2相比,MPEG4更加註重多媒體系統的交互性和靈活性。下面就讓我們一起進入多彩的MPEG4世界。
MPEG4的技術特點
MPEG1、MPEG2技術當初制定時,它們定位的標准均為高層媒體表示與結構,但隨著計算機軟體及網路技術的快速發展,MPEG1.MPEG2技術的弊端就顯示出來了:交互性及靈活性較低,壓縮的多媒體文件體積過於龐大,難以實現網路的實時傳播。而MPEG4技術的標準是對運動圖像中的內容進行編碼,其具體的編碼對象就是圖像中的音頻和視頻,術語稱為「AV對象」,而連續的AV對象組合在一起又可以形成AV場景。因此,MPEG4標准就是圍繞著AV對象的編碼、存儲、傳輸和組合而制定的,高效率地編碼、組織、存儲、傳輸AV對象是MPEG4標準的基本內容。
在視頻編碼方面,MPEG4支持對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、3D動畫和人面部表情動畫等)。在音頻編碼上,MPEG4可以在一組編碼工具支持下,對語音、音樂等自然聲音對象和具有回響、空間方位感的合成聲音對象進行音頻編碼。
由於MPEG4隻處理圖像幀與幀之間有差異的元素,而舍棄相同的元素,因此大大減少了合成多媒體文件的體積。應用MPEG4技術的影音文件最顯著特點就是壓縮率高且成像清晰,一般來說,一小時的影像可以被壓縮為350M左右的數據,而一部高清晰度的DVD電影, 可以壓縮成兩張甚至一張650M CD光碟來存儲。對廣大的「平民」計算機用戶來說, 這就意味著, 您不需要購置 DVD-ROM就可以欣賞近似DVD質量的高品質影像。而且採用MPEG4編碼技術的影片,對機器硬體配置的要求非常之低,300MHZ 以上CPU,64M的內存和一個 8M顯存的顯卡就可以流暢的播放。在播放軟體方面,它要求也非常寬松,你只需要安裝一個 500K左右的 MPEG4 編碼驅動後,用 WINDOWS 自帶的媒體播放器就可以流暢的播放了(下面我們會具體講到)。
視頻編碼研究與MPEG標准演進
人類獲取的信息中70%來自於視覺,視頻信息在多媒體信息中佔有重要地位;同時視頻數據冗餘度最大,經壓縮處理後的視頻質量高低是決定多媒體服務質量的關鍵因素。因此數字視頻技術是多媒體應用的核心技術,對視頻編碼的研究已成為信息技術領域的熱門話題。
視頻編碼的研究課題主要有數據壓縮比、壓縮/解壓速度及快速實現演算法三方面內容。以壓縮/解壓後數據與壓縮前原始數據是否完全一致作為衡量標准,可將數據壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統壓縮編碼建立在仙農資訊理論基礎之上的,以經典集合論為工具,用概率統計模型來描述信源,其壓縮思想基於數據統計,因此只能去除數據冗餘,屬於低層壓縮編碼的范疇。
伴隨著視頻編碼相關學科及新興學科的迅速發展,新一代數據壓縮技術不斷誕生並日益成熟,其編碼思想由基於像素和像素塊轉變為基於內容 (content-based)。它突破了仙農資訊理論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內容冗餘來實現數據壓縮,可分為基於對象(object-based)和基於語義(semantics-based)兩種,前者屬於中層壓縮編碼,後者屬於高層壓縮編碼。
與此同時,視頻編碼相關標準的制定也日臻完善。視頻編碼標准主要由ITU-T和ISO/IEC開發。ITU-T發布的視頻標准有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列標准有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,並且計劃公布MPEG-21。
MPEG即Moving Picture Expert Group(運動圖像專家組),它是專門從事制定多媒體視音頻壓縮編碼標準的國際組織。MPEG系列標准已成為國際上影響最大的多媒體技術標准,其中MPEG-1和MPEG-2是採用以仙農資訊理論為基礎的預測編碼、變換編碼、熵編碼及運動補償等第一代數據壓縮編碼技術;MPEG-4(ISO/IEC 14496)則是基於第二代壓縮編碼技術制定的國際標准,它以視聽媒體對象為基本單元,採用基於內容的壓縮編碼,以實現數字視音頻、圖形合成應用及互動式多媒體的集成。MPEG系列標准對VCD、DVD等視聽消費電子及數字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產業的發展產生了巨大而深遠的影響。
MPEG-4視頻編碼核心思想及關鍵技術
核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是採用第一代壓縮編碼技術,著眼於圖像信號的統計特性來設計編碼器,屬於波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時間先後分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下缺陷:
· 將圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現嚴重的塊效應,即馬賽克效應;
· 不能對圖像內容進行訪問、編輯和回放等*作;
· 未充分利用人類視覺系統(HVS,Human Visual System)的特性。
MPEG-4則代表了基於模型/對象的第二代壓縮編碼技術,它充分利用了人眼視覺特性,抓住了圖像信息傳輸的本質,從輪廓、紋理思路出發,支持基於視覺內容的交互功能,這適應了多媒體信息的應用由播放型轉向基於內容的訪問、檢索及*作的發展趨勢。
AV對象(AVO,Audio Visual Object)是MPEG-4為支持基於內容編碼而提出的重要概念。對象是指在一個場景中能夠訪問和*縱的實體,對象的劃分可根據其獨特的紋理、運動、形狀、模型和高層語義為依據。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽內容的表示單元,其基本單位是原始AV對象,它可以是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲與傳輸以及可交互*作的特性,它又可進一步組成復合AV對象。因此MPEG-4標準的基本內容就是對AV對象進行高效編碼、組織、存儲與傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術。
MPEG-4不僅可提供高壓縮率,同時也可實現更好的多媒體內容互動性及全方位的存取性,它採用開放的編碼系統,可隨時加入新的編碼演算法模塊,同時也可根據不同應用需求現場配置解碼器,以支持多種多媒體應用。
MPEG-4 採用了新一代視頻編碼技術,它在視頻編碼發展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視頻對象,從而實現了從基於像素的傳統編碼向基於對象和內容的現代編碼的轉變,因而引領著新一代智能圖像編碼的發展潮流。
關鍵技術
MPEG-4除採用第一代視頻編碼的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創見性的關鍵技術,並在第一代視頻編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。
A. 視頻對象提取技術
MPEG-4實現基於內容交互的首要任務就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然後針對不同對象採用相應編碼方法,以實現高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關鍵技術,也是新一代視頻編碼的研究熱點和難點。
視頻對象分割涉及對視頻內容的分析和理解,這與人工智慧、圖像理解、模式識別和神經網路等學科有密切聯系。目前人工智慧的發展還不夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關於計算機視覺的研究也表明要實現正確的圖像分割需要在更高層次上對視頻內容進行理解。因此,盡管MPEG-4 框架已經制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認為是一個具有挑戰性的難題,基於語義的分割則更加困難。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數據進行簡化以利於分割,這可通過低通濾波、中值濾波、形態濾波來完成;然後對視頻/圖像數據進行特徵提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特徵;再基於某種均勻性標准來確定分割決策,根據所提取特徵將視頻數據歸類;最後是進行相關後處理,以實現濾除雜訊及准確提取邊界。
在視頻分割中基於數學形態理論的分水嶺(watershed)演算法被廣泛使用,它又稱水線演算法,其基本過程是連續腐蝕二值圖像,由圖像簡化、標記提取、決策、後處理四個階段構成。分水嶺演算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、准確得到運動物體邊緣的優點。但分割時需要梯度信息,對雜訊較敏感,且未利用幀間信息,通常會產生圖像過度分割。
B. VOP視頻編碼技術
視頻對象平面(VOP,Video Object Plane)是視頻對象(VO)在某一時刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO採用不同的編碼策略,即對前景VO的壓縮編碼盡可能保留細節和平滑;對背景VO則採用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基於對象的視頻編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產生的方塊效應,而且使用戶可與場景交互,從而既提高了壓縮比,又實現了基於內容的交互,為視頻編碼提供了廣闊的發展空間。
MPEG-4支持任意形狀圖像與視頻的編解碼。對於任意形狀視頻對象。對於極低比特率實時應用,如可視電話、會議電視,MPEG-4則採用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進行編碼。
傳統的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現了傳統編碼與基於內容編碼在MPEG-4中的統一。VO概念的引入,更加符合人腦對視覺信息的處理方式,並使視頻信號的處理方式從數字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用及更多的內容交互成為可能。因此VOP視頻編碼技術被譽為視頻信號處理技術從數字化進入智能化的初步探索。
C. 視頻編碼可分級性技術
隨著網際網路業務的巨大增長,在速率起伏很大的IP(Internet Protocol)網路及具有不同傳輸特性的異構網路上進行視頻傳輸的要求和應用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應用非常廣泛,且具有很高的理論研究及實際應用價值,因此受到人們的極大關注。
視頻編碼的可分級性(scalability)是指碼率的可調整性,即視頻數據只壓縮一次,卻能以多個幀率、空間解析度或視頻質量進行解碼,從而可支持多種類型用戶的各種不同應用要求。
MPEG-4通過視頻對象層(VOL,Video Object Layer)數據結構來實現分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了視頻序列的基本信息,增強層提供了視頻序列更高的解析度和細節。
在隨後增補的視頻流應用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細可伸縮性)視頻編碼演算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細可伸縮性)視頻編碼演算法。
FGS編碼實現簡單,可在編碼速率、顯示解析度、內容、解碼復雜度等方面提供靈活的自適應和可擴展性,且具有很強的帶寬自適應能力和抗誤碼性能。但還存在編碼效率低於非可擴展編碼及接收端視頻質量非最優兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼演算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
D. 運動估計與運動補償技術
MPEG-4採用I-VOP、P-VOP、B-VOP三種幀格式來表徵不同的運動補償類型。它採用了H.263中的半像素搜索(half pixel searching)技術和重疊運動補償(overlapped motion compensation)技術,同時又引入重復填充(repetitive padding)技術和修改的塊(多邊形)匹配(modified block (polygon)matching)技術以支持任意形狀的VOP區域。
此外,為提高運動估計演算法精度,MPEG-4採用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進的PMVFAST(Predictive MVFAST)方法用於運動估計。對於全局運動估計,則採用了基於特徵的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4視頻編碼中,運動估計相當耗時,對編碼的實時性影響很大。因此這里特別強調快速演算法。運動估計方法主要有像素遞歸法和塊匹配法兩大類,前者復雜度很高,實際中應用較少,後者則在H.263和MPEG中廣泛採用。在塊匹配法中,重點研究塊匹配准則及搜索方法。目前有三種常用的匹配准則:
(1)絕對誤差和(SAD, Sum of Absolute Difference)准則;
(2)均方誤差(MSE, Mean Square Error)准則;
(3)歸一化互相關函數(NCCF, Normalized Cross Correlation Function)准則。
在上述三種准則中,SAD准則具有不需乘法運算、實現簡單方便的優點而使用最多,但應清楚匹配准則的選用對匹配結果影響不大。
在選取匹配准則後就應進行尋找最優匹配點的搜索工作。最簡單、最可靠的方法是全搜索法(FS, Full Search),但計算量太大,不便於實時實現。因此快速搜索法應運而生,主要有交叉搜索法、二維對數法和鑽石搜索法,其中鑽石搜索法被MPEG-4校驗模型(VM, Verification Model)所採納,下面詳細介紹。
鑽石搜索(DS, Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點,是現有性能最優的快速搜索演算法之一。其基本思想是利用搜索模板的形狀和大小對運動估計演算法速度及精度產生重要影響的特性。在搜索最優匹配點時,選擇小的搜索模板可能會陷入局部最優,選擇大的搜索模板則可能無法找到最優點。因此DS演算法針對視頻圖像中運動矢量的基本規律,選用了兩種形狀大小的搜索模板。
· 大鑽石搜索模板(LDSP, Large Diamond Search Pattern),包含9個候選位置;
· 小鑽石搜索模板(SDSP, Small Diamond Search Pattern),包含5個候選位置。
DS演算法搜索過程如下:開始階段先重復使用大鑽石搜索模板,直到最佳匹配塊落在大鑽石中心。由於LDSP步長大,因而搜索范圍廣,可實現粗定位,使搜索不會陷於局部最小,當粗定位結束後,可認為最優點就在LDSP 周圍8 個點所圍菱形區域中。然後再使用小鑽石搜索模板來實現最佳匹配塊的准確定位,以不產生較大起伏,從而提高運動估計精度。
此外Sprite視頻編碼技術也在MPEG-4中應用廣泛,作為其核心技術之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個視頻對象在視頻序列中所有出現部分經拼接而成的一幅圖像。利用Sprite可以直接重構該視頻對象或對其進行預測補償編碼。
Sprite視頻編碼可視為一種更為先進的運動估計和補償技術,它能夠克服基於固定分塊的傳統運動估計和補償技術的不足,MPEG-4正是採用了將傳統分塊編碼技術與Sprite編碼技術相結合的策略。
MPEG4的應用領域
憑借著出色的性能,MPEG4技術目前在多媒體傳輸、多媒體存儲等領域得到了廣泛的應用,下面我們就來看看目前在那些領域MPEG4技術得到了大顯伸手的機會。
1、精彩的視頻世界
精彩的視頻世界是MPEG4技術應用最多也是最為廣大朋友所熟悉的的形式。目前它主要以兩種形式出現,一種是DIVX-MPEG4影碟(國內市面上已出現,且D版居多),另一種是網上MPEG4電影。
(1)、我們先來說說DIVX-MPEG4影碟,DIVX視頻編碼技術實際上就是MPEG4壓縮技術,它由微軟MPEG4V3修改而來,使用的是MPEG4壓縮演算法,並同時分離視頻和音頻。它的核心部分便是由DivX對DVD音視頻進行壓縮,生成Mpeg4視頻格式文件(也就是AVI格式)。
小提示:筆者也是經常被朋友所問到:「我看到的MPEG4電影片段明明是avi(擴展名)格式文件,並且Windows的媒體播放器也與之關聯,但就是無法播放」。其實, MPEG4並沒有確定必須用什麼擴展名,它只是一種編碼方法而已。使用avi作為擴展名,是一種習慣性的沿用。
在計算機上播放MPEG4影音文件的方法目前有兩種:第一種是用諸如DivxPlayer等專門的播放軟體來播放;第二種播放方法是安裝MPEG4(Divx)插件後,用Windows自帶的媒體播放機來播放。
(2)、隨著網路技術的不斷發展,互聯網上的視頻流應用也成為了近幾年的熱門話題。目前,在互聯網上比較流行的幾種影像格式包括Quicktime、RealPlay以及微軟的MediaPlayer等。MPEG4技術出現之後,互聯網上又出現了MPEG4格式的電影,不過在觀看前,系統會提示你下載最新的MPEG4解碼軟體。
小提示:大家平時在網上可能經常會看見ASF格式的電影,其實它也是微軟公司開發出的一種可以直接在網上觀看視頻節目的壓縮格式。使用的也是MPEG4的壓縮演算法,但因為它是以網上即時觀看電影的視頻流格式存在的,所以它的圖像質量相對要差一些。
2、低比特率下的多媒體通信,
目前,MPEG4技術已經廣泛的應用在如視頻電話、視頻電子郵件、移動通信、電子新聞等多媒體通信領域。由於這些應用對傳輸速率要求較低,一般在4.8~64kbit/s之間,解析度為176×144左右。因此MPEG4技術完全可以充分的利用網路帶寬,通過幀重建技術壓縮和傳輸數據,以最少的數據量獲得最佳的圖像質量。
3、實時多媒體監控。
多媒體監控領域原來一直是MPEG1技術擔當重任,但近些年來,它們也是「城頭變換大王旗」了。由於MPEG4壓縮技術原本是一種適用在低帶寬下進行信息交換的音視頻處理技術,它的特點是可以動態的偵測圖像各個區域變化,基於對象的調整壓縮方法可以獲得比MPEG1更大的壓縮比,使壓縮碼流更低。因此,盡管MPEG4技術一開始並不是專為視頻監控壓縮領域而開發的,但它高清晰度的視頻壓縮,在實時多媒體監控上,無能是存儲量,傳輸的速率,清晰度都比MPEG1具有更大的優勢。
4、基於內容存儲和檢索的多媒體系統。
由於MPEG4在壓縮方法上遠遠優於MPEG1技術,更是MJPEG技術所不能比擬的。 經過專家的測試表明,在相同清晰度對應MPEG1(500Kbits/sec)碼流情況下, MPEG4比MPEG1節省了2/3的硬碟空間,在一般活動場景下也節省近一般的容量。因此無論是從內容存儲量,還是從多媒體文件的檢索速度來說,MPEG4技術都是多媒體系統應用的不二之選。
5、硬體產品上面的應用
目前,MPEG4技術在硬體產品上也已開始逐步得到應用。特別是在視頻監控、播放上,這項高清晰度,高壓縮的技術得到了眾多硬體廠商的鍾愛,而市場上支持MPEG4技術的產品也是種類繁多。下面筆者就列舉一些代表性的產品,旨在讓讀者了解MPEG4技術在今天應用范圍之廣。
(1)、攝像機:日本夏普公司推出過應用在互聯網上的數字攝像機VN-EZ1。這台網路攝像機利用MPEG4格式,可把影像文件壓縮為ASF(高級流格式),用戶只要利用微軟公司的MediaPlayer播放程序,就可以直接在電腦上進行播放。
(2)、播放機:飛利浦公司於今年八月份推出了一款支持DivX的DVD播放機DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4標准,而對於新標準的支持則可以通過升級固件來實現。
(3)、數碼相機:日本京瓷公司在11月中旬發售其最新款數碼相機Finecam L30,這款是採用300萬像素、3倍光學變焦設計的數碼相機產品, L30採用了MPEG4格式動態視頻錄制,可以讓動態視頻錄制畫面效果比傳統數碼相機更出色。
(4)、手機:在手機領域,MPEG4技術更是得到了廣泛的應用,各大手機廠商也都推出了可拍攝MPEG4動態視頻的手機型號,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
(5)、MPEG4數字硬碟:在今年深圳舉行的安防展覽會上,開發數字錄像監控產品的廠家紛紛推出了他們的最新產品,而支持MPEG4的DVR壓縮技術也成為改展會上的亮點。
如北京華青紫博科技推出的「E眼神MPEG4數字視頻王」便是一款基於網路環境的高清晰數字化監控報警系統。內置多畫面處理器,集現場監控、監聽、多路同時數字錄像與回放等多種功能為一體。
其實,市場上還有許多基於MPEG4技術的硬體產品,筆者這里就不一一列舉了,不過筆者相信,隨著視頻壓縮技術的不斷發展,MPEG4技術的產品會越來越多的出現在我們生活,工作中。