㈠ ffmpeg 基本用法
1、libavformat:用於各種音視頻封裝格式的生成和解析,包括獲取解碼所需信息以生成解碼上下文結構和讀取音視頻幀等功能,包含demuxers和muxer庫;
2、libavcodec:用於各種類型聲音/圖像編解碼;
3、libavutil:包含一些公共的工具函數;
4、libswscale:用於視頻場景比例縮放、色彩映射轉換;
5、libpostproc:用於後期效果處理;
6、ffmpeg:是一個命令行工具,用來對視頻文件轉換格式,也支持對電視卡實時編碼;
7、ffsever:是一個HTTP多媒體實時廣播流伺服器,支持時光平移;
8、ffplay:是一個簡單的播放器,使用ffmpeg 庫解析和解碼,通過SDL顯示;
在這組成部分中,需要熟悉基礎概念有
容器(Container)
容器就是一種文件格式,比如flv,mkv等。包含下面5種流以及文件頭信息。
流(Stream)
是一種視頻數據信息的傳輸方式,5種流:音頻,視頻,字幕,附件,數據。
幀(Frame)
幀代表一幅靜止的圖像,分為I幀,P幀,B幀。
編解碼器(Codec)
是對視頻進行壓縮或者解壓縮,CODEC =COde (編碼) +DECode(解碼)
復用/解復用(mux/demux)
把不同的流按照某種容器的規則放入容器,這種行為叫做復用(mux)
把不同的流從某種容器中解析出來,這種行為叫做解復用(demux)
1、FFmpeg程序把-i參數指定的若干文件內容讀入到內存,按照輸入的參數或者程序默認的參數來處理並且把結果寫入到若乾的文件中。輸入和輸出文件可以是計算機文件、管道、網路流、捕獲設備等。
2、FFmpeg用libavformat包調用解復用器(demuxers)來讀取輸入文件中被編碼的數據包(packets),如果有多個輸入文件,FFmpeg以有效輸入流的最小時間戳來同步,
3、然後解碼器(decoder)從已編碼的數據包中產生未被壓縮的幀(frame),在那之後調用可選的過濾器。
4、這些幀被傳遞到編碼器,編碼器會產生新的編碼包
5、把新的編碼包傳遞給復用器(muxer)處理並且把結果寫入到輸出文件中。
在多媒體處理中,filter的意思是被編碼到輸出文件之前用來修改輸入文件內容的一個軟體工具。如:視頻翻轉,旋轉,縮放等。
語法:[input_link_label1]… filter_name=parameters [output_link_label1]…
1、視頻過濾器 -vf
如input.mp4視頻按順時針方向旋轉90度
ffplay -i input.mp4 -vf transpose=1
如input.mp4視頻水平翻轉(左右翻轉)
ffplay -i input.mp4 -vf hflip
2、音頻過濾器 -af
實現慢速播放,聲音速度是原始速度的50%
offplay input.mp3 -af atempo=0.5
過濾器鏈(Filterchain)
Filterchain = 逗號分隔的一組filter
語法:「filter1,filter2,filter3,…filterN-2,filterN-1,filterN」
順時針旋轉90度並水平翻轉
ffplay -i input.mp4 -vf transpose=1,hflip
過濾器圖(Filtergraph)
第一步: 源視頻寬度擴大兩倍。
ffmpeg -i ji.mp4 -t 10 -vf pad=2*iw output.mp4
第二步:源視頻水平翻轉
ffmpeg -i ji.mp4 -t 10 -vf hflip output2.mp4
第三步:水平翻轉視頻覆蓋output.mp4
ffmpeg -i output.mp4 -i output2.mp4 -filter_complex overlay=w compare.mp4
是不是很復雜?
用帶有鏈接標記的過濾器圖(Filtergraph)只需一條命令
基本語法
Filtergraph = 分號分隔的一組filterchain
「filterchain1;filterchain2;…filterchainN-1;filterchainN」
Filtergraph的分類
1、簡單(simple) 一對一
2、復雜(complex)多對一, 多對多
簡單過濾器圖處理流程:
復雜過濾器圖處理流程:
對於剛才用三步處理的方式,用過濾器圖可以這樣做:
ffplay -f lavfi -i testsrc -vf split[a][b];[a]pad=2*iw[1];[b]hflip[2];[1][2]overlay=w
F1: split過濾器創建兩個輸入文件的拷貝並標記為[a],[b]
F2: [a]作為pad過濾器的輸入,pad過濾器產生2倍寬度並輸出到[1].
F3: [b]作為hflip過濾器的輸入,vflip過濾器水平翻轉視頻並輸出到[2].
F4: 用overlay過濾器把 [2]覆蓋到[1]的旁邊.
一些多媒體容器比如AVI,mkv,mp4等,可以包含不同種類的多個流,如何從容器中抽取各種流呢?
語法:
-map file_number[:stream_type][:stream_number]
這有一些特別流符號的說明:
1、-map 0 選擇第一個文件的所有流
2、-map i:v 從文件序號i(index)中獲取所有視頻流, -map i:a 獲取所有音頻流,-map i:s 獲取所有字幕流等等。
3、特殊參數-an,-vn,-sn分別排除所有的音頻,視頻,字幕流
tip:對比上面的圖,可以知道,假設有兩個文件ffmpeg -i fist.mp4 -i second.mp4 ..output.mp4
如果想去兩個文件的音視頻流 ffmpeg -i fist.mp4 -i second.mp4 map:0 -map 1 output.mp4
如果想去第一個文件的視頻流,第二個文件的音頻流ffmpeg -i fist.mp4 -i second.mp4 -map:v:0 -map:a:0 output.mp4
可用的bit流 :ffmpeg –bsfs
可用的編解碼器:ffmpeg –codecs
可用的解碼器:ffmpeg –decoders
可用的編碼器:ffmpeg –encoders
可用的過濾器:ffmpeg –filters
可用的視頻格式:ffmpeg –formats
可用的聲道布局:ffmpeg –layouts
可用的license:ffmpeg –L
可用的像素格式:ffmpeg –pix_fmts
可用的協議:ffmpeg -protocals
碼率和幀率是視頻文件的最重要的基本特徵,對於他們的特有設置會決定視頻質量。如果我們知道碼率和時長那麼可以很容易計算出輸出文件的大小。
幀率:幀率也叫幀頻率,幀率是視頻文件中每一秒的幀數,肉眼想看到連續移動圖像至少需要15幀。
碼率:比特率(也叫碼率,數據率)是一個確定整體視頻/音頻質量的參數,秒為單位處理的位元組數,碼率和視頻質量成正比,在視頻文件中中比特率用bps來表達。
設置幀率
1、用 -r 參數設置幀率
ffmpeg –i input.mp4 –r fps output.mp4
2、用fps filter設置幀率
ffmpeg -i clip.mpg -vf fps=fps=25 clip.webm
設置碼率 –b 參數
-b
ffmpeg -i film.avi -b 1.5M film.mp4
音頻:-b:a 視頻: - b:v
設置視頻碼率為1500kbps
ffmpeg -i input.avi -b:v 1500k output.mp4
控制輸出文件大小
-fs (file size首字母縮寫)
ffmpeg -i input.avi -fs 1024K output.mp4
計算輸出文件大小
(視頻碼率+音頻碼率) * 時長 /8 = 文件大小K
用-s參數設置視頻解析度,參數值wxh,w寬度單位是像素,h高度單位是像素
ffmpeg -i input_file -s 320x240 output_file
2、預定義的視頻尺寸
下面兩條命令有相同效果
ffmpeg -i input.avi -s 640x480 output.avi
ffmpeg -i input.avi -s vga output.avi
下表列出了所有的預定義尺寸
Scale filter調整解析度
Scale filter的優點是可以使用一些額外的參數
語法:
Scale=width:height[:interl={1|-1}]
下表列出了常用的額外參數
下面兩條命令有相同效果
ffmpeg -i input.mpg -s 320x240 output.mp4
ffmpeg -i input.mpg -vf scale=320:240 output.mp4
對輸入視頻成比例縮放
改變為源視頻一半大小
ffmpeg -i input.mpg -vf scale=iw/2:ih/2 output.mp4
改變為原視頻的90%大小:
ffmpeg -i input.mpg -vf scale=iw 0.9:ih 0.9 output.mp4
在未知視頻的解析度時,保證調整的解析度與源視頻有相同的橫縱比。
寬度固定400,高度成比例:
ffmpeg -i input.avi -vf scale=400:400/a
ffmpeg -i input.avi -vf scale=400:-1
相反地,高度固定300,寬度成比例:
ffmpeg -i input.avi -vf scale=-1:300
ffmpeg -i input.avi -vf scale=300*a:300
從輸入文件中選取你想要的矩形區域到輸出文件中,常見用來去視頻黑邊。
語法:crop:ow[:oh[:x[:y:[:keep_aspect]]]]
裁剪輸入視頻的左三分之一,中間三分之一,右三分之一:
ffmpeg -i input -vf crop=iw/3:ih :0:0 output
ffmpeg -i input -vf crop=iw/3:ih :iw/3:0 output
ffmpeg -i input -vf crop=iw/3:ih :iw/3*2:0 output
裁剪幀的中心
當我們想裁剪區域在幀的中間時,裁剪filter可以跳過輸入x和y值,他們的默認值是
Xdefault = ( input width - output width)/2
Ydefault = ( input height - output height)/2
ffmpeg -i input_file -v crop=w:h output_file
裁剪中間一半區域:
ffmpeg -i input.avi -vf crop=iw/2:ih/2 output.avi
比較裁剪後的視頻和源視頻比較
ffplay -i ji.mp4 -vf split[a][b];[a]drawbox=x=(iw-300)/2:(ih-300)/2:w=300:h=300:c=yellow[A];[A]pad=2 iw[C];[b]crop=300:300:(iw-300)/2:(ih-300)/2[B];[C][B]overlay=w 2.4:40
自動檢測裁剪區域�
cropdetect filter 自動檢測黑邊區域
ffplay ji.mp4 -vf cropdetect
填充視頻(pad)
在視頻幀上增加一快額外額區域,經常用在播放的時候顯示不同的橫縱比
語法:pad=width[:height:[:x[:y:[:color]]]]
創建一個30個像素的粉色寬度來包圍一個SVGA尺寸的圖片:
ffmpeg -i photo.jpg -vf pad=860:660:30:30:pink framed_photo.jpg
同理可以製作input.mp4視頻用30個像素粉色包圍視頻
ffplay -i input.mp4 -vf pad=iw+60:ih+60:30:30:pink
4:3到16:9
一些設備只能播放16:9的橫縱比,4:3的橫縱比必須在水平方向的兩邊填充成16:9,
高度被保持,寬度等於高度乘以16/9,x(輸入文件水平位移)值由表達式(output_width - input_width)/2來計算。
4:3到16:9的通用命令是:
ffmpeg -i input.mp4 -vf pad=ih 16/9:ih :(ow-iw)/2:0:color output.mp4
eg:ffplay -f input.mp4 -vf pad=ih 16/9:ih:(ow-iw)/2:0:pink
16:9到4:3
為了用4:3的橫縱比來顯示16:9的橫縱比,填充輸入文件的垂直兩邊,寬度保持不變,高度是寬度的3/4,y值(輸入文件的垂直偏移量)是由一個表達式(output_height-input_height)/2計算出來的。
16:9到4:3的通用命令:
ffmpeg -i input.mp4-vf pad=iw :iw 3/4:0:(oh-ih)/2:color output.mp4
eg:ffplay -i input.mp4 =size=320x180 -vf pad=iw:iw 3/4:0:(oh-ih)/2:pink
水平翻轉語法: -vf hflip
ffplay -f lavfi -i testsrc -vf hflip
垂直翻轉語法:-vf vflip
ffplay -f lavfi -i testsrc -vf vflip
語法:transpose={0,1,2,3}
0:逆時針旋轉90°然後垂直翻轉
1:順時針旋轉90°
2:逆時針旋轉90°
3:順時針旋轉90°然後水平翻轉
模糊
語法:boxblur=luma_r:luma_p[:chroma_r:chram_p[:alpha_r:alpha_p]]
ffplay -f lavfi -i testsrc -vf boxblur=1:10:4:10
注意:luma_r和alpha_r半徑取值范圍是0~min(w,h)/2, chroma_r半徑的取值范圍是0~min(cw/ch)/2
銳化
語法:-vf unsharp=l_msize_x:l_msize_y:l_amount:c_msize_x:c_msize_y:c_amount
所有的參數是可選的,默認值是5:5:1.0:5:5:0.0
l_msize_x:水平亮度矩陣,取值范圍3-13,默認值為5
l_msize_y:垂直亮度矩陣,取值范圍3-13,默認值為5
l_amount:亮度強度,取值范圍-2.0-5.0,負數為模糊效果,默認值1.0
c_msize_x:水平色彩矩陣,取值范圍3-13,默認值5
c_msize_y:垂直色彩矩陣,取值范圍3-13,默認值5
c_amount:色彩強度,取值范圍-2.0-5.0,負數為模糊效果,默認值0.0
eg:
使用默認值,亮度矩陣為5x5和亮度值為1.0
ffmpeg -i input.mp4 -vf unsharp output.mp4
高斯模糊效果(比較強的模糊):
ffplay -i input.mp4 -vf unsharp=13:13:-2
語法:overlay[=x[:y]
所有的參數都是可選,默認值都是0
Logo在左上角
ffmpeg -i input.mp4 -i logo.png -filter_complex overlay output.mp4
右上角:
ffmpeg -i input.mp4 -i logo.png -filter_complex overlay=W-w output.mp4
左下角:
ffmpeg -i input.mp4 -i logo.png -filter_complex overlay=0:H-h output.mp4
右下角:
ffmpeg -i input.mp4 -i logo.png -filter_complex overlay=W-w:H-h output.mp4
刪除logo
語法:-vf delogo=x:y:w:h[:t[:show]]
x:y 離左上角的坐標
w:h logo的寬和高
t: 矩形邊緣的厚度默認值4
show:若設置為1有一個綠色的矩形,默認值0.
ffplay -i ji.mp4 -vf delogo=50:51:60:60:100:0
語法:
drawtext=fontfile=font_f:text=text1[:p3=v3[:p4=v4[…]]]
常用的參數值
x:離左上角的橫坐標
y: 離左上角的縱坐標
fontcolor:字體顏色
fontsize:字體大小
text:文本內容
textfile:文本文件
t:時間戳,單位秒
n:幀數開始位置為0
draw/enable:控制文件顯示,若值為0不顯示,1顯示,可以使用函數
1、在左上角添加Welcome文字
ffplay -i color=c=white -vf drawtext=fontfile=arial.ttf:text=Welcom
2、在中央添加Good day
ffplay -i color=c=white -vf drawtext="fontfile=arial.ttf:text='Goodday':x=(w-tw)/2:y=(h-th)/2"
3、設置字體顏色和大小
ffplay -i color=c=white -vf drawtext="fontfile=arial.ttf:text='Happy Holidays':x=(w-tw)/2:y=(h-th)/2:fontcolor=green:fontsize=30"
動態文本
用 t (時間秒)變數實現動態文本
1、頂部水平滾動
ffplay -i ji.mp4 -vf drawtext="fontfile=arial.ttf:text='Dynamic RTL text':x=w-t 50:fontcolor=darkorange:fontsize=30"
2、底部水平滾動
ffplay -i ji.mp4 -vf drawtext="fontfile=arial.ttf:textfile=textfile.txt:x=w-t 50:y=h-th:fontcolor=darkorange:fontsize=30"
3、垂直從下往上滾動
ffplay ji.mp4 -vf drawtext="textfile=textfile:fontfile=arial.ttf:x=(w-tw)/2:y=h-t*100:fontcolor=white:fontsize=30「
在右上角顯示當前時間 localtime
ffplay ji.mp4 -vf drawtext="fontfile=arial.ttf:x=w-tw:fontcolor=white:fontsize=30:text='%{localtime:%H:%M:%S}'「
每隔3秒顯示一次當前時間
ffplay ji.mp4 -vf drawtext="fontfile=arial.ttf:x=w-tw:fontcolor=white:fontsize=30:text='%{localtime:%H:%M:%S}':enable=lt(mod(t,3),1)"
FFmpeg支持絕大多數圖片處理, 除LJPEG(無損JPEG)之外,其他都能被解碼,除了EXR,PIC,PTX之外,所有的都能被編碼。
截取一張圖片使用 –ss(seek from start)參數.
ffmpeg -ss 01:23:45 -i ji.mp4 image.jpg
從視頻中生成GIF圖片
ffmpeg -i ji.mp4 -t 10 -pix_fmt rgb24 ji.gif
轉換視頻為圖片(每幀一張圖)
ffmpeg -i clip.avi frame%4d.jpg
圖片轉換為視頻
ffmpeg -f image2 -i img%4d.jpg -r 25 video.mp4
和視頻一樣,圖片也可以被裁剪和填充
裁剪
ffmpeg -f lavfi -i rgbtestsrc -vf crop=150:150 crop_rg.png
填充
ffmpeg -f lavfi -i smptebars -vf pad=360:280:20:20:orange pad_smpte.jpg
和視頻一樣圖片同樣能翻轉,旋轉和覆蓋
翻轉
ffmpeg -i orange.jpg -vf hflip orange_hfilp.jpg
ffmpeg -i orange.jpg -vf vflip orange_vfilp.jpg
旋轉
ffmpeg -i -vf transpose=1 image_rotated.png
覆蓋
ffmpeg -f lavfi -i rgbtestsrc -s 400x300 rgb .png
ffmpeg -f lavfi -i smptebars smpte.png
ffmpeg -i rgb .png -i smpte.png -filter_complex overlay= (W-w)/2:(H-h)/2 rgb_smpte.png
屏幕錄像
顯示設備名稱
ffmpeg -list_devices 1 -f dshow -i mmy
調用攝像頭
ffplay -f dshow -i video="Integrated Camera"
保存為文件
ffmpeg -y -f dshow -s 320x240 -r 25 -i video="Integrated Camera" -b:v 800K -vcodec mpeg4 new.mp4
添加字幕subtitles
語法 –vf subtitles=file
ffmpeg -i ji.mp4 -vf subtitles=rgb.srt output.mp4
視頻顫抖、色彩平衡
視頻顫抖
ffplay –i ji.mp4 -vf crop=in_w/2:in_h/2:(in_w-out_w)/2+((in_w-out_w)/2) sin(n/10):(in_h-out_h)/2 +((in_h-out_h)/2) sin(n/7)
色彩平衡
ffplay -i ji.mp4 -vf curves=vintage
色彩變幻
ffplay -i ji.mp4 -vf hue="H=2 PI t: s=sin(2 PI t)+1「
彩色轉換黑白
ffplay -i ji.mp4 -vf lutyuv="u=128:v=128"
設置音頻視頻播放速度
3倍視頻播放視頻
ffplay -i ji.mp4 -vf setpts=PTS/3
¾速度播放視頻
ffplay -i ji.mp4 -vf setpts=PTS/(3/4)
2倍速度播放音頻
ffplay -i speech.mp3 -af atempo=2
截圖
每隔一秒截一張圖
ffmpeg -i input.flv -f image2 -vf fps=fps=1 out%d.png
每隔20秒截一張圖
ffmpeg -i input.flv -f image2 -vf fps=fps=1/20 out%d.png
注意:ffmpeg version N-57961-gec8e68c版本最多可以每隔20s截一張圖。
多張截圖合並到一個文件里(2x3) 每隔一千幀(秒數=1000/fps25)即40s截一張圖
ffmpeg -i ji.mp4 -frames 3 -vf "select=not(mod(n,1000)),scale=320:240,tile=2x3" out.png
本篇文章主要記錄ffmpeg的一些基礎指令操作,該資料的來源是源於網上的一個ppt文檔,感謝文檔的總結。
㈡ 如何用 FFmpeg 編寫一個簡單播放器詳
FFMPEG是一個很好的庫,可以用來創建視頻應用或者生成特定的工具。FFMPEG幾乎為你把所有的繁重工作都做了,比 如解碼、編碼、復用和解復用。這使得多媒體應用程序變得容易編寫。悄絕它是一個簡單的,用羨運運C編寫的,快速的並且能夠解碼幾乎所有你能用到的格式,當然也包括編碼多種格式。具體可以參考這個文庫裡面的教程。
兄梁如何用FFmpeg編寫一個簡單播放器詳細步驟介紹_網路文庫
http://wenku..com/link?url=c0ZwFx4O7UvVWF4UZM8xgaefRH-QjmkXw4h-i
㈢ FFmpeg之Linux下編譯與調試
下面的一切都是在 root 模式下進行的,可以不再 root 模式下進行
基礎環境就是編譯中畝代碼的基礎庫,Ubuntu聯網安裝軟體很簡單,一個語句即可搞定,這里列出語句如下:
依賴庫分兩方面,參考以下網站列出的依賴庫信息,本文選擇凳棗的版本均參考於此網頁: FFmpeg依賴庫信息
首先創建 FFmpeg 代碼目錄,所有的源代碼放在這個目錄下
FFmpeg 編譯之後,即可使用。編譯生成的可執行程序在 ~/bin 目錄下
註:上面的 ./configure 配置編譯後並不能進行調試,需要如下配置.
剛才的工程可以運行,但不能debug。解決此問題,首先認定一點,生成的可執行程序中,ffmpeg 不包含調試信息,調試信息在 ffmpeg_g 中,debug 要選擇 ffmpeg_g。
另外,./config選項也是確定包含調試信息的核心,需要在config中添加:
採用以下命令重新賣粗森config:
一些注意事項; 在使用 ffplay 播放生成 h264 格式的視頻時,播放速度會加快,解決方式:不要使用 FFmpeg 轉碼生成純 h264 格式的視頻,要使用一種容器包含 h264 視頻,即生成一種音視頻流格式,也就是不要生成純粹的 h264 碼流,而是生成諸如 mkv 等格式的文件。
㈣ FFmpeg工具
ffmpeg在做音視頻編解碼時非常方便,所以很多場景下轉碼使用的是ffmpeg,通過ffmpeg –-help可以看到ffmpeg常見的命令大概分為六部分:
命令格式如下:
下面羅列一些ffmpeg常用的信息查詢命令:
1、查詢版本信息
2、ffmpeg查詢是否支持對應的視頻文件格式
使用ffmpeg轉嗎,有時候可能會遇到無法解析的視頻文件或者無法生成視頻文件,報錯提示不支持生成對應的視頻文件,這時候就需要查看當前使用的ffmpeg是否支持對應的視頻文件格式,需要使用ffmpeg -formats參數來查看:
根據上面輸出的信息可以看到,輸出的內容分為3個部分,具體如下。
輸出信息中包含了三部分內容,具體如下。
輸出信息的內容分為四列,具體如下。
從輸出的幫助信息中可以看到,FLV的muxer的信息包含兩大部分,具體如下。
從輸出的幫助信息可以看到,FLV的demuxer的信息包含兩大部分:
從幫助信息可以看到,H.264(AVC)的編碼參數包含兩大部分,具體如下。
從幫助信息可以看到,H.264(AVC)的解碼參數查看包括兩大部分,具體如下:
從幫助信息可以看到,colorkey濾鏡查看信息包含兩大部分,具體如下。
ffmpeg的封裝轉換(轉封裝)功能包含在AVFormat模塊中,通過libavformat庫進行Mux和Demux操作;多媒體文件的格式有很多種,這些格式中的很多參數在Mux與Demux的操作參數中是公用的,下面來詳細介紹一下這些公用的參數。
通過查看ffmpeg --help full信息,找到AVFormatContext參數部分,該參數下的所有參數均為封裝轉換可使用的參數。下表列出了ffmpeg AVFormatContext的主要參數及說明。
這些都是通用的封裝、解封裝操作時使用的參數,後續章節中介紹轉封裝操作、解封裝操作、封裝操作時,上述參數可以與對應的命令行參數搭配使用。
ffmpeg編解碼部分的功能主要是通過模塊AVCodec來完成的,通過libavcodec庫進行Encode與Decode操作。多媒體編碼格式的種類有很多,但是還是有很多通用的基本操作參數設置,下面來詳細介紹這些公用的參數。
通過命令ffmpeg --help full可以看到AVCodecContext參數列表信息。該選項下面的所有參數均為編解碼可以使用的參數。
ffmpeg還有一些更細化的參數,本節中並未詳細提及,可以根據本節中提到的查看方法查看ffmpeg的幫助文件以查看更多的內容,本節中介紹的是重點及常用的通用參數,後續章節中介紹編碼操作時,上述參數可以配合對應的例子使用。
ffmpeg工具的主要用途為編碼、解碼、轉碼以及媒體格式轉換,ffmpeg常用於進行轉碼操作,使用ffmpeg轉碼的主要原理如圖
通過之前介紹的參數,可以設置轉碼的相關參數,如果轉碼操作頻涉及封裝的改變,則可以通過設置AVCodec與AVFormat的操作參數進行封裝與編碼的改變,下面示例:
從輸出信息中可以看到,以上輸出的參數中使用了前面介紹過的參數,具體如下。
在 FFmpeg套件中,除了ffmpeg作為多媒體處理工具之外,還有ffprobe多媒體信息查看工具,ffprobe主要用來查看多媒體文件的信息,下面就來看一下ffprobe中常見的基本命令。
usage: ffprobe [OPTIONS] [INPUT_FILE] the other
ffprobe常用的參數比較多,可以通過ffprobe --help來查看詳細的幫助信息。
這些輸出的幫助信息既是ffprobe常用的操作參數,也是ffrpobe的基礎參數。例如查看log,查看每一個音頻數據包信息或者視頻數據包信息,查看節目信息,查看流信息,查看每一個流有多少幀以及每一個流有多少個音視頻包,查看視頻像素點的格式等。下面就來根據以上的輸出參數重點列舉幾個例子。
1)使用下面的命令,查看多媒體數據包信息:
通過show_packets查看的多媒體數據包信息使用PACKET標簽括起來,其中包含的信息主要如下:
2)除了以上欄位和信息之外,還可以通過如下的組合參數來查看包中的具體數據:
和上面的比起來多了一個data欄位,具體如下
[PACKET]
codec_type=video
stream_index=0
pts=379904
pts_time=24.733333
dts=379904
dts_time=24.733333
ration=512
ration_time=0.033333
size=2010
pos=3272564
flags=__
data=
00000000: 0000 07d6 419a cc21 3ffa 5800 0031 9893 ....A..!?.X..1..
00000010: d7e7 0641 039b 27c5 e0f8 5175 1abc 0e4f ...A..'...Qu...O
00000020: d710 f401 3224 0093 a2e5 c07e 9c30 0003 ....2$.....~.0..
略過一大段數據
00000770: 1ebe 840a 5ac2 4f9a 614c 5697 8eab fef8 ....Z.O.aLV.....
00000780: 0b59 9647 cc6d 8a4b f8c0 89e8 798e f569 .Y.G.m.K....y..I
00000790: 2aca ec22 e1f5 d2e5 31b1 010e 7725 e127 *.."....1...w%.'
000007a0: c5f4 7051 f07b 8449 649f 3fab 6a3d 3913 ..pQ.{.Id.?.j=9.
000007b0: d9e4 bdd6 0f22 fa77 2b32 35f5 f4f7 5393 .....".w+25...S.
000007c0: 1c9d fe72 1550 ba41 c774 5031 96d5 aef5 ...r.P.A.tP1....
000007d0: f1b9 77a7 ad54 0800 010f ..w..T....
[/PACKET]
從輸出的內容中可以看到多媒體包中包含的數據,那麼我們可以根據上述輸出內容中的pos,也就是文件偏移位置來查看,pos的值為3272564,將其轉換為十六進制位置為0x31EF74,這就是這個包在flv文件中的偏移量,可以使用Linux下的xxd 1.mp4命令進行查看:
0031ef70: 0000 000e 0000 07d6 419a cc21 3ffa 5800 ........A..!?.X.
0031ef80: 0031 9893 d7e7 0641 039b 27c5 e0f8 5175 .1.....A..'...Qu
0031ef90: 1abc 0e4f d710 f401 3224 0093 a2e5 c07e
0031efa0: 9c30 0003 389a 06b7 f211 fb06 362c 95a9 .0..8.......6,..
0031efb0: 0020 8f32 e280 6773 015e 78d2 87a3 e114 . .2..gs.^x.....
0031efc0: f3b3 9d2d ffd7 b202 2233 923f 3d42 bc7f ...-...."3.?=B..
可以看到從0x31EF74開始的數據和上面一致:0000 07d6 419a cc21 3ffa 5800。
通過ffprobe讀取packets來進行對應的數據分析,使用show_packets與show_data配合可以進行更加精確的分析。
3)除了packets與data之外,ffprobe還可以分析多媒體的封裝格式,其使用FORMAT標簽括起來顯示:
[FORMAT]
filename=1.mp4
nb_streams=2
nb_programs=0
format_name=mov,mp4,m4a,3gp,3g2,mj2
format_long_name=QuickTime / MOV
start_time=0.000000
ration=25.704000
size=3307949
bit_rate=1029551
probe_score=100
TAG:major_brand=isom
TAG:minor_version=512
TAG:compatible_brands=isomiso2avc1mp41
TAG:encoder=Lavf55.33.100
[/FORMAT]
下面是對輸出信息關鍵欄位的說明:
4)使用下面的命令可以查看視頻文件的幀信息,輸出的幀信息將使用FRAME標簽括起來:
[FRAME]
media_type=video
stream_index=0
key_frame=1
pts=0
pts_time=0.000000
pkt_dts=0
pkt_dts_time=0.000000
best_effort_timestamp=0
best_effort_timestamp_time=0.000000
pkt_ration=512
pkt_ration_time=0.033333
pkt_pos=22995
pkt_size=1888
width=720
height=1280
pix_fmt=yuv420p
sample_aspect_ratio=N/A
pict_type=I
coded_picture_number=0
display_picture_number=0
interlaced_frame=0
top_field_first=0
repeat_pict=0
color_range=tv
color_space=bt709
color_primaries=bt709
color_transfer=bt709
chroma_location=left
[/FRAME]
通過-show-frames參數可以查看每一幀的信息,下面就來介紹一下其中重要的信息,
在Windows下常用的Elecard StreamEye工具中打開查看MP4時,會很直觀地看到幀類型顯示,用ffprobe的pict_type同樣可以看到視頻的幀是I幀,P幀或者B幀;每一幀的大小同樣也可以通過ffprobe的pkt_size查看到。
5)通過-show_streams參數可以查看到多媒體文件中的流信息,流的信息將使用STREAM標簽括起來:
[STREAM]
index=0
codec_name=h264
codec_long_name=H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10
profile=Main
codec_type=video
codec_tag_string=avc1
codec_tag=0x31637661
width=720
height=1280
coded_width=720
coded_height=1280
closed_captions=0
film_grain=0
has_b_frames=0
sample_aspect_ratio=N/A
display_aspect_ratio=N/A
pix_fmt=yuv420p
level=42
color_range=tv
color_space=bt709
color_transfer=bt709
color_primaries=bt709
chroma_location=left
field_order=progressive
refs=1
is_avc=true
nal_length_size=4
id=0x1
r_frame_rate=30/1
avg_frame_rate=30/1
time_base=1/15360
start_pts=0
start_time=0.000000
ration_ts=388608
ration=25.300000
bit_rate=964695
max_bit_rate=N/A
bits_per_raw_sample=8
nb_frames=759
nb_read_frames=N/A
nb_read_packets=N/A
extradata_size=39
DISPOSITION:default=1
DISPOSITION:b=0
DISPOSITION:original=0
DISPOSITION:comment=0
DISPOSITION:lyrics=0
DISPOSITION:karaoke=0
DISPOSITION:forced=0
DISPOSITION:hearing_impaired=0
DISPOSITION:visual_impaired=0
DISPOSITION:clean_effects=0
DISPOSITION:attached_pic=0
DISPOSITION:timed_thumbnails=0
DISPOSITION:captions=0
DISPOSITION:descriptions=0
DISPOSITION:metadata=0
DISPOSITION:dependent=0
DISPOSITION:still_image=0
TAG:language=und
TAG:handler_name=VideoHandler
TAG:vendor_id=[0][0][0][0]
[/STREAM]
如以上輸出內容所示,從中可以看到流的信息,具體屬性及說明如下表
fprobe 使用前面的參數可以獲得key-value格式的顯示方式,但是閱讀起來因為習慣不同,可能有的人會認為方便,有的人認為不方便;如果要進行格式化的顯示,這樣就需要用到ffprobe -print_format 或者 ffprobe -of 參數來進行相應的格式輸出,而-print_format 支持多種格式輸出,包括XML,INI,JSON,CSV,FLAT等。下面列舉幾種常見的格式輸出的例子
<?xml version="1.0" encoding="UTF-8"?>
<ffprobe>
Input #0, mov,mp4,m4a,3gp,3g2,mj2, from Ƈ.mp4':
Metadata:
major_brand : isom
minor_version : 512
compatible_brands: isomiso2avc1mp41
encoder : Lavf55.33.100
Duration: 00:00:25.70, start: 0.000000, bitrate: 1029 kb/s
Stream #0:0 0x1 : Video: h264 (Main) (avc1 / 0x31637661), yuv420p(tv, bt709, progressive), 720x1280, 964 kb/s, 30 fps, 30 tbr, 15360 tbn (default)
Metadata:
handler_name : VideoHandler
vendor_id : [0][0][0][0]
Stream #0:1 0x2 : Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 72 kb/s (default)
Metadata:
handler_name : SoundHandler
vendor_id : [0][0][0][0]
<streams>
<stream index="0" codec_name="h264" codec_long_name="H.264 / AVC / MPEG-4 AVC / MPEG-4 part 10" profile="Main" codec_type="video" codec_tag_string="avc1" codec_tag="0x31637661" width="720" height="1280" coded_width="720" coded_height="1280" closed_captions="0" film_grain="0" has_b_frames="0" pix_fmt="yuv420p" level="42" color_range="tv" color_space="bt709" color_transfer="bt709" color_primaries="bt709" chroma_location="left" field_order="progressive" refs="1" is_avc="true" nal_length_size="4" id="0x1" r_frame_rate="30/1" avg_frame_rate="30/1" time_base="1/15360" start_pts="0" start_time="0.000000" ration_ts="388608" ration="25.300000" bit_rate="964695" bits_per_raw_sample="8" nb_frames="759" extradata_size="39">
<disposition default="1" b="0" original="0" comment="0" lyrics="0" karaoke="0" forced="0" hearing_impaired="0" visual_impaired="0" clean_effects="0" attached_pic="0" timed_thumbnails="0" captions="0" descriptions="0" metadata="0" dependent="0" still_image="0"/>
<tag key="language" value="und"/>
<tag key="handler_name" value="VideoHandler"/>
<tag key="vendor_id" value="[0][0][0][0]"/>
</stream>
<stream index="1" codec_name="aac" codec_long_name="AAC (Advanced Audio Coding)" profile="LC" codec_type="audio" codec_tag_string="mp4a" codec_tag="0x6134706d" sample_fmt="fltp" sample_rate="44100" channels="2" channel_layout="stereo" bits_per_sample="0" id="0x2" r_frame_rate="0/0" avg_frame_rate="0/0" time_base="1/44100" start_pts="0" start_time="0.000000" ration_ts="1133511" ration="25.703197" bit_rate="72863" nb_frames="1107" extradata_size="2">
<disposition default="1" b="0" original="0" comment="0" lyrics="0" karaoke="0" forced="0" hearing_impaired="0" visual_impaired="0" clean_effects="0" attached_pic="0" timed_thumbnails="0" captions="0" descriptions="0" metadata="0" dependent="0" still_image="0"/>
<tag key="language" value="und"/>
<tag key="handler_name" value="SoundHandler"/>
<tag key="vendor_id" value="[0][0][0][0]"/>
</stream>
</streams>
</ffprobe>
從輸出的內容可以看到,輸出的內容格式為XML格式,如果原有的業務本身就可以解析XML格式,那麼就不需要更改解析引擎,直接將輸出內容輸出為XML格式即可,解析引擎解析Packet信息是會更方便。
輸出INI格式:
輸出FLAT格式:
輸出JSON格式:
輸出CSV格式:
通過各種格式的輸出,可以使用對應的繪圖方式繪制出可視化圖形。
CSV格式輸出後可以使用Excel打開表格形式
可以在命令行中自行輸出,輸出的frame信息全部為視頻相關的信息。
使用ffprobe還可以查看很多信息,我們可以通過本節介紹的help方法查看更多更詳細的信息
在FFmpeg中通常使用ffplay作為播放器,其實ffplay同樣也可作為很多音視頻的圖形化分析工具,通過ffplay可以看到視頻圖像的運動估計方向、音頻數據的波形等,以下將介紹更多參數並舉例說明。
1)ffplay常用參數
ffplay不僅僅是播放器,同時也是測試ffmpeg的codec引擎、format引擎,以及filter引擎的工具,並且還可以進行可視化的媒體參數分析。其可以通過ffplay --help進行查看:
Simple media player
usage: ffplay [options] input_file
Main options:
-L show license
-h topic show help
-? topic show help
-help topic show help
--help topic show help
-version show version
-buildconf show build configuration
-formats show available formats
-muxers show available muxers
-demuxers show available demuxers
-devices show available devices
-codecs show available codecs
-decoders show available decoders
-encoders show available encoders
-bsfs show available bit stream filters
-protocols show available protocols
-filters show available filters
-pix_fmts show available pixel formats
-layouts show standard channel layouts
-sample_fmts show available audio sample formats
-dispositions show available stream dispositions
-colors show available color names
-loglevel loglevel set logging level
-v loglevel set logging level
-report generate a report
-max_alloc bytes set maximum size of a single allocated block
-sources device list sources of the input device
-sinks device list sinks of the output device
-x width force displayed width
-y height force displayed height
-s size set frame size (WxH or abbreviation)
-fs force full screen
-an disable audio
-vn disable video
-sn disable subtitling
-ss pos seek to a given position in seconds
-t ration play "ration" seconds of audio/video
-bytes val seek by bytes 0=off 1=on -1=auto
-seek_interval seconds set seek interval for left/right keys, in seconds
-nodisp disable graphical display
-noborder borderless window
-alwaysontop window always on top
-volume volume set startup volume 0=min 100=max
-f fmt force format
-window_title window title set window title
-af filter_graph set audio filters
-showmode mode select show mode (0 = video, 1 = waves, 2 = RDFT)
-i input_file read specified file
-codec decoder_name force decoder
-autorotate automatically rotate video
這只是Main options裡面的部分,另外還有Advanced options,AVCodecContext AVOptions等等很多內容。就上述幫助信息的輸出所示,有些是前面已經介紹過的參數,這里就不再一一贅述,一些未介紹的參數說明見下表
常見參數可以手動進行嘗試,下面列舉幾個示例。
*如果希望從視頻的第5秒開始播放,播放5秒鍾的文件,則可以使用如下命令
*如果希望視頻播放時播放器的窗口顯示標題為自定義標題,則可以使用如下命令
*如果希望使用ffplay打開網路直播流,則可以使用如下命令:
可以看出ffplay可以支持的協議有多種,ramp,rtmp,http等等都支持。
顯示如下窗口內容
下面將這些參數與前面介紹過的一些參數進行組合,舉幾個例子。
1⃣️從10秒播放一個視頻,播放時長為5秒,播放完畢後自動退出ffplay,播放器的窗口標題為「Hello World」,為了確認播放時長正確,可以通過系統命令time查看命令運行時長:
可以看到輸出結果如下:
ffplay -window_title "Hello World" -ss 10 -t 5 -autoexit 1.mp4 0.94s user 0.52s system 22% cpu 6.502 total
2⃣️如果強制使用H.264解碼器解碼MPEG4的視頻,將會報錯
我們這個視頻是h264編碼,所以可以正常播放。
查看視頻編碼可以使用
查看ffmpeg支持的解碼格式
下面這個方式解碼就會報錯
前面舉過的例子中,我們看到的比較多的是單節目的流,多節目的流,常用於廣電行業的視頻。當視頻中出現多個Program時,播放Program與常規的播放方式有所不同,需要指定對應的流,可以通過vst,ast,sst參數來指定,例如希望播放Program 13中的音視頻流,視頻編號為4,音頻編號為5,則可以通過如下命令進行制定:
有條件的朋友可以自己找視頻來查看。
3⃣️如果使用ffplay播放視頻時希望載入字幕文件,則可以通過載入ASS或者SRT字幕文件來解決,下面列舉一個載入SRT字幕的例子,首先編輯SRT字幕文件,內容如下:
1
00:00:01.000 --> 00:00:05.000
這是我 我是誰
2
00:00:05.001 --> 00:00:10.000
我愛中國
3
00:00:10.001 --> 00:00:15.000
為人民服務
4
00:00:18.001 --> 00:00:20.000
疫情早日結束,國泰民安!
然後通過filter將字幕文件載入到播放數據中,使用命令如下:
播放的效果如下:
可以看出,視頻中已經將SRT格式的文字字幕加入到視頻中並展現了出來。
2)ffplay的數據可視化分析應用
使用ffplay除了可以播放視頻流媒體文件之外,還可以作為可視化的視頻流媒體分析工具,例如播放音頻文件時,如果不確定文件的聲音是否正常,則可以直接使用ffplay播放音頻文件,播放的時候其將會把解碼後的音頻數據以音頻波形的形式顯示出來,
命令行執行後的效果如下:
從圖中可以看到,音頻播放時的波形可以通過振幅顯示出來,可以用來查看音頻的播放情況。
當播放視頻時想要體驗解碼器是如何解碼每個宏塊的,可以使用如下命令
新版FFmpeg此方法已經不再支持啦,可參考
https://trac.ffmpeg.org/wiki/Debug/MacroblocksAndMotionVectors
我們可以使用ffmpeg或者ffplay來分析視頻文件中的運動向量。ffmpeg的早期版本(2017年10月之前)也允許分析宏塊,但此選項已被刪除。
'codecview'過濾器可用於將運動向量顯示為每個宏塊的小箭頭。它採用一個叫mv的選項,它指定了要繪制的運動向量的類型:
你可以使用如下的命令
第一條命令是直接用ffplay顯示視頻。
第二條命令是把生成的帶有運動向量的視頻保存到output.mp4中。
顯示效果如下:
㈤ ffmpeg 命令大全
前言
FFMPEG是特別強大的專門用於處理音視頻的開源庫。你既可以使用它的API對音視頻進行處理,也可以使用它提供的工具,如 ffmpeg, ffplay, ffprobe,來編輯你的音視頻文件。
本文將簡要介紹一下 FFMPEG 庫的基本目錄結構及其功能,然後詳細介紹一下我們在日常工作中,如何使用 ffmpeg 提供的工具來處理音視頻文件。
在講解 FFMPEG 命令之前,我們先要介紹一些音視頻格式的基要概念。
我們按使用目的可以將 FFMPEG 命令分成以下幾類:
除了 FFMPEG 的基本信息查詢命令外,其它命令都按下圖所示的流程處理音視頻
先是解復用獲取到編碼的數據包,然後將編碼的數據包傳送給解碼器(除非為數據流選擇了流拷貝,請參閱進一步描述)。 解碼器產生未壓縮的幀(原始視頻/ PCM音頻/ ...),可以通過濾波進一步處理(見下一節)。 在過濾之後,幀被傳遞到編碼器,編碼器並輸出編碼的數據包。 最後,這些傳遞給復用器,將編碼的數據包寫入輸出文件。
默認情況下,ffmpeg只包含輸入文件中每種類型(視頻,音頻,字幕)的一個流,並將其添加到每個輸出文件中。 它根據以下標准挑選每一個的「最佳」:對於視頻,它是具有最高解析度的流,對於音頻,它是具有最多channel的流,對於字幕,是第一個字幕流。 在相同類型的幾個流相等的情況下,選擇具有最低索引的流。
您可以通過使用-vn / -an / -sn / -dn選項來禁用某些默認設置。 要進行全面的手動控制,請使用-map選項,該選項禁用剛描述的默認設置。
FFMPEG 可以使用下面的參數進行基本信息查詢。例如,想查詢一下現在使用的 FFMPEG 都支持哪些 filter,就可以用 ffmpeg -filters 來查詢。詳細參數說明如下:
查詢編譯器libfdk_aac的信息
FFMPEG 處理音視頻時使用的命令格式與參數
ffmpeg 通過 -i 選項讀取輸任意數量的輸入「文件」(可以是常規文件,管道,網路流,抓取設備等,並寫入任意數量的輸出「文件」。
原則上,每個輸入/輸出「文件」都可以包含任意數量的不同類型的視頻流(視頻/音頻/字幕/附件/數據)。 流的數量和/或類型是由容器格式來限制。 選擇從哪個輸入進入到哪個輸出將自動完成或使用 -map 選項。
要引用選項中的輸入文件,您必須使用它們的索引(從0開始)。 例如。 第一個輸入文件是0,第二個輸入文件是1,等等。類似地,文件內的流被它們的索引引用。 例如。 2:3是指第三個輸入文件中的第四個流
上面就是 FFMPEG 處理音視頻的常用命令,下面是一些常用參數
首先通過下面的命令查看一下 mac 上都有哪些設備。
注意,桌面的輸入對幀率沒有要求,所以不用限制桌面的幀率。其實限制了也沒用。
由於沒有解碼或編碼,速度非常快,沒有質量損失。 但是,由於許多因素,在某些情況下可能無法正常工作。 應用過濾器顯然也是不可能的,因為過濾器處理未壓縮的數據
上面的命令表式的是音頻、視頻都直接 ,只是將 mp4 的封裝格式轉成了flv。
在編碼之前,ffmpeg可以使用libavfilter庫中的過濾器處理原始音頻和視頻幀。 幾個鏈式過濾器形成一個過濾器圖形。 ffmpeg區分兩種類型的過濾器圖形:簡單和復雜。
請注意,某些濾鏡會更改幀屬性,但不會改變幀內容。 例如。 上例中的fps過濾器會改變幀數,但不會觸及幀內容。 另一個例子是setpts過濾器。
復雜的過濾器圖使用-filter_complex選項進行配置。 請注意,此選項是全局性的,因為復雜的過濾器圖形本質上不能與單個流或文件明確關聯。
-lavfi選項等同於-filter_complex。
一個復雜的過濾器圖的一個簡單的例子是覆蓋過濾器,它有兩個視頻輸入和一個視頻輸出,包含一個視頻疊加在另一個上面。 它的音頻對應是amix濾波器
添加文字水印
添加本地時間水印
https://www.jianshu.com/p/e4ad7e1e7ed5
先通過 ffplay 找到要刪除 LOGO 的位置
使用 delogo 濾鏡刪除 LOGO
crop 格式:crop=out_w:out_h:x:y
https://blog.csdn.net/matrix_laboratory/article/details/53158307
首先創建一個 inputs.txt 文件,文件內容如下:
然後執行下面的命令:
播放yuv數據,需要指定解析度
㈥ ffmpeg開發待遇
ffmpeg開發是音頻開發工作者,缺口很大,薪資待遇十分不錯,很多都在1.5萬以上了。
音視頻流媒體開發,工作機會佔80% 都在跑這個流程:
音視頻採集—>編碼 —>組包—>tcp/udp網路編程—>推流—>流媒體轉發—>客戶端拉流—>socket通訊—>解碼—>渲染。
這其中會用到ffmpeg的,就是最後那部分很小的,解碼那個階段。iOS上甚至都不需要ffmpeg。
我們大部分時候,都在這個流程中,做一個小功能,可能一做就是一年,兩年,三年。這個流程,可能是一個很大的研發團隊在做。年投入可能是百萬,千萬級別的。
另外20%的工作機會,在音視頻處理。最近幾年火起來的,各種AR特效,貼紙,美顏(opencv)。
還有新一代視頻編輯軟體(也是各種特效),都是基於OpenGL shader來做。 這個方面,用到ffmpeg也非常少。 最多是載入下視頻,最後保存下視頻。
所以音視頻開發工程師,簡單概括起來, 要麼做流媒體開發,要麼音視頻處理開發。
音視頻開發的前景,從相關的招聘網站上就可以看到,不管是流媒體開發還是音視頻處理開發,都是大量招人的,並且由於入門門檻相對較高,學習周期長,鄭和液喊物薪資也是居高不下。
總結如下:
音視頻目前的開發前進是很好的,隨著5G時代的到來,再加上這次的疫情讓在線會議和在線教育一下子進棚梁入了大家的視野,讓大家更了解音視頻是什麼了。再加上現在的直播行業也是很火爆的,所以現在可以說是音視頻的好時代。
㈦ ffmpeg基礎知識
ffmpeg是音視頻處理的c庫, 音視頻在網路傳輸過程中,由於數據量大,所有需要進行壓縮
壓縮目的為了去除冗餘信息,冗餘信息分為:
1、空間冗餘:圖像相鄰像素之間有較強的相關性
2、時間冗餘:視頻序列的相鄰圖像之間內容相似
3、 編碼冗餘:不同像素值出現的概率不同
4、 視覺冗餘:人的視覺系統對某些細節不敏感
5、知識冗餘:規律性的結構可由先驗知識和背景知識得到
● 無損壓縮(Winzip)
壓縮前解壓縮後圖像完全一致
壓縮比低
● 有損壓縮(H.264)
壓縮前解壓縮後圖像不一致
壓縮比高
利用人的視覺系統的特性(人眼能見的動畫頻率和圖像細節有限制)
音視頻壓縮其實就是對音視頻進行編碼,
視頻編碼格式
音頻編碼格式
封裝格式
流媒體協議
YUV ,是一種 顏色 編碼 方法。常使用在各個視頻處理組件中。 YUV在對照片或視頻編碼時,考慮到人類的感知能力,允許降低色度的帶寬。
YUV是編譯true-color顏色空間(colorspace)的種類,Y'UV,YUV, YCbCr , YPbPr 等專有名詞都可以稱為YUV,彼此有重疊。「Y」表示 明亮度 (Luminance、Luma),「U」和「V」則是**[色度]
YUV格式有兩大類:(平面格式)planar和(打包格式)packed。
1.planar:先存儲Y,然後U,然後V
2.packed:yuv交叉存儲
還有我們常說的YUV420sp與YUV420p。
YUV420sp: 一種two-plane模式,即Y和UV分為兩個平面,U、V交錯排列。
YUV420p: 先把U存放完後,再存放V。UV是連續的。
YUV420的數據大小為: 亮度(行×列) + V(行×列/4) + U(行×列/4)即:W H 3/2,
普遍的編碼器都以接受planar的I420數據(YUV420P)
4*4的I420數據排列如下:
y1 y2 y3 y4
y5 y6 y7 y8
y9 y10 y11 y12
y13 y14 y15 y16
u1 u2 u3 u4
v1 v2 v3 v4
Android相機的採集的視頻是NV21(YUV420sP), 也是YUV的格式 只不過U和V的交叉的。
y1 y2 y3 y4
y5 y6 y7 y8
y9 y10 y11 y12
y13 y14 y15 y16
u1 v1 u2 v2
u3 v3 u4 v4
在採集相機數據時需要把UV數據給轉換成上面的 順序。
I frame :幀內編碼幀 ,I 幀通常是每個 GOP(MPEG 所使用的一種視頻壓縮技術)的第一個幀,經過適度地壓縮,做為隨機訪問的參考點,可以當成圖象。I幀可以看成是一個圖像經過壓縮後的產物。
P frame: 前向預測編碼幀,通過充分將低於圖像序列中前面已編碼幀的時間冗餘信息來壓縮傳輸數據量的編碼圖像,也叫預測幀;
B frame: 雙向預測內插編碼幀 ,既考慮與源圖像序列前面已編碼幀,也顧及源圖像序列後面已編碼幀之間的時間冗餘信息來壓縮傳輸數據量的編碼圖像,也叫雙向預測幀;
I frame:自身可以通過視頻解壓演算法解壓成一張單獨的完整的圖片。
P frame:需要參考其前面的一個I frame 或者B frame來生成一張完整的圖片。
B frame:則要參考其前一個I或者P幀及其後面的一個P幀來生成一張完整的圖片。
PTS:Presentation Time Stamp。PTS主要用於度量解碼後的視頻幀什麼時候被顯示出來
DTS:Decode Time Stamp。DTS主要是標識讀入內存中的幀數據在什麼時候開始送入解碼器中進行解碼。
在沒有B幀存在的情況下DTS的順序和PTS的順序應該是一樣的。
DTS主要用於視頻的解碼,在解碼階段使用。PTS主要用於視頻的同步和輸出.在顯示的時候使用。
如上圖:I frame 的解碼不依賴於任何的其它的幀.而p frame的解碼則依賴於其前面的I frame或者P frame.B frame的解碼則依賴於其前的最近的一個I frame或者P frame 及其後的最近的一個P frame.
libavformat
用於各種音視頻封裝格式的生成和解析,包括獲取解碼所需信息以生成解碼上下文結構和讀取音視頻幀等功能;音視頻的格式解析協議,為 libavcodec 分析碼流提供獨立的音頻或視頻碼流源。
libavcodec
用於各種類型聲音/圖像編解碼;該庫是音視頻編解碼核心,實現了市面上可見的絕大部分解碼器的功能,libavcodec 庫被其他各大解碼器 ffdshow,Mplayer 等所包含或應用。
libavfilter
filter(FileIO、FPS、DrawText)音視頻濾波器的開發,如水印、倍速播放等。
libavutil
包含一些公共的工具函數的使用庫,包括算數運算 字元操作;
libswresample
原始音頻格式轉碼。
libswscale
(原始視頻格式轉換)用於視頻場景比例縮放、色彩映射轉換;圖像顏色空間或格式轉換,如 rgb565,rgb888 等與 yuv420 等之間轉換。
音視頻解5封裝流程:
ffmpeg解碼流程:
㈧ 如何將ffmpeg在windows編譯和使用
如下:
1. 配置編譯環境
2. 下載FFMPEG的代碼
3. 編譯,獲取FFMPEG庫(頭文件,lib,和DLL)
4. 在VC下配置,測試
1. 配置編譯環境
1)安裝MSys
下載文件:
bash-3.1-MSYS-1.0.11-snapshot.tar.bz2
msysCORE-1.0.11-20080826.tar.gz
解壓msysCORE-1.0.11-20080826.tar.gz,比如解壓到X:\msys(以下內容都使用該路徑描述,X為你安裝的盤符)。
解壓bash-3.1-MSYS-1.0.11-snapshot.tar.bz2,產生一個名為bash-3.1的目錄,在該目錄下有一個子目錄名為bin,其他的目錄不需要關心。復制bin目錄中的所有文件到D:\msys\bin,提示是否要覆蓋sh.exe的時候,選擇是。
到「D:\msys\postinstall」目錄下執行pi.bat,在出現的提示中輸入n回車後(這個不搞錯了),按任意鍵退出即可。
2)安裝MinGW
下載文件:
binutils-2.20-1-mingw32-bin.tar.gz
(binutils-2.19.1-mingw32-bin.tar.gz)
gcc-core-3.4.5-20060117-3.tar.gz
gcc-g++-3.4.5-20060117-3.tar.gz
w32api-3.13-mingw32-dev.tar.gz
mingwrt-3.16-mingw32-dev.tar.gz
(mingwrt-3.15.2-mingw32-dev.tar.gz)
mingwrt-3.16-mingw32-dll.tar.gz
(mingwrt-3.15.2-mingw32-dll.tar.gz)
把它們全部解壓到X:\msys\mingw。
3)修改「msys.bat」
用文本編輯器打開D:\msys\msys.bat,由於打算用MSVC++編譯程序,所以需要有.lib文件才能鏈接到FFmpeg的庫,這些.lib文件可以使用微軟的工具鏈中lib命令產生。為此,機器上必須已經安裝了微軟的Visual Studio或是Visual C++。把下面一行加到msys.bat的最前面,把路徑替換成機器上vcvars32.bat實際存在的路徑,比如我的在「D:\program files\Microsoft Visual Studio 8\VC\bin」,於是就添加:
call "D:\program files\Microsoft Visual Studio 8\VC\bin"
4)系統整合
復制D:\msys\etc\fstab.sample為X:\msys\etc\fstab,用文本編輯器打開D:\msys\etc\fstab編輯。(需要使用一個支持Unix換行風格的編輯器,比如Notepad++),把下面這行:
D:/mingw /mingw
改為:
D:/msys/mingw /mingw
注意:改的這個目錄為mingw你所安裝的目錄,所以按本文來講是這個目錄。如果你安裝不目錄不同,就要改成你所安裝的目錄。
完成以上步驟,MSys+MinGW系統就配置完成了。
2. 下載FFMPEG的代碼
下載代碼的辦法由兩個,一個就是用svn 下載下來。我覺得哪怕你知道svn是啥,也不用這個方法,因為太慢了。一個文件一個文件下,最關鍵SVN對應的地址是國外,都不知道什麼才能全部下完。另外一個直接下一個代碼的壓縮包。