python音视频混流处理_python最佳入门教程(1): python的安装

A. 利用python和麦克风进行语音数据采集的流程

使用 Python 和麦克风进行语音数据采集的流程可能包括以下步骤：

安装并导入相应的库：需要安装并导入 PyAudio 库，这个库可以让你在 Python 中操作麦克风。
打开麦克风：使用 PyAudio 库打开麦克风，并设置采样率，采样位数等参数。
开始录音：使用 PyAudio 库的 read 方法从麦克风中读取语音数据。
存储数据：使用 Python 的文件操作函数将读取到的语音数据存储到本地磁盘上。
关闭麦克风：使用 PyAudio 库关闭麦克风。
处理数据:在结束采集之后可以对音频数据进行处理，比如语音识别，语音合成,语音压缩等.

注意：请确保在你的系统中已经安装好了麦克风驱动，并且在 Python 代码中有足够的权限访问麦克风。

B. python中如何在程序中可以同时播放两个音乐

import _thread
import time
from playsound import playsound

def time1(delay):
time.sleep(1)
playsound("bgm.mp3")

def time2(delay):
time.sleep(2)
playsound("auido.mp3")

try:
_thread.start_new_thread(time1, (1,))
_thread.start_new_thread(time2, (1,))

except:
print("Program Error")

while 1:
pass

C. ffmpeg-python中文文档（三）——API参考

表示上游节点的传出边缘；可以用来创建更多的下游节点。

输入文件 URL （ffmpeg -i option）

在一个 ffmpeg 命令行中包含所有给定的输出

输出文件地址

不询问就覆盖输出文件（ffmpeg -y 选项）

在指定文件上运行 ffprobe 并返回输出的 JSON 表示。

构建用于调用 ffmpeg 的命令行。

构建要传递给 ffmpeg 的命令行参数。

为提供的节点图调用 ffmpeg 。

参数

为提供的节点图异步调用 ffmpeg。

参数

例子

运行和流式输入：

运行并捕获输出：

使用 numpy 逐帧处理视频：

通过重新混合颜色通道来调整视频输入帧。

连接音频和视频流，将它们一个接一个地连接在一起。

筛选器适用于同步视频和音频流的片段。所有段必须具有每种类型的相同数量的流，这也是输出时的流数。

参数

裁剪输入视频。

参数

在输入图像上绘制一个彩色框。

参数

使用 libfreetype 库从视频顶部的指定文件中绘制文本字符串或文本。

要启用此过滤器的编译，您需要使用 --enable-libfreetype . 要启用默认字体回退和字体选项，您需要使用 --enable-libfontconfig . 要启用 text_shaping 选项，您需要使用 --enable-libfribidi

参数

· box - 用于使用背景颜色在文本周围绘制一个框。该值必须是 1（启用）或 0（禁用）。框的默认值为 0。

· boxborderw – 使用 boxcolor 设置要在框周围绘制的边框宽度。boxborderw 的默认值为 0。

· boxcolor - 用于在文本周围绘制框的颜色。有关此选项的语法，请查看 ffmpeg-utils 手册中的“颜色”部分。 boxcolor 的默认值为“white”。

· line_spacing – 使用 box 设置要在框周围绘制的边框的行间距（以像素为单位）。line_spacing 的默认值为 0。

· borderw – 使用边框颜色设置要在文本周围绘制的边框宽度。边框的默认值为 0。

· bordercolor – 设置用于在文本周围绘制边框的颜色。有关此选项的语法，请查看 ffmpeg-utils 手册中的“颜色”部分。边框颜色的默认值为“黑色”。

· 扩展- 选择文本的扩展方式。可以是 none、strftime（已弃用）或 normal（默认）。有关详细信息，请参阅下面的文本扩展部分。

· basetime – 设置计数的开始时间。值以微秒为单位。仅适用于已弃用的 strftime 扩展模式。要在正常扩展模式下进行模拟，请使用 pts 函数，提供开始时间（以秒为单位）作为第二个参数。

· fix_bounds - 如果为 true，检查并修复文本坐标以避免剪切。

· fontcolor - 用于绘制字体的颜色。有关此选项的语法，请查看 ffmpeg-utils 手册中的“颜色”部分。fontcolor 的默认值为“黑色”。

· fontcolor_expr – 与文本相同的扩展字符串以获得动态字体颜色值。默认情况下，此选项具有空值并且不被处理。设置此选项时，它会覆盖 fontcolor 选项。

· font - 用于绘制文本的字体系列。默认情况下无。

· fontfile – 用于绘制文本的字体文件。必须包含路径。如果禁用了 fontconfig 支持，则此参数是必需的。

· alpha – 绘制应用 alpha 混合的文本。该值可以是介于 0.0 和 1.0 之间的数字。该表达式也接受相同的变量 x、y。默认值为 1。请参阅 fontcolor_expr。

· fontsize – 用于绘制文本的字体大小。字体大小的默认值为 16。

· text_shaping – 如果设置为 1，则在绘制文本之前尝试对文本进行整形（例如，反转从右到左文本的顺序并加入阿拉伯字符）。否则，只需按照给定的方式绘制文本。默认为 1（如果支持）。

· ft_load_flags –用于加载字体的标志。这些标志映射了 libfreetype 支持的相应标志，并且是以下值的组合：

默认值为“默认”。有关更多信息，请参阅 FT_LOAD_* libfreetype 标志的文档。

· shadowcolor – 用于在已绘制文本后面绘制阴影的颜色。有关此选项的语法，请查看 ffmpeg-utils 手册中的“颜色”部分。shadowcolor 的默认值为“黑色”。

· shadowx – 文本阴影位置相对于文本位置的 x 偏移量。它可以是正值或负值。默认值为“0”。

· shadowy – 文本阴影位置相对于文本位置的 y 偏移量。它可以是正值或负值。默认值为“0”。

· start_number – n/frame_num 变量的起始帧号。默认值为“0”。

· tabsize - 用于呈现选项卡的空格数大小。默认值为 4。

· timecode – 以“hh:mm:ss[:;.]ff”格式设置初始时间码表示。它可以带或不带文本参数使用。必须指定 timecode_rate 选项。

· rate – 设置时间码帧率（仅限时间码）。

· timecode_rate – 的别名rate。

· r – 的别名rate。

· tc24hmax – 如果设置为 1，时间码选项的输出将在 24 小时左右回绕。默认值为 0（禁用）。

· text -- 要绘制的文本字符串。文本必须是 UTF-8 编码字符序列。如果没有使用参数 textfile 指定文件，则此参数是必需的。

· textfile – 包含要绘制的文本的文本文件。文本必须是 UTF-8 编码字符序列。如果没有使用参数 text 指定文本字符串，则此参数是必需的。如果同时指定了 text 和 textfile，则会引发错误。

· reload – 如果设置为 1，文本文件将在每一帧之前重新加载。一定要自动更新它，否则它可能会被部分读取，甚至失败。

· x – 指定将在视频帧内绘制文本的偏移量的表达式。它相对于输出图像的左边框。默认值为“0”。

· y - 指定将在视频帧内绘制文本的偏移量的表达式。它相对于输出图像的上边框。默认值为“0”。有关接受的常量和函数的列表，请参见下文。

表达式常量：

x 和 y 的参数是包含以下常量和函数的表达式：

· dar：输入显示纵横比，同 (w / h) * sar

· hsub：水平色度子样本值。例如，对于像素格式“yuv422p”，hsub 为 2，vsub 为 1。

· vsub：垂直色度子样本值。例如，对于像素格式“yuv422p”，hsub 为 2，vsub 为 1。

· line_h：每个文本行的高度

· lh：别名为line_h.

· main_h：输入高度

· h: 的别名main_h。

· H：的别名main_h。

· main_w：输入宽度

· w: 的别名main_w。

· W：的别名main_w。

· ascent：对于所有渲染的字形，从基线到用于放置字形轮廓点的最高/上网格坐标的最大距离。这是一个正值，因为网格的 Y 轴向上。

· max_glyph_a: 的别名ascent。

· 下降：对于所有渲染的字形，从基线到用于放置字形轮廓点的最低网格坐标的最大距离。由于网格的方向，这是一个负值，Y 轴向上。

· max_glyph_d: 的别名descent。

· max_glyph_h：最大字形高度，即渲染文本中包含的所有字形的最大高度，相当于上升-下降。

· max_glyph_w：最大字形宽度，即渲染文本中包含的所有字形的最大宽度。

· n：输入帧数，从0开始

· rand(min, max)：返回一个包含在 min 和 max 之间的随机数

· sar：输入样本纵横比。

· t：时间戳，以秒为单位，如果输入时间戳未知，则为 NAN

· text_h：渲染文本的高度

· th：的别名text_h。

· text_w：渲染文本的宽度

· tw: 的别名text_w。

· x：绘制文本的 x 偏移坐标。

· y：绘制文本的 y 偏移坐标。

这些参数允许 x 和 y 表达式相互引用，因此您可以例如指定 y=x/dar.

应用自定义过滤器。

filter通常由更高级别的过滤器函数使用，例如 hflip ，但如果缺少过滤器实现 ffmpeg-python ，您可以 filter 直接调用以 ffmpeg-python 将过滤器名称和参数逐字传递给 ffmpeg 。

参数

函数名称后缀_是为了避免与标准 pythonfilter 函数混淆。

例子

替代名称 filter ，以免与内置的 pythonfilter 运算符冲突。

应用具有一个或多个输出的自定义过滤器。

这 filter 与过滤器可以产生多个输出相同。

要引用输出流，请使用 .stream 运算符或括号简写：

例子

水平翻转输入视频。

修改输入的色调和/或饱和度。

参数

将一个视频叠加在另一个视频之上。

参数

更改输入帧的 PTS（表示时间戳）。

FFmpeg里有两种时间戳：DTS（Decoding Time Stamp）和PTS（Presentation Time Stamp）。顾名思义，前者是解码的时间，后者是显示的时间。

参数

修剪输入，使输出包含输入的一个连续子部分。

参数

垂直翻转输入视频。

应用缩放和平移效果。

参数

D. python最佳入门教程(1): python的安装

本教程基于python3.x, 是针对初学者的一系列python入门教程，在知乎上常有人问我计算机该怎么学，如何自学编程，笔者也是通过自学编程而进入IT这一行业的，回顾入行的这几年，从音视频流媒体辗转到人工智能深度学习，机器视觉，我是下了不少苦心的，对于如何学习有自己的一套理论和实践方法，很多人自言学编程不得其门，把学不会归咎于天分，其实芸芸众生，智力无别，你现在所看到的是技术大牛们一个个超凡绝顶(然知此绝顶非彼绝顶)，看不到的是曾经的他们，也在每个昼夜里用心苦学。再者学一门技术，需要勤学刻苦，是需要讲究方法和基础的，方法对了就事半功倍，所谓的天才也无不是建立在扎实的基础之上。
在windows中安装python
首先打开python官网https://www.python.org/，点击页面downloads导航按钮，下载windows最新的基于web安装的安装器，右键以管理员身份运行安装包，会出现如下界面：
将Add Python 3.7 to PATH 进行勾选，勾选此项的目的在于将python解释器加入系统环境变量，则在后续的python开发中可直接在windows 命令行中执行python脚本。所谓的环境变量是系统运行环境的一系列参数，比如这里的系统环境变量是PATH，PATH保存了与路径相关的参数，系统在路径查找中，会对PATH保存的路径进行搜索。
点击install Now按钮执行python的安装
打开windows命令行界面(按windows键输入cmd命令),输入python -V，出现python版本的相关输出，即表示安装成功。
在Linux系统中安装python
笔者的系统是CentOS, Linux系统默认有安装python,但是其版本是2.x,在这里笔者以源码安装的形式来安装python 3.X。首先进入python源码包页面点击下载最新的gzip格式的python源码包，上传到服务器然后进行解压，解压后的目录结构如下图所示：
Linux中的configure与make
configure是Linux中的脚本配置工具，用来对源码的当前安装环境进行检测，若检测无误，会在当前目录生成一个供源码编译的Makefile脚本文件。
make是Linux系统下的编译安装工具，用来解释执行makefile文件中的脚本命令，编译命令。
现在我们开始编译安装python
(1) 在当前目录执行./configure(2) 输入 make && sudo make install
若无指定安装目录，python会被默认安装在/usr/local目录中, 读者可以执行./configure --prefix=“你自定义的安装目录”来配置安装路径。安装完毕以后进入/usr/local/bin目录，输入 “python3.x -V” (这里的python3.x为你所安装的python版本)，若出现与python版本的相关输出，即表示安装成功。
为安装的python设置软链接
安装的python可以以绝对路径的方式来执行，每次敲一大段路径来执行python未免麻烦，通常我们会给安装的python设置软链接，这里的软链接类似于windows的快捷方式。
输入以下命令来给python设置软链接,笔者安装的版本是python3.7, pip是python的包管理工具，会在教程的后续章节中进行详细讲解。
ln -s /usr/bin/python3 /usr/local/bin/python3.7 # 表示设置python3 为 /usr/local/bin/python3.7的快捷方式ln -s /usr/bin/pip3 /usr/local/bin/pip3.7 # 表示设置pip3 为 /usr/local/bin/pip3.7的快捷方式

E. python视频分离音频，同时简单分轨

首先，安装相应的音视频处理库：

然后，导入库，并读取相应的视频文件，将音频导出：（路径修改为自己的路径）

主要思路：用字符串保存时：分：秒，然后对应不同的音轨（下面以列表的方式）进行裁剪，注意：AudioSegment的单位是毫秒，所以在取切片时乘以1000。

这样就完成了。

F. 自己动手写Python进行文本转语音程序，共计11行代码

1、首先安装Python程序推荐3.7

2、下载 pyttsx3库。

3、将需要转换的文本和程序放到一起。

4、运行程序就会朗读文本和保存文本朗读的语音文件。

以下是源代码：

import pyttsx3

with open ( 'word.txt' , encoding = 'utf-8' ) as obj:

line=obj.readline()

engine=pyttsx3.init()

rate=engine.getProperty( 'rate' )

engine.setProperty( 'rate' , 160 )

volume=engine.getProperty( 'volume' )

engine.setProperty( 'volume' , 0.6 )

engine.say(line)

engine.save_to_file(line, 'abc.mp3' )

engine.runAndWait()

G. 爆肝！用Python制作抖音爆款视频！

前几天我在抖音上刷到一个慢慢变老的视频，播放量居然有 30W+，当时就在想这视频 Python 可不可以做？经过一番搜索，我找到了腾讯云的人脸年龄变化 API，上面介绍说只要用户上传一张人脸图片，基于人脸编辑与生成算法，就可以输出一张人脸变老或变年轻的图片，并支持实现人脸不同年龄的变化。

第一步，在注册账号之后，打开 API 密钥管理页面( https://console.cloud.tencent.com/cam/capi )获取到 SecretId 和 SecretKey。

第二步，安装腾讯云的 SDK

在人脸年龄变化 API 中有一个 AgeInfo 参数，它包含了 Age 和 FaceRect 两个属性，其中 FaceRect 属性必须填人脸在照片中基于左上角的 X、Y 坐标和人脸的高度与宽度。所以先要调用人脸检测与分析 API 得到这些数据。

下面的示例图是在网络图片中截取的。

示例结果

在上面已经得到了各个人脸的 X、Y、Width、Height 属性，加上变老的年龄 Age，就可以请求年龄变化 API 了。

这里需要注意的是 models 模块，人脸检测 models 模块是在 tencentcloud.iai.v20200303 包下，人脸年龄变化的 models 是在 tencentcloud.ft.v20200304 下，两个 models 模块并不兼容。

示例结果

最后的视频可以将图片一张一张插入 PPT 幻灯片，点击保存为视频。

用 Python 制作抖音素材，下一个 30W+ 播放量等着你。

导航:首页 > 编程语言 > python音视频混流处理

python音视频混流处理

与python音视频混流处理相关的资料