① 音频3A测试
AGC可以自动调麦克风的收音量,使与会者收到一定的音量水平,不会因发言者与麦克风的距离改变时,声音有忽大忽小声的缺点。
ANS可探测出背景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除。呈现出与会者清晰的声音。
AEC是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少,AEC可以消除各种延迟的回声。
AEC
回声消除的基本原理是以扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的。即利用接收到的音频与本地采集的音频做对比,添加反相的人造回声,将远端的声音消除。
ANS
背景噪声抑制(ANS)指的是将声音中的背景噪声识别并进行消除的处理。
背景噪声分为平衡噪声和瞬时噪声两类,平稳噪声的频谱稳定,瞬时噪声的频谱能量方差小,利用噪声的特点,对音频数据添加反向波形处理,即可消除噪声。
AGC
自动增益控制(AGC)是指当直放站工作于最大增益且输出为最大功率时,增加输入信号电平,提高直放站对输出信号电平控制的能力。自动增益控制主要用于调整音量幅值。
正常人交谈的音量在40~60dB之间,低于25dB的声音听起来很吃力,超过100dB的声音会让人不适。AGC的作用就是将音量调整到人接受的范围。
AGC的调整分为模拟部分和数字部分,模拟部分是麦克风的采集增益,数字部分是音频数据的数字电平调整。
音频3A处理:
音频 3A处理 在不同的应用场景三者的处理顺序也不同,如在WebRTC中音频数据回依次经过 AEC 和 NS(noise suppression) 或者 NS 与 AECM(AECM 是WebRTC专门为移动端打造的算法,计算量低,而AEC 是为PC打造的)。而在AEC(回声消除算法),为什么需要这个算法呢?当一个设备在播放声音经过空间中的多次反射会被麦克风再次捕捉并采集到系统当中,这时音频的输入既有空间反射的回声也有本端说话声,如果缺少此模块就意味着通话中说话人一直可以听到自己的声音回来,这是非常差的一种体验,这是需要避免的。这里AEC的作用就是通过播放的参考信号跟踪出回声并从采集信号中把回声消除掉,随后再经过降噪处理去除噪声。而其中的AECM是在NS模块之后通过获取clean与noise数据进行分析,AEC则是NS模块之前直接获取noise数据进行分析。
音频数据完成AEC与NS的处理后会进行 AGC 处理,其包括 AAGC(模拟域的自动增益控制)与DAGC(数字域的自动增益控制) 。其中AAGC的主要作用是通过系统的采集音量设置接口调整输入信号(大多用于PC端,移动端一般没有输入音量的系统接口),如借助Windows上的的API调整采集音量等参数。AAGC可为输入的音频数据带来明显的质量优化,如提高信噪比,避免输入信号溢出等。但由于我们服务的跨平台要求,我们需要构建一个面向多平台设备的框架,在不同的输入平台和设备都会有不同的输入音量,DAGC可以根据对输入信号的跟踪,尽量的调整信号到达期望大小(幅值或能量),从而避免不同设备采集带来的音量差异过大。完成AGC处理的音频数据,即可进入Audio Encode进行编码操作。
1.场景一致:多个app之间,一个场景一次性测试称为一组。
2.设备一致:同样的手机
3.手机音量一致:开始测试前确认手机音量是最大少一格(每个app可能打开关闭时候音量会有变化,需要修改手机设备音量)。
4.网络一致:手机连接网络一致
5.设备位置一致:手机与音响的位置需要固定
6.调音台不能放地上:地下有强电缆,会产生电磁干扰,造成较大低噪声。测试aec的时候,需要将功放与调音台的连线断开,并关闭功放。同时还需要消除台式机的静电,否则也容易因为电流而产生底噪。
Adobe Audition 是一款音频处理软件,拥有先进的音频混合、编辑、控制和效果处理功能,在音频测试过程中经常用到。
涉及到的功能:
1.响度
2. 频谱分析
3. 结合频谱和音轨进行k歌伴奏人声延迟测试
4.音频降噪
② 语音识别算法有哪些
DTW 特定人识别
HMM 非特定人识别
GMM
神经网络
③ 语音信号预处理
MFCC是计算语音信号的Mel频率倒谱系数,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。
MFCC参数的提取包括以下几个步骤:
预滤波(低通):前端带宽为300-3400Hz的抗混叠滤波器。
A/D变换:采样频率,线性量化精度。
预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧叠为16ms。
加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响。
快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。
三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。
求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。
谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数。
倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。
差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。可用到了MFCC参数的一阶差分参数和二阶差分参数。
采样前的低通滤波,主要是消除采样时的频谱混叠。由硬件完成。
预加重主要是提高高频的频谱分量。软件,硬件都可以完成。
预加重前,也可以用高通滤波器,消除低频噪音。
如果计算mfcc是有了预加重。之前的预加重就不要做。
采样前的硬件低通滤波是一定要做的。
计算mfcc时的滤波,看起的作用是什么?如果是进一步消除噪音,那就必须做。
④ 什么是2A(3A)算法
3A算法主要包括3项:
AWB:自动白平衡;AF:自动聚焦; AE:自动曝光
⑤ 什么是3a算法
“3A算法理解 3A技术即自动对焦(AF)、自动曝光(AE)和自动白平衡(AWB)。3A数字成像技术利用了AF自动对焦算法、AE自动曝光算法及AWB 自动白平衡算法来实现图像对比度最大、改善主体拍摄物过曝光或曝光不足情况、使画面在不同光线照射下的色差得到补偿,从而呈现较高 画质的图像信息。”
⑥ 文本、语音相似度算法
前段时间公司项目用到了语音识别,图像识别,视频识别等,其实不能说是识别,应该说是相似度对比吧,毕竟相似度对比还上升不了到识别哈,等以后有了更深的理解再来讨论修改下!这次就当做一个总结吧!
其实它的原理和视频图像相似度算法类似,将一系列的向量,特征,权重,进行合并,然后降维降到一维,其实这个算法也就是采用降维技术,将所有的特征都用一个唯一标识来表示.然后这个标识是经过这个算法内部的计算,再利用海明距离计算相似度,视频和图片是经过汉明距离计算的
文本我们是采用simhash算法:
1.我们给文本里面的词进行分词,我们是用ik算法,这个算法就是while循环,读取一行,然后调用ik智能分词的类,智能去切割里面的分词;
2.根据里面的词频,simhash算法会加一个权重,当然,得词频达到多少个的时候才会有有权重,这也是它的缺点,一般文本数据较少的时候,他是不准确的,一般数据量在500+;算法内部的话会将一系列的向量,特征,权重,进行合并,然后降维降到一维,其实这个算法也就是采用降维技术,将所有的特征都用一个唯一标识来表示.然后这个标识是经过这个算法内部的计算,然后得到的一个指纹签名;
3.然后对比两个文本的相似度就是将两个指纹签名进行海明距离计算,如果海明距离<8(根据业务和场景去判断这个值,8是建议,参考)的话,表示两个相似,小于3的话.表示两个文本重复.
simhash算法我们还可以做语音相似度,它的基本原理就是根据傅里叶变换处理得到声波的形状。
语音的坡度如果向上我们就用1表示,向下我们就用0表示,这样的话,我们也可以用二进制码去描述一首歌曲.得到一个唯一的指纹签名,对比两个音频的相似度就是将两个指纹签名进行海明距离计算<8的话,我们就默认两个音频相似.
总结:都是把特征降到一维,然后采用海明距离计算。计算的值小于多少时,就当做是相似。我这边讲的太浅了,实在领悟有限,时间有限,触摸不深,等下次有新的领悟再来补充!
⑦ NetEq中DSP模块音频算法探究
netEQ是webrtc中动态抖动缓冲区和错误隐藏的算法,用来消除因为网络抖动或者丢包。在保持高质量通话的同时,兼顾数据的低延时。其中,两大模块分别为MCU、DSP。
MCU(Micro Control Unit)模块是抖动缓冲区的微控制单元,由于抖动缓冲区作用是暂存接收到的数据包,因此 MCU 的主要作用是安排数据包的插入并控制数据包的输出。数据包的插入主要是确定来自网络的新到达的数据包在缓冲区中的插入位置,而控制数据包的输出则要考虑什么时候需要输出数据,以及输出哪一个插槽的数据包。
DSP(digital signal processing)模块是信号处理单元,主要负责对从 MCU 中提取出来的 PCM 源数据包进行数字信号处理。
本文将针对DSP模块中设计到的相关算法以及具体处理过程做详细介绍和分析。
这里解释一下DSP处理中几个操作类型的意义:
加速 Accelerate: 变声不变调的加速播放算法
慢速 PreemptiveExpand: 变声不变调的减速播放算法
正常 Normal: 正常的解码播放,不额外引入假数据
融合 Merge: 如果上一次是 Expand 造假出来的数据,那为了听起来更舒服一些,会跟正常数据包做一次融合算法
丢包隐藏 Expand(Packet Loss Concealment): 丢包补偿,最重要的无中生有算法模块,解决 “真丢包” 时没数据的问题,造假专业户
舒适噪音 ComfortNoise: 是用来产生舒适噪声的,比单纯的静音包听起来会更舒服的静音状态
a. 基音,指的是物体震动时所发出的频率最低的音,其余为泛音。也就是发音体整段震动,它携带着语音中的大部分能量。
b. 基音周期,声音震动波形的周期,其频率则为基频。基音周期是语音处理算法中的基本单位,是语音估计中的关键参数。
c. 基音检测,是对基音周期的估计,目的是得出和声音震动频率完全一致的基音周期长度。
d. 短时自相关函数法,webrtc中用于基因检测的方法。经典的短时自相关函数法进行基音检测时,是使用一个窗函数,窗不动,语音信号移动。通过比较原始信号和他位移后的信号之间的相似性来确定基音周期,如果移位距离等于基音周期,那么两个信号便具有最大相似性。窗口长度N的选择至少要大于基音周期的两倍,N越大,得出的基音周期越准确,但计算量也会相应增加。反之,N越小,误差越大,计算量越小。
e. WSOLA,Waveform Similarity Over-Lap Add,波形相似重叠相加法。在不改变语音音调并保证音质的前提下,使语音在时间轴上被拉伸或者压缩,即变速不变调。
采用分解合成的思想,将原始语音以L为帧间距,以N为帧长进行拆分,以aL为帧间距进行合成,其中a为调整因子。为防止频谱断裂或相位不连续,合成时在原始语音信号的采样点处,相邻区域[-max, +max]内移动,寻找信号波形相关最大的波形,确定合成位置。
图中是通过直接拷贝的方式实现慢速播放,造成了时域波形不连续。波形相似叠加法避免了上述问题的出现。
加速处理用来解决数据包在jitterbuffer中累积造成延时过大的情况。使用WSOLA算法在时域上压缩语音信号。
已上图为例,长度为110个样本。其中B区域为短时自相关函数法中的x(n),长度相同的移动窗(A区域)为x(n-τ),以τ为10开始移动,最大为100。在此过程中以抛物线拟合的方式求出相关性最大时的移动距离τ,进而得到该帧的基音周期P。
计算该数据流,中心点,前后两个基音周期的相关性bestCorr。当相关性大于0.9,将两个基音周期交叉混合并输出;否则,按照正常处理直接输出。
加速处理就是将两个基音混合成一个个并代替原有的两个基音来缩短语音长度。
加速后的语音数据存于neteq算法缓冲区algorithm_buffer中。
neteq/accelerate.cc
减速处理用来解决网络状况不好而导致音频数据比较少时,为了人耳听觉的连续性,使用WSOLA算法在时域上拉伸信号,来延长网络等待时间。
过程与加速过程类似
减速处理是将两个基音混合成一个,并插入到两个基音中间来延长语音长度。因此,经过减速处理的语音帧增加了一个基音周期的时长。
减速后的语音数据存于neteq算法缓冲区algorithm_buffer中。
neteq/preemptive_expand.cc
当音频数据丢失,会利用参考数据在算法缓冲区中创建、补齐缺失内容,实现丢包隐藏,保证听觉体验。
上图中,丢包隐藏使用语音缓冲区中最新的256个样本作为参考数据源,并将这些数据记为speechHistory(历史数据)。speechHistory用于连续PLC的场景。
neteq/expand.cc
融合处理发生在播放的上一帧与当前数据帧不连续的情况。比如,上一帧为PLC帧,当前帧为正常帧。
neteq/merge.cc
正常处理一般用于提取的数据包刚好符合播放要求,然后将此包解码后直接输出到speech buffer等待播放。如果上次处理是PLC,还需要进行平滑。
neteq/normal.cc
rfc 3389。结合语音活动检测算法的舒适噪音生成可快速确定静音出现的时间,并在出现静音时产生人工噪音,直到语音活动重新恢复为止。产生的人工噪音可形成传输流不间断的假象,因此电话中的背景声音会从始至终保持连续,接听者不会有电话掉线的感觉。
neteq/comfort_noise.cc
参考
https://blog.csdn.net/liuxiaoheng1992/article/details/79379514
https://nemocdz.github.io/post/浅谈-webrtc-neteq/#丢包补偿-1
《WebRTC语音引擎中NetEq技术的研究》吴江锐
⑧ 开语音厅做不好什么原因
音质的要求更高。
1、整体稳定的技术。1对1语聊的技术门槛相对较低,多人语聊和特定场景相对复杂,技术实现难度比较大。以pia戏为例,如果经常出现卡顿、延迟和听不清的情况,会将营造的剧情气氛破坏殆尽,主播时不时要退出重新登录,无法全身心投入,用户听到的是断断续续的声音,不能沉浸到剧情中。即构自研的音视频引擎,通过抖动缓冲技术、前向纠错技术、丢帧补偿技术减少网络抖动和弱网环境下的延迟,保障语音通话低延时且清晰。让用户在复杂网络环境和多类型手机的情况下,也能实现畅通优质的语音通话。
2、多人聊天的语音前处理以KTV语聊房为例,在房间当中,有人说话声音、歌声、伴奏都在房间呈现,每个人所处的地方,所用的设备也不一样,这就有很大可能出现回声、噪音,或是某个人设备不是很好,发出的声音很小。即构成熟的语音前处理3A技术:回声消除(AEC)、噪音抑制(ANS)、音量增益(AGC),杜绝回声和啸叫,降噪而无损音质。这样歌者能展示甜美歌声,听众也有良好的听觉享受。
3、媒体次要信息同步而在KTV类的场景中,AB两人轮麦合唱,如果轮到B唱歌时发现歌词没同步,就很难唱下去。这当中技术难点就在于歌词等媒体次要信息是否能做到同步。即构的KTV解决方案中,支持将非媒体信息注入媒体流中,歌词等媒体次要信息和音视频信息放在同一个媒体通道传输的,做到歌词与歌声同步展示果。
⑨ 语音增强的方法分类
常用的语音增强算法分为如下几类:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。这里只是介绍一下各种语音增强方法流程,待确定方向之后再深入研究。
语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学范畴。再者,噪声的来源众多,因应用场合而异,它们的特性也各不相同。所以必须针对不同噪声,采用不同的语音增强对策。某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类:噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。
⑩ ROCWARE RC08测评:当国产摄像头开始内卷
“我们还是用手机视频聊吧,你电脑的画面太朦胧了。”
不同于手机摄像头“军事竞赛”般的快速升级,电脑的摄像头过得更像是一个小透明,不仅发布会鲜有提及,1080P画质的摄像头也仅出现在少数几款旗舰笔记本电脑上。由于应用场景固定,用户使用率低,以至于在2018年到2020年间还出现了不带摄像头的笔记本电脑。
两者处境好比一个生在罗马,一个生如骡马。但是在后疫情时代,视频会议、线上办公、远程教育需求激增,相比升级手上的设备,更为经济的外设摄像头重回消费者视野。
由于全球公共卫生事件,PC外设摄像头的出货量和订单获得极大增长,仅2020年同比增幅就超过200%,成为在线教育、远程办公等市场的新宠。除了基础的高画质,消费者对外设摄像头的麦克风等外围配置提出了更高的要求。值得注意的是,对于不少没有配备扬声器的办公电脑用户而言,甚至希望外设摄像头配备扬声器以弥补硬件劣势,但是市面上一直缺少相关产品。
ROCWARE作为国内着名的音视频通信设备及解决方案供应商——维海德的旗下品牌,较早地意识到市场变化,率先推出RC08 Mini全高清 USB音视频一体化摄像机(下文简称RC08),集成1080P摄像头、麦克风、全频扬声器,是市面上极少有的三合一产品。它不仅可以用于代替笔记本电脑的内置摄像头,还能用来作为台式机配置的补充,以及更加精准的定位,算是为外设摄像头市场开了一个好头。
更商务的外观,更适合如今的时代
上次使用外设摄像头还是在15年前,一根可弯折的金属支架以及一个水滴造型的摄像头,红色的工程塑料机身,今天看来十分模糊的画质,但依然是那个时代的代表,甚至标配。
对比数年前的同类设备,RC08看起来要先进很多,因为它集合了1080P全高清摄像头,全向麦克风、全频扬声器为一体。
RC08左侧开孔为摄像头,还配有TOF激光辅助自动对焦系统,这种配置在高端智能手机上出现的比较多,可大大提升镜头对焦速度。右侧开孔为扬声器,这是我个人很喜欢的一项配置,因为在不使用摄像头的时候,RC08甚至可以充当一个小音箱使用。
机身背面有一个Type-C接口和一个触摸按键,短按实现快速静音,长按8秒可进行横竖屏切换,这是一款支持竖屏模式的摄像头,这项功能在同价位摄像头中是极为少见的。
但是有一点,这颗触摸按键在操作过程中不会像传统按键给出反馈,是否静音,是否成功切换模式,都是通过机身中央的状态指示灯给出的提示进行判断,而且按键表面的指纹图案容易让人将其错认为指纹按键。如果允许,建议之后的产品提升按键的反馈力度,这样盲操作也更为便利。除了摄像头的基础配置和功能,RC08本身配有阻尼旋转轴支架,支持360 旋转。
在细节上,RC08摄像头内置隐私滑盖,保护隐私安全,设计之用心可见一斑。
这款摄像头相当于结合了三种设备,所以RC08与其说是一款外设摄像头,看起来更像是一种复合型产品,所以它的应用场景远不止给电脑充当外设摄像头。
全高清画质依旧是立生之本
对于摄像头这种产品,RC08扩展多功能是一件好事,至少对于消费者来说,摄像头有了更为丰富的应用场景。但是究其本质,输出高清画质依然是第一要务。
RC08最高支持1920 x 1080分辨率,以及最高1080P 30帧视频输出,这样的画质是可以满足今天视频会议、远程教育、线上办公以及部分直播需求。这样说可能没感觉,如果对比现在的笔记本电脑的内置摄像头,就会有非常明显的体现。
下面这组图是RC08和2021款高端笔记本,在同一场景下的摄像头画质对比,先使用笔记本的内置摄像头拍摄,然后再给这款笔记本连接上RC08,进行第二次拍摄。
电脑内置摄像头拍摄
RC08拍摄
对比结果高下立判,这组样张拍摄于傍晚,有阳光照进房间,RC08输出的画面为1080P,笔记本内置摄像头的画面分辨率仅为720P,不只是清晰度,亮度完全不在一个档次上,电脑内置的摄像头甚至不能很好地还原当时的人物和环境色彩,而RC08依托于画质优化技术,使得不仅是人物的精神面貌,背景墙的纹理细节也有很好的呈现。
摄像头拍摄的画面,基本就是对方看到的画面,不管是出于社交、办公,还是求职,一个高素质摄像头带来的意义远超于其本身。
另外,由于RC08支持90 广角视野,使其可以用于多人同框聊天。或许我们可以想象这样一个场景,将RC08装在台式机或是其他带有USB插口的大屏设备上,设置输出设备后,你和你的团队、同事、朋友等同屏与对方进行视频会议或视频聊天,而不用狼狈地挤在一个屏幕前,其意义和效果不亚于智能手机使用的广角前置镜头。
除了提升视频通话体验,RC08较高的镜头素质使其也能应对部分直播需求。
为了更好地模拟直播效果,使用现在主流的OBS Studio进行测试,将视频来源采集设备设置为RC08后,电脑便可以采集真正1920 x 1080分辨率的画面。这样在直播,线上教学时能够给对方更清晰画面的显示,例如在直播上课时,1080P的画面可以将板书或者习题更清楚地展示出来,学生也能更好地学习和做笔记。
电脑摄像头预览和输出的画面
RC08预览和输出的画面
对比采集电脑内置摄像头的画面,结果同样表现明显,RC08采集的画面无论是在清晰度、亮度、色彩都要好于内置摄像头。即便选择直播软件预设的2880 x 1880这样的基础和输出分辨率,RC08也能有不错的画质表现,不过画幅会有所缩小,毕竟摄像头的上限摆在这里。
所以就画质而言,RC08的表现要明显好于电脑内置的摄像头,1080P的画质表现也足以应对线上办公、远程教育和部分直播需要。
是摄像头,亦是小音箱
对于RC08,我真正的没想到的是它竟然还标配了一个全频扬声器。
这款摄像头十分小巧轻盈,意味着它的音腔不会很大,在这么小的体积下要拥有一个响度足够大,音质足够好的外放表现是存在一定难度的。但是RC08实际外放效果意外地还不错,对于没有配备扬声器的办公电脑是一种很好的功能补充。
RC08能实现还不错的外放效果,一方面在于RC08配备了一个全频扬声器,这种扬声器的优势在于所有的声音都由一个单元发出,几乎不存在相位失真,可以保证音色一致,声音的凝聚力、结像表现好,不存在不同单元的声音的干扰。另一方面在于RC08内置的风管式音腔,进一步提升外放,这种类型音腔一般出现在与电视搭配的条形音箱上,尽管由于尺寸受限无法相提并论,但在摄像头产品中,已属于降维打击。
相对的,全频扬声器高中低三频频率范围难以兼顾,要做一个高中低频都很好的全频,成本代价很高,而且最佳表现功率范围相对比较窄。
但毕竟承载主体是一款外设摄像头,全频扬声器提供的外放表现用于听歌、看视频以及对话聆听绰绰有余,这几天听歌、玩 游戏 ,我都是使用RC08自带的扬声器,还挺带感。
或许很多人都不知道,对于一个摄像头来说,要添加上扬声器并不能简单地做1+1加法,还需要深厚的技术实力。
因为当外设摄像头配备了扬声器后,要注意另外一个问题——回声。在视频会议时,扬声器发出的声音很容易被近在咫尺的麦克风所拾取而形成回声。市面上的同类产品往往会将麦克风放置在机身后侧或侧面,避免两者同侧出现。但是RC08能将麦克风和扬声器放在同侧,那么它是怎么解决回声问题的?
依靠多年在音视频领域的研发经验,RC08有一套自研的音频3A算法,其中回声消除(AEC)技术,能够建立一个语音模型对回声进行评估,然后不断地修改滤波器系数,让建立的语音模型估计值接近真实回声值。最后再将回声估计值从麦克风的输入信号中相互抵消,从而达到消除回声的目的。
而且RC08内置的ROCWARE自研的音频3A算法能解决的也不只是回声。
当环境存在噪音时,自动噪声消除(ANS)技术自动激活,对于这项技术你大可将其简单理解成“给RC08戴了一个降噪耳机”,对有干扰的声音信号进行压制消除,同时改善语音信号的信噪比和语音清晰度,让人与机器都能听得清。
还有自动增益控制(AGC)技术,可自动调整声音范围,说话的声音偏小时,自动放大语音信号,偏大时则自动抑制,保证输出的声音平稳。
所以对于RC08来说,它所需要的算法比同类产品更为复杂,对算法技术的要求自然也就更高。
除了画质和拾音,还有什么?
现在的外设摄像头除了画质本身,为了适应市场需求,需要具备比过去同类产品更为丰富的功能,例如竖屏模式和TOF激光辅助自动对焦。
长按RC08背面的按键8秒,前方状态灯从蓝色变为紫色,摄像头自动重启后表示成功转换为竖屏模式。在该模式下,RC08同样支持1080P拍摄以及1080P 30帧视频录制。值得注意的是,RC08竖屏模式下的分辨率依旧是1080 x 1920,而非简单裁剪画面。
竖屏模式下拍摄
这项功能不仅可用于视频聊天,还让RC08可用于一定场景下的短视频拍摄,甚至可以用于微博、抖音、快手等平台的直播,进一步拓展了外设摄像头的应用场景。
有一说一,这项功能不仅是在同价位产品,甚至在同类型产品非常少见的。尤其是当你需要坐下来,用电脑给别人手机打视频电话的时候,竖屏状态下录制的画面可以占满对方手机全屏,而横屏未必,这也是为适应当下移动互联网变化做出的升级。
视频加载中...
除了竖屏模式之外,RC08的TOF激光辅助自动对焦系统也是一个亮点。TOF激光辅助自动对焦系统是一些高端智能手机上常见的配置,在RC08这样的摄像头上搭载我们还是第一次看到。从原理上看,TOF激光辅助对焦系统能够帮助摄像头的自动对焦实现更为快速而精准的对焦,那么RC08的实际对焦表现怎样呢?从上面的视频我们能看到即便用户在画面前做出一些动作,摄像头也能快速对焦,保证不虚焦,让画面保持清晰。
不过,由于RC08本身没有标配补光灯,如果有需要的话,仍需额外选购相关设备。还有一点,有些用户使用的显示器比较厚,可能不太方便放置摄像头。所以RC08支架底部留了一个三脚架标准螺丝孔位,方便用户自己加装支架。
值得注意的是,RC08本身支持免驱安装,即插即用,而且这款摄像头支持标准PTZ指令,可以通过ROCWARE控制软件调整亮度、白平衡、变焦等。不过在连接电脑后,支持标准PTZ指令的社交软件、会议软件、直播软件等,同样可以设置摄像头画面。所以,不用拘泥于摄像头本身的操作软件。
一款标准的复合型产品
在用上RC08之前,我一直以为这就是一个普通的外设摄像头,但没想到它却是一个结合摄像头、扬声器和麦克风的复合型产品,它所发挥的作用高于外设摄像头这个品类。
综合来看,RC08是一款非常少见的优秀音视频一体的摄像头,是专业制造商技术下沉市场的结果,而且对于之后的外设摄像头来说,RC08更是一款在设计思路上值得借鉴的产品。
使用到今天,我已经习惯了有一个摄像头放置于我的显示器之上,或许这样一款外置摄像头将很快成为大多数人的标配外设。RC08清晰的画面、完整地拾音、不错的外放,加上399元的价格,作为一个需要经常与人视频会议的上班族来说,这是一个具有很高性价比的办公配置,何况电商平台还会有活动。即便平日不用,放在办公室,甚至家中备用也非常合适,加上竖屏模式的存在,让RC08也很适合网络主播使用。