㈠ 音频知识详解(一)
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫 模拟信号 。模拟信号需要进行数字化以后才能在计算机中使用。
目前我们在计算机上进行音频播放都需要依赖于 音频文件 。 音频文件 的生成过程是将 声音信息采样 、 量化 和 编码 产生的数字信号的过程 ,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,因此音频文件格式的最大带宽是20KHZ。根据 奈奎斯特 的理论,只有 采样频率 高于 声音信号最高频率 的两倍时,才能把数字信号表示的声音还原成为原来的声音,所以音频文件的采样率一般在40~50KHZ,比如最常见的CD音质采样率44.1KHZ。
采样 :波是无限光滑的,采样的过程就是从波中抽取某些点的频率值,就是 把模拟信号数字化 。如下图所示:
采样频率 :单位时间内对模拟信号的采样次数。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz - 电话所用采样率, 对于人的说话已经足够,22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐),44.1KHz则是是最常见的采样率标准,理论上的CD音质界限,48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值)。
采样位数(也成量化级、样本尺寸、量化数据位数) :每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8位字长量化(低品质)和16位字长量化(高品质),16 bit 是最常见的采样精度。
量化 :将采样后离散信号的幅度用二进制数表示出来的过程称为量化。(日常生活所说的量化,就是设定一个范围或者区间,然后看获取到的数据在这个条件内的收集出来)。
PCM : PCM(Pulse Code Molation),即脉冲编码调制,对声音进行采样、量化过程,未经过任何编码和压缩处理。
编码 :采样和量化后的信号还不是数字信号,需要将它转化为数字编码脉冲,这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。
声道数 :声道数是指支持能不同发声的音响的个数,它是衡量音响设备的重要指标之一。
码率 :(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。 比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。
音频帧 :音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”,其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。
模拟信号 -> 输入设备(传递电压值)-> 声卡(经过采样跟量化(即设置声音大小等各种值))-> 磁盘(文件) -> 声卡 -> 输出设备 -> 模拟信号
我们声音在物理上用波形表示,那么我们将这些波形称作为 模拟信号 。而我们计算机磁盘只能存储(01010101)的格式。我们将模拟信号转换成能够被磁盘存储的格式(010101)称之为 数字信号 。这个转换的过程我们叫 模数转换 。
我们发出来的声音(模拟信号)是连续的,我们如果要一直的对模拟信号进行转化,产生的数字信号会很大。那么我们就要采样,而采样精度就是每秒计算机对模拟信号进行采样的次数。最常见的采样精度就是上面提到的44.1khz/s,这个是经过大师们多年研究得出的数据,低于这个数据,效果就会很差,而高于这个数据,效果的差距不是很明显。
采样后就是变成了(0101010110100101...),那声音的音量是有大小的,那这串数据,怎样表示声音的大小呢? 这就涉及到了比特率,它是指在一个数据流中每秒钟能通过的信息量。 比特率就是将声音的大小划分为多少等级。举例下:8比特,在二进制中,表示有8位,表示的十进制的值就是0(00000000)~256(11111111),那每个数值就代表着一个声音大小。
经过采样、量化、编码后转化成数字信号,然后存储为文件。
文件是用来装数字信号的 ,文件包括了比特率、采样率、声道、编码方式、以及被编码过后的数字信号。
文件格式 就是制造者自己规定的一种名称,在每个文件格式都会特定支持几种编码格式。 打个比方就是文件就是一个容器,里面可以装不同的水,有的可以装一种,有的可以装好几种。
经过采样后的数字信号很大,有时候我们不需要这么大的,所以我们就要进行编码压缩,当然压缩技术都是有损的。在不大影响音频的效果的情况下,舍弃掉一些高频或者低频的数据。
编码格式 可以理解为每种音频格式不同的编解码方式。
封装格式就是文件格式,编码就是编码格式。
了解了基础概念之后我们就可以列出一个经典的音频播放流程(以MP3为例):
在iOS系统中apple对上述的流程进行了封装并提供了不同层次的接口(图片引自 官方文档 )。
下面对其中的中高层接口进行功能说明:
可以看到apple提供的接口类型非常丰富,可以满足各种类别类需求:
https://msching.github.io/ 大神之作
https://www.jianshu.com/p/5c5e95d89c4f 写的相当不错
https://www.jianshu.com/p/423726cc9090 知识点很全
https://www.jianshu.com/p/b3db09fb69dc 总结的挺好
https://www.jianshu.com/p/a75f2411225f 有点专业,了解一部分
http://blog.csdn.net/liusandian/article/details/52488078 概念很清晰易懂
㈡ 求叨叨冯聊音乐:音乐博士带你从零开始学乐理
AI 科技评论按:作为中国音乐学习最高学府之一,中央音乐学院今日发布了一则音乐人工智能博士招生启事。该专业全名为“音乐人工智能与音乐信息科技”,为中央音乐学院首次开设,导师阵容有来自清华大学、北京大学的人工智能教授,联合中央音乐学院院长共同组成双导师培养制 (音乐导师+科技导师),着力培养“音乐与理工科交叉融合的复合型拔尖创新人才”。
据官网资料显示,“音乐人工智能与音乐信息科技”专业学制一共是 3 年,要求报考者必须是出身计算机、智能和电子信息类的考生。
建议阅读书目方面,除了《音乐理论基础》1 本与音乐理论挂钩外,其余 4 本推荐书目都跟人工智能理论相关,它们分别为《数据结构与算法》、《信号与系统引论》、《人工智能:一种现代的方法》以及《神经网络与机器学习》
由于“音乐人工智能与音乐信息科技”为跨学科专业,面试环节除了将考核本学科的专业能力之外,还会考核考生的音乐能力——演奏某种乐器或者单纯进行演唱。
目前该专业已敲定的 3 名联合培养导师分别为:
俞峰
中央音乐学院院长, 教授、博导,“万人计划”领军人才,“四个一批”人才。中国指挥学会会长、全国艺术专业学位研究生教指委副主任、中国文联第十届全国委员会委员, 享受国务院政府特殊津贴。
孙茂松
清华大学教授、博导, 清华大学人工智能研究院常务副院长, 原计算机系主任、党委书记, 教育部教学信息化与教学方法创新指导委员会副主任委员, 中国科学技术协会第九届全国委员会委员。主要研究领域为自然语言处理、人工智能、机器学习和计算教育学。国家 973 计划项目首席科学家, 国家社会科学基金重大项目首席专家。2017 年领衔研制出“九歌”人工智能古诗写作系统。
吴玺宏
北京大学教授、博导, 教育部新世纪优秀人才。北京大学信息科学技术学院副院长, 智能科学系主任, 言语听觉研究中心主任, 致力于机器听觉计算理论、语音信息处理、自然语言理解以及音乐智能等领域的研究, 先后主持国家级、省部级项目 40 余项, 获国家授权发明专利 10 余项, 发表学术论文 200 余篇。在智能音乐创作、编配领域颇有成就。
有兴趣报读该专业的考生,须在 2019 年 3 月 1 日至 15 日期间在网上完成报名(网址:http://yz.chsi.com.cn/),考试将于今年 5 月在中央音乐学院举行。
更多详情可点击:
进行了解。
专业开办早有预兆?
如果一直有关注中央音乐学院的动态,就不会对该专业的开办感到惊讶。
早在去年的 5 月份,中央音乐学院就与素以创新性交叉学科研究闻名的美国印第安纳大学信息计算与工程学院共同签署合作建设“信息学爱乐乐团”实验室——所谓“信息爱乐”,指的是一套音乐人工智能伴奏系统,由印第安纳大学信息计算与工程学院音乐信息学实验室主任教授 Christopher Raphael 所发明。
该系统的最大特点是会运用数学方法把音乐本身和音乐家的感受进行了全面解读、演算,通过不断的主动学习,形成更加贴近音乐家个性化表现需求的管弦乐团伴奏、协奏模板,为音乐家提供了更为丰富灵活的演奏机会。
完成签署后,经过半年多的紧张筹备,双方于去年 11 月 26 日合作举办中国首场由人工智能进行伴奏的特殊音乐会——“AI 之夜音乐会”,来自中央音乐学院的 12 位不同专业的优秀独奏家与“信息爱乐”联袂演出了 12 首多种体裁风格的中外作品。
值得一提的是,本场音乐会加入了人工智能协奏中国乐曲《长城随想曲》,这是第一次音乐人工智能技术与中国民族音乐进行碰撞。
图片源自中央音乐学院官网
中央音乐学院院长俞峰教授在音乐会致辞中说道:“这是一场意义深远的音乐会,我国整个音乐行业将由此进入到一个“人工智能化”的时代,极大的提升了整个音乐行业,尤其是音乐教育行业的信息化水平。人工智能技术与音乐艺术专业相结合将会实现整个行业的跨越式发展,一定会成为音乐行业实现产业化的典范。”
国内科研热情日益高涨
除了中央音乐学院,试图在人工智能 + 音乐上做出成绩的,尚有星海音乐学院及中央民族大学。
去年 5 月 16 日,由星海音乐学院管弦系与美国印第安纳大学信息计算与工程学院音乐信息学实验室合作的“音乐人工智能辅助管弦乐教学联合实验室”正式挂牌启动,双方将就“音乐人工智能辅助管弦乐教学”系统引入至日常教学中展开合作。
据了解,该系统可以让学生们在日常专业练习过程中随时听到职业管弦乐团的完整乐曲伴奏,同时将自己与管弦乐团的合成演奏音频转化成高度结构化、可视化、可检索、可比较研究的音乐数据带到课堂上与专业老师共同探讨;对专业老师而言,该系统可以实现对学生专业学习情况的纵向和横向比较,获得了解学生的第一手资料,从而完善教学内容和方法。
图片源自“星海音乐学院”微信公众号
去年 12 月 7 日,由中央民族大学与平安科技联手的“人工智能音乐联合实验室”签字揭牌仪式在中央民族大学知行堂举行。本次合作旨在发挥各自优势、通过共同研发,实现人工智能音乐创作由欣赏阶段到专业阶段再到专家阶段的设想。
中央民族大学党委常委、副校长宋敏在揭牌仪式上表示,人工智能己列入国家规划并进入逐步实施阶段,正在不断与各个领域结合,无疑将引领未来各行各业的发展,她希望双方通过实验室这一平台各自发挥优势,提高民大学科建设水平和音乐创作水平,推进北京“四个中心”建设特别是文化中心建设,并积极助力中国优秀音乐文化走出。
图片源自中央民族大学官网
另外,由复旦大学、清华大学联合创办,至今已是第 6 届的中国声音与音乐技术会议 CSMT(Conference on Sound and Music Technology),从 2013 年开始便就声音与音乐技术这门多学科交叉领域源源不断地为国内输出学术见解,丰富了国内人工智能 + 音乐领域的研究成果。
以 2018 年的会议为例,其征文主题包括:
音乐声学
声音与音乐的信号处理
计算机听觉
音频信息安全
计算机音乐与录音
·听觉心理学
·听觉与视觉相结合的多媒体应用
值得一提的是,去年的 CSMT 大会特别开辟了两个 Special Session:一个用来探讨面向一般 Audio 的计算机听觉,试图扩展 Music 之外的 Audio + AI 人工智能在各行各业的应用,比如海洋舰船识别、设备诊断、AI 医疗、嗓音声学、音频监控、动物识别、农业保护、工业自动化等;另一个则是探讨中国民族音乐与计算机等科学技术的交叉融合,显示了该国内会议的前瞻性。
当下流行的 AI + 音乐算法
对于当下的音乐人工智能算法研究,中国音乐学院音乐学系付晓东教授在发表于 2018 年 05 期《艺术探索》的《音乐人工智能的伦理思考——算法作曲的“自律”与“他律”》一文中按“自律”与“他律”将之进行了划分。
其中“自律”指的是机器严格或非严格地遵循事先规定好的内部结构原则,对应于音响素材而生成音乐作品,最终的音响呈现受到内部结构原则的自律性限定;“他律”则指机器严格或非严格地遵循依据人类经验规定好的外部结构原则,并映射为音响而生成作品,最终的音响呈现受到外部结构原则的他律性限定。
最终的梳理结果如下:
“自律”类音乐人工智能算法
“他律”类音乐人工智能算法
根据付教授的划分准则,我们将能对当今流行的大部分人工智能 + 音乐研究工作进行有效归类。
值得一提的是,由中国科学技术大学、微软人工智能和研究院、苏州大学团队合作,讲述歌曲生成的端到端旋律和编曲生成框架的论文《XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music》成功荣获 KDD 2018 的 Research Track 最佳学生论文,雷锋网 AI 科技评论对此做了相应解读,有兴趣的读者可点击 https://www.leiphone.com/news/201808/NkobLRDHxZsyadg5.html进行回看。
总的来说,未来人工智能将在音乐领域发挥更加重要的作用,它可以帮助人们分析作品、创作以及分担相当多的重复性工作,进一步激发创造力,探索音乐形式与内容方面的多种可行性。希望这种跨学科、融合性的合作,能够对各类音乐创作逻辑进行总结与完善,并在感知、情感等方面做出突破,让人工智能在音乐的诸多领域形成创新,并在教学、社会服务等方面产生影响。
㈢ NetEq中DSP模块音频算法探究
netEQ是webrtc中动态抖动缓冲区和错误隐藏的算法,用来消除因为网络抖动或者丢包。在保持高质量通话的同时,兼顾数据的低延时。其中,两大模块分别为MCU、DSP。
MCU(Micro Control Unit)模块是抖动缓冲区的微控制单元,由于抖动缓冲区作用是暂存接收到的数据包,因此 MCU 的主要作用是安排数据包的插入并控制数据包的输出。数据包的插入主要是确定来自网络的新到达的数据包在缓冲区中的插入位置,而控制数据包的输出则要考虑什么时候需要输出数据,以及输出哪一个插槽的数据包。
DSP(digital signal processing)模块是信号处理单元,主要负责对从 MCU 中提取出来的 PCM 源数据包进行数字信号处理。
本文将针对DSP模块中设计到的相关算法以及具体处理过程做详细介绍和分析。
这里解释一下DSP处理中几个操作类型的意义:
加速 Accelerate: 变声不变调的加速播放算法
慢速 PreemptiveExpand: 变声不变调的减速播放算法
正常 Normal: 正常的解码播放,不额外引入假数据
融合 Merge: 如果上一次是 Expand 造假出来的数据,那为了听起来更舒服一些,会跟正常数据包做一次融合算法
丢包隐藏 Expand(Packet Loss Concealment): 丢包补偿,最重要的无中生有算法模块,解决 “真丢包” 时没数据的问题,造假专业户
舒适噪音 ComfortNoise: 是用来产生舒适噪声的,比单纯的静音包听起来会更舒服的静音状态
a. 基音,指的是物体震动时所发出的频率最低的音,其余为泛音。也就是发音体整段震动,它携带着语音中的大部分能量。
b. 基音周期,声音震动波形的周期,其频率则为基频。基音周期是语音处理算法中的基本单位,是语音估计中的关键参数。
c. 基音检测,是对基音周期的估计,目的是得出和声音震动频率完全一致的基音周期长度。
d. 短时自相关函数法,webrtc中用于基因检测的方法。经典的短时自相关函数法进行基音检测时,是使用一个窗函数,窗不动,语音信号移动。通过比较原始信号和他位移后的信号之间的相似性来确定基音周期,如果移位距离等于基音周期,那么两个信号便具有最大相似性。窗口长度N的选择至少要大于基音周期的两倍,N越大,得出的基音周期越准确,但计算量也会相应增加。反之,N越小,误差越大,计算量越小。
e. WSOLA,Waveform Similarity Over-Lap Add,波形相似重叠相加法。在不改变语音音调并保证音质的前提下,使语音在时间轴上被拉伸或者压缩,即变速不变调。
采用分解合成的思想,将原始语音以L为帧间距,以N为帧长进行拆分,以aL为帧间距进行合成,其中a为调整因子。为防止频谱断裂或相位不连续,合成时在原始语音信号的采样点处,相邻区域[-max, +max]内移动,寻找信号波形相关最大的波形,确定合成位置。
图中是通过直接拷贝的方式实现慢速播放,造成了时域波形不连续。波形相似叠加法避免了上述问题的出现。
加速处理用来解决数据包在jitterbuffer中累积造成延时过大的情况。使用WSOLA算法在时域上压缩语音信号。
已上图为例,长度为110个样本。其中B区域为短时自相关函数法中的x(n),长度相同的移动窗(A区域)为x(n-τ),以τ为10开始移动,最大为100。在此过程中以抛物线拟合的方式求出相关性最大时的移动距离τ,进而得到该帧的基音周期P。
计算该数据流,中心点,前后两个基音周期的相关性bestCorr。当相关性大于0.9,将两个基音周期交叉混合并输出;否则,按照正常处理直接输出。
加速处理就是将两个基音混合成一个个并代替原有的两个基音来缩短语音长度。
加速后的语音数据存于neteq算法缓冲区algorithm_buffer中。
neteq/accelerate.cc
减速处理用来解决网络状况不好而导致音频数据比较少时,为了人耳听觉的连续性,使用WSOLA算法在时域上拉伸信号,来延长网络等待时间。
过程与加速过程类似
减速处理是将两个基音混合成一个,并插入到两个基音中间来延长语音长度。因此,经过减速处理的语音帧增加了一个基音周期的时长。
减速后的语音数据存于neteq算法缓冲区algorithm_buffer中。
neteq/preemptive_expand.cc
当音频数据丢失,会利用参考数据在算法缓冲区中创建、补齐缺失内容,实现丢包隐藏,保证听觉体验。
上图中,丢包隐藏使用语音缓冲区中最新的256个样本作为参考数据源,并将这些数据记为speechHistory(历史数据)。speechHistory用于连续PLC的场景。
neteq/expand.cc
融合处理发生在播放的上一帧与当前数据帧不连续的情况。比如,上一帧为PLC帧,当前帧为正常帧。
neteq/merge.cc
正常处理一般用于提取的数据包刚好符合播放要求,然后将此包解码后直接输出到speech buffer等待播放。如果上次处理是PLC,还需要进行平滑。
neteq/normal.cc
rfc 3389。结合语音活动检测算法的舒适噪音生成可快速确定静音出现的时间,并在出现静音时产生人工噪音,直到语音活动重新恢复为止。产生的人工噪音可形成传输流不间断的假象,因此电话中的背景声音会从始至终保持连续,接听者不会有电话掉线的感觉。
neteq/comfort_noise.cc
参考
https://blog.csdn.net/liuxiaoheng1992/article/details/79379514
https://nemocdz.github.io/post/浅谈-webrtc-neteq/#丢包补偿-1
《WebRTC语音引擎中NetEq技术的研究》吴江锐
㈣ 音频算法专业博士哪个学校好
1、皇家理工学院(英文:KTHRoyalInstituteofTechnology;瑞典文:Kungligatekniskah_gskolan,简称:KTH)成则或立于1827年,坐落于瑞典王国首都斯德哥尔摩,是瑞典国内规模最大、历史最悠久的理工院校,为北欧五校联盟成员之一,此学校的音频算法专业博士深受业界承认。
2、东北大学(NortheasternUniversity),简称NEU,成立于1898年,坐落富有历史底蕴,古老与现代并存的波士顿市中心,是位于美国东北部马萨诸塞州州府波士顿市碰态的一所美国的着名私立研究型大学,在全球具有很高的声誉。学校一共汇聚了来自全世界122个国家的精英,在实践性学习、跨学科研究以及社区参与方面都处于世界领先地位。东北大学由8个学院组成,设有175个本科专业和227个笑盯源研究生专业,授予硕士、博士和职业教育学位。