1. 为网络授课挂上实时翻译字幕是种什么体验讯飞智能全向麦克风M2
随着当前大环境的变化,许多会议和教学都转到了线上进行。特别是对于留学生来说,虽然就读的是国外大学,但上课却是以网络授课的方式在进行着,这也是目前在短期内很难改变的现状。
从线下面授,转变到线上过程中最常见的就是收音问题,例如麦克风啸叫,拾音不清晰,距离远不稳定等等,从而导致后续的一系列的问题产生。最尴尬的场面是,线上教授多次让你重复前面的回答,因为他听得很模糊。
如何解决这些问题呢?最简单的方法就是通过外置麦克风来改善笔记本的拾音条件,但这也只是改善拾音问题,课后的笔记整理依旧相当花时间。我也尝试过使用录屏或录音软件将上课内容给保留下来,可是也并不能提高笔记的整理效率,而且视频和录音也不支持检索,来回拖动的效率也不高。
那么如何提升上课或会议的效率呢?接下来就分享一款我最近刚入手的商务类产品--科大讯飞智能全向麦克风M2。尽管名称中带有麦克风字眼,但毕竟是科大讯飞旗下的产品,语音识别和翻译是其强项,这也就导致麦克风M2并不是只有简单的拾音功能,还支持自动记录语音内容,转写文字。
尽管讯飞智能麦克风M2支持即插即用,无需安装任何的驱动,但还是得搭配“讯飞听见客户端”才能享受转写服务。
打开“讯飞听见”客户端后,我们可以看到软件集成了远程云会议、云空间、语音转文字、翻译等功能,整体UI界面比较简洁。
讯飞智能麦克风M2自带免费转写、小语种识别和方言识别权益,也就是说在“讯飞听见客户端”上的转写操作是不必再二次付费的。
作为一家在智能语音技术方面深耕多年的公司,科大讯飞不仅让M2支持中、英、日、韩、俄、西、越等8种国家语言转写,还支持粤语、四川话、重庆话、云南话、河南话等12种地方方言,以及维吾尔语和藏语,中文转写准确率高达98%。哪怕普通话不标准,也不必纠结语种问题。
例如现在选取一段真人阅读作为拾音范本。大致原文如下: 流沙、毒箭、毒虫、险坑等等数不胜数。到了明代,受到西洋奇技淫巧的影响,一些大墓甚至用到了西洋的八宝转心机关。尤其是清代的帝陵,堪称集数千年防盗技术于一体的杰作。大军阀孙殿英想挖开东陵,用里面的财宝充当军饷,动用大批军队连挖带炸,用了五六天才得手,其坚固程度可想而知。
转写后与原文进行对比。大部分的内容都没有问题,不能完美转写的地方主要出现在同音和语气差异处,如“西洋奇技淫巧”变成了“夕阳奇迹银翘”,“幕”和“墓”,这些问题都可以理解,同音不同字。
更换另一个播音员的声音。引用的原文如下: 闻着酒香闭上眼睛抽了抽鼻子,一脸陶醉,正他娘的香。一发狠,他走过去寻了一条唯一空着的凳子,一屁股坐下,咬着牙使出最后的力气喊,“小二,上酒。”身边出城或者进城中途歇息的酒客,都嫌弃这衣着寒酸的一主一仆,刻意坐远了。生意忙碌的店小二,原本听着声音要附和一声,好勒,可一看主仆二人的装束立刻就拉下脸了,出来做买卖的没个眼力见儿怎么能成?
这段内容的转写就很有意思,将一些不好的内容直接简写为了“tnd”,但大部分内容也都没问题,就是标点符号无法区分,与官方所说的98%识别率相吻合。从转写的结果来看,人工校对的工作量很小,后期整理文档来说很方便,会议记录工作也能从此变得非常高效。
值得一提的是,软件中提供了匹配关联操作,输入纪要文字后能够自动跳转到段落,在需要检索内容信息时相当好用,不过可惜此功能目前只支持中文。
转写完毕后,可以下载保存为Word文档或txt,并自动打包成ZIP压缩包,也可以生成二维码或在线链接,便于我们轻松地将内容分享出去。
由“讯飞听见客户端”的实时翻译,再配合讯飞智能麦克风M2而衍生出的字幕组功能,算是一个极具特点的“学习”模式。开启方式就在会议记录中,多点一下“字幕模式”项。
启用“字幕模式”后,会以字幕条的形式在屏幕上显示实时转写和翻译内容,有点类似QQ音乐或网易云音乐的歌词秀。
字幕的字体大小,颜色以及透明度可以调节,位置也同样是可以任意拖动。显示的内容上,可以在转写、翻译、转写+翻译共三种结果中切换。
如果要问能否替代字幕组的功效,那么还是有一点差距的。主要是转写有延后,翻译结果也不会完美地分断行呈现,但如果是用来看生肉剧,发布会,课程之类的也够用了,而且还起到了锻炼阅读的效果。
“字幕模式”能兼容各类音视频、在线聊天、会议软件等。特别是运用到当前的网络授课中,挂个字幕在屏幕下方,作为翻译助手或者题词器使用,上课时也不必担心教授在那里说些“云里雾里”的内容了。课后还能回放教授录音和保存笔记,作为课后的知识点复习用。
另外,虽然讯飞智能麦克风M2是3W的功率,但是扬声器的外放效果倒是相当洪亮。即使最大音量也没有出现破音,实属难得。
科大讯飞智能全向麦克风M2(以下简称讯飞智能麦克风M2)的外包装盒比较大,是比较有商务范的礼盒装。
开盒后我们可以看到内部的物件不算多,附有智能麦克风M2主体、说明书、收纳包以及数据线。其中数据线是C to C与USB-A二合一设计,取下USB-A套头即为双C接口,算是新老设备通吃吧。
而收纳包也让我在外出携带时变得更方便,即便是随意丢到背包中也不用担心各种磕碰,考虑得很周到。
讯飞智能麦克风M2采用正方体设计,外表为一体化冲压成型金属面板,整体尺寸120mm x 120mm,厚度约29mm左右,给人感觉非常轻巧,也略有些商务。
实际上手后重量也确实很轻,也就罐装可乐的重量,拿在手中或随身放在背包中都非常轻巧。
整个表面由大面积的圆形孔洞覆盖,只在边缘处留有一块放置功能按键。根据官方数据,讯飞智能麦克风M2配备了高保真扬声器,确保声音能够清晰地传送到会议室或教室里的每一个角落。
之所以诸如手机、笔记本、平板等设备的外放音质差,主要还是与扬声器的体积过小有关。尽管讯飞智能麦克风M2不能替代传统的音箱,但作为以上设备的会议“助手”,已完全够用。
顶部边缘处的四个触摸键并无文字标识,从左至右依次为音量减、通话按键 、静音键以及音量加。在操作逻辑无任何问题,并且胜在功能简单,属于一看即可上手的那种。
此外,在按键的边缘处还设计有状态指示灯条,我们可以通过灯条的不同颜色来掌握当前的工作状态。例如讯飞智能麦克风M2在蓝牙连接状态时是蓝色灯常亮,有线USB连接时则为浅蓝色,麦克风关闭状态为红色常亮……整体还是比较直观的。
值得一提的是,讯飞智能麦克风M2支持无线蓝牙和免驱有线连接,即插即用,连接过程相当方便。而内置的2500mAh容量电池,可为讯飞智能麦克风M2在无线状态下维持15小时工作时长,即便每次开会2小时,也能满足一周一充。
为了确保拾音的清晰度与范围,讯飞智能麦克风M2在机身的四个圆角处各设有一枚麦克风,组成4阵列麦克风配置,其拾音半径可达5米。这对于普通的会议室或教室来说已算是全覆盖了,而且是360 无死角拾音,能确保每个角落的发言和声响都能被清晰拾取和收录,不必担心会错过谈话细节。
再配合内置的专业数字信号处理(DSP)芯片+智能降噪算法,通过人声增益、噪声抑制和回声消除等技术,有效地提升了通话质量。在我实际使用过程中,并无啸叫、环境声过大、含糊不清等问题。
在机身的后侧设有电源键、蓝牙键、状态指示灯和Type-C接口。其中接口承载了数据传输与充电的作用,支持边充边录。
底部为大面积的硅胶脚垫覆盖,可提供不错的摩擦力,让麦克风在拾音时更加稳定。毕竟工作环境还是比较多变得,可能是木质桌面,也可能是光滑的玻璃表面,摆放不稳定时会为拾音过程带来许多不确定因素,从而导致录质的效果不佳。
作为一款拾音类产品,讯飞智能麦克风M2用在会议记录中有奇效,不仅会议内容能够全程记录,还能分段分人物输出文字,让后续的会议内容整体变得十分高效。从实际的拾音效果来说,5米内的范围都能正常完整录制,没有人声模糊,录音质量低劣等问题。
关于讯飞智能麦克风M2的应用方式,并不局限于会议场景中,对于我们这种培训机构或者是有涉外工作内容的用户来说,也非常实用。例如在网络授课过程中记录教授的上课内容,通过转写功能高效地完成课后笔记,最主要是可以经由转写内容跳转到音频段落,听不懂听不明白的地方都可以在课后复习,也算是变相的开小灶了。
当然,讯飞智能麦克风M2也有令人不满意的地方,例如对于无网络环境时只能作为音箱使用。简单说,讯飞智能麦克风M2是麦克风类产品,主打的是优质拾音,远距离收音,客户端免费转写,高效会议记录和智能字幕模式等。我是尼古拉斯lalala。
2. 智能语音机器人如何使用
这个有一个网页后台,我们用的小水智能,这个东西后期需要话术录入,场景选择,话术是真人声优录制的,导入客户号码就可以自动外呼了,非常方便。
3. 搭建智能语音交互系统重要点那些
序言
随着人工智能命题的提出,近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商,仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。
简单介绍一下什么叫做智能语音交互平台。其实大实话就是在呼叫中心基础上,集成 ASR、 TTS、的呼叫服务平台。
那么如何我们自己去搭建智能语音系统呢?
我们先列出搭建智能外呼系统的搭建需要那些技术和服务:
个人认为:
[if !supportLists]· [endif] 首先最重要的是交换机:
[if !supportLists]1. [endif]PBX也就是交换机,商用设备原厂包括像华为、Avaya、思科、东汇等这些生产硬件交换机,
[if !supportLists]2. [endif]还有就是目前FreeSitch、asterrisk、OpenPBX这些软件交换机。
[if !supportLists]· [endif] 其次是AI技术: 及包含语音识别、语义理解、语音合成这三种技术是核心组成部分。语音识别相当于人的“耳朵”,接进电话后,对人的话语进行处理转义成系统能够识别的数据交由系统处理去识别。在进一步的话,可以转义为文字。语义理解相当于人的"大脑",根据话语识别人的意图。语音合成,相当于人的”嘴巴“,识别人的意图之后,依照特定的回答方式,去回复和引导对话。
[if !supportLists]· [endif] 再者是前端服务平台:即用户登录、配置呼叫流程,建立呼叫任务、统计呼叫数据、导出呼叫报表的网站,这个是终端用户唯一可以看到并且操作的界面。
[if !supportLists]· [endif] 最后是外呼线路:其中包括三大运营商以及其他小型的集成线路供应商,主要目的是外呼电话或者是接入电话。
也有人可能有疑问:”智能语音交互系统最重要的不是人工智能么,和交换机有啥关系?”为什么说最重要的是交换机呢,原因是不管我们是外呼还是接入电话、都需要前端服务平台把外呼请求发送给交换机,通过外呼线路而拨出去。换句话说交换机是控制整体的外呼情况。硬件的交换机,比如说像华为的交换机,价格在大约几万到几百万不等的价格。对于想要建立自己的智能语音交互系统来说,价格对于一些小型公司来说承受不起,而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。
什么是FreeSwitch?
FreeSitch是一个电话的软交换解决方案,包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及多媒体服务器等。支持多种通讯技术标准,包括 SIP, H.323, IAX2 以及 GoogleTalk ,同时也可以方便的与其他开源的PBX系统进行对接。而且具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体,提供路由和互连 通信协议 。
FreeSwitch 的典型功能
[if !supportLists]· [endif]在线计费、预付费功能。
[if !supportLists]· [endif]电话路由服务器。
[if !supportLists]· [endif]语音转码服务器。
[if !supportLists]· [endif]支持资源优先权和QoS的服务器。
[if !supportLists]· [endif]多点会议服务器。
[if !supportLists]· [endif]IVR、语音通知服务器。
[if !supportLists]· [endif]VoiceMail服务器。
[if !supportLists]· [endif]PBX应用和软交换。
[if !supportLists]· [endif]应用层网关。
[if !supportLists]· [endif]防火墙/NAT穿越应用。
[if !supportLists]· [endif]私有服务器。
[if !supportLists]· [endif]SIP网间互联网关。
[if !supportLists]· [endif]SBC及安全网关。
FreeSwitch最典型的功能是作为一个服务器,并用电话客户端软件连接到它。虽然FreeSwitch支持众多的通信协议,但其最主要的协议还是SIP,通过SIP中继发起会话协议。
使用FreeSwitch这种软交换的好处在于,你只需要一台服务器就可以随时搭建自己的外呼中心,而且FreeSwitch支持跨平台运行。能够原生运行Windows、Linux、BSD等诸多32/64位平台。
FreeSwitch内部使用线程模型来处理并发请求,每个连接都在单独的线程中进行处理,不同的线程间通过Mutex互斥访问共享资源,并通过消息和异步事件等方式进行通信。FreeSwitch本身是比较稳定的,它是比较优秀的开源软件。另一方面来讲,FreeSwitch又是比较激进的,它的开发分支里会有大量的新特性加入,因此在测试不全面的情况下,很容易出现不稳定的情况。而在用于生产环境的情况下,系统的稳定性是系统能否正常被使用的关键。之前我们在做项目的过程中,就遇到一些FreeSwitch不稳定的情况,导致外呼情况不理想。举一个例子:我们在进行测试外呼的时候,语音通话断断续续,虽然前端服务平台可以很好的接受到数据的传输,但是,真正在与人工进行沟通的时候,会出现各种各样的沟通障碍,为了解决这一个问题,我们花费了几个月的时间,去研究FreeSwitch的结构特性。终于把这个问题解决掉。我们的项目才得以继续推动,最终得以真正落地部署实施。
也有人可能有疑问:”FreeSwitch软交换虽然重要,但是既然是智能语音交互系统人工智能不重要吗?”,重要,当然重要!容我慢慢道来~
AI 技术
1. 通信原理
先简单解释一下正常打电话这个流程
流程:A→PSTN→B
解释:PSTN是Public
Switched Telephone Network,意思为公共交换电话网络,也就是我们的运营商的网络电话,
那我们平时如何给呼叫中心比如打电话是如何打的?:个人A打电话给呼叫中心1***6 打电话,拨通后听到录音,您好,拨打人工台,请按0键,按键之后,出现盲音,真正接通之后,客服接通了电话。
流程:A→PSTN→PBX→IVR→客服
解释:PBX也叫交换机、相当于整个呼叫中心的出入口
IVR也叫互动/交互式语音应答,语音导航,也就是相当于咨询业务请按键,这一环节,根据业务去分流到客服。
智能语音交互平台(智能机器人)落实到具体具体业务场景是如何实现的:
如:”个人A要在某一个大型酒店预订位子“,
A拨通后先听到了声音,“您好,我是机器人小岳,需要我帮您订位子是吗?
个人A说,“我不要和机器人说话,找个真人来”。
然后听到录音,“为您转接很贵的真人客服,排队中,请稍后”。
几分钟后接通,真人客服接了电话。
流程:A→PSTN→PBX→IVR(TTS→ASR→NLP→TTS)→ACD→客服
解释:在IVR部分:不再需要提示按键,而是直接问来电方需要办理什么业务,然后识别语音、理解意图后,根据用户的需求,回答后转入对应的业务队列排队。
上边是接通的流程,呼出的流程与之相反,就不在赘述了。
2. 现在市场上的AI技术的运用
目前市场上的不管是ASR、TTS、NLP都被阿里网络科大讯飞等巨头公司所占据,这些技术在国内基本已经成为定局。像ASR这类引擎市场上大部分都是用的阿里云和讯飞云的,要不就是网络云。阿里云和讯飞云的识别率高一些,可以达到97%左右、网络的差一些,识别率在80%左右,我们当初在做项目的时候选择ASR做过测试,事实证明阿里云识别率更高同时也可以识别方言。因此,我们在做项目的时候,当仁不让的选择了阿里云的
TTS我们选择的是讯飞的,选择的理由很简单,毕竟科大讯飞是人工智能领域巨头级的公司,质量当然有的保证。
3. AI 能力对接
在具体落地中,这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种,而主要的对接点也就在于AI能力与呼叫中心设备去对接,而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。
媒体资源控制协议(Media Resource Control
Protocol, MRCP)是一种通讯协议,用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议,版本2使用SIP作为控制协议,版本1使用RTSP。
实际对接的时候,会遇到不少技术问题,当我们ASR/TTS引擎做私有云部署,为了避免了内外网穿透时防火墙的诸多设置和语音流的时延。这在我们当时对接的时候也花费了好大一番功夫。
前端服务平台:
其中最重要的就是配置呼叫流程这一块儿了,
这一块儿很容易被忽视,但是这反而是可以出成绩的地方。一般来说一套最佳话术模板,可以以一敌万。心理学基础必须要有,一句话怎么说能让接电话的人最大概率的顺着自己的思路走,达成目的,从而形成特定细分领域机器人话术模板,得到最佳的外呼效果(接通率、通话时长、电销意愿、催收意愿)或者是接通效果(满意度)
其余的基本就是web端的东西了,具体功能点呢,即用户登录、配置呼叫流程,建立呼叫任务、统计呼叫数据、导出呼叫报表,这些功能点基本实现就可以,因为站在产品角度,产品最重要的价值就是可以呼通或者接通用户的电话,并且能够准确的识别用户的意图,并且准确的回答用户。这就是智能语音交互系统的最终目标,也一直是我们的最终目标。
外呼线路厂商:
一般如果是购买系统的话,是给提供线路的,只需交一些线路费用。如果是自己做项目的话,网上、淘宝上一大堆,费用可以谈,也给提供线路对接的接口。
结语
虽然现在市场上做智能语音交互系统的比较多,但一般只限于各个行业的电话销售,真正意义上的智能语音交互还是很少的。原因很简单,虽然原理不是很难但是真正落地实施的时候,遇到的困难非常的多,几乎是一步一个坑。好在现在已经真正的落地实施了,方方面面的效果都还是很不错的。一年多的辛苦没有白费。哈哈~
写这篇文章尝试给大家简单介绍一下智能语音交互系统,然才疏学浅,疏漏和不当之处在所难免,权当给大家抛砖引玉。
诸多细节限于主题和篇幅的要求不做详细记述,如有问题,欢迎随时交流。
4. 云南农信语音设备只能绑定一个微信吗
是的。
一般一张农村信用社银行卡只能绑定一个手机微信账号,因为这个都是需要手机号认证才可以绑定的,所以绑定一个也要相对安全一些。
5. 云空间有什么用
云空间就是大容量云空间集合,由多台服务器提供负载均衡,资源网站实际按需要进行动态分配,适合网站比较多或者是网站建设公司,比VPS性能强,价格更便宜。
使用云空间不必劳神担心服务器安全,不必担心配置,使用起来如虚拟主机一般方便,负载可如服务器一般强悍。
(5)云南智能语音服务器云空间扩展阅读
云储存系统主要结构:
1、存储层是云存储最基础的部分。存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。
2、基础管理层是云存储最核心的部分,通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。
3、应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。
4、访问层:任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。
6. 什么是云空间云空间有什么优缺点和服务器,VPS比怎么样
云服务器,或称云主机,是一种类似VPS主机的虚拟化技术, VPS是采用虚拟软件,如 VM在一台主机上虚拟出多个类似独立主机的部分,每个部分都可以做单独的操作系统,管理方法同主机一样。 而云服务器是在一组集群主机上虚拟出多个类似独立服务器的部分,集群中每个服务器上都有云服务器的一个镜像,从而大大提高了云服务器的安全稳定性,除非所有的集群内主机全部出现问题,云服务器才会无法访问。云服务器具有自助管理、数据安全保障、自动故障恢复和防网络攻击等高级功能,能够帮您简化开发部署过程,降低运维成本,构建按需扩展的网站架构,从而更适应互联网应用快速多变的特性。同时云服务具有性价比高,灵活性高,安全性高,可靠性高的特点,现在国内云服务比较知名的有盛大,阿里,云端互通等等,听说云端做的还可以,口碑还行。
7. 云空间有什么用要付费吗
云空间就是在网络服务器上给你开辟一块存储空间,你可以把你日常使用的资料上传到云空间,然后在使用的过程中可以另外从别的终端下载。一般的有免费的云空间也有付费的,看你选择哪一个了。免费的云空间上传和下载的速率是比较慢的。
8. 智能语音质检都有什么功能
智能质检功能通过更加多元化的自定义规则,实现对录音或本文对话内容的智能分析,帮助企业快速全面发现服务中的问题,提升服务质量,优化服务策略。
智能语音质检功能旨在通过质检机器人帮助呼叫中心系统的质检员是自动完成对录音的调听和打分,从以前2%-5%的质检率提升到20%-50%,同时质检系统提供大数据建模,分析功能,可以帮助企业经营者从中发现客户的关注焦点、产品焦点、业务焦点、问题焦点、服务焦点等,从而可以提升企业的经营管理水平以及业务营销水平。
智能质检系统包括语音识别、语音转写文本、质检规则库管理、关键词管理、质检任务管理、告警管理、评分管理、录音筛选管理、统计分析等核心功能模块,AI-QAA支持静音检测、情绪检测、语速检测、通话时长检测、抢话检测等,可以对座席员的声音和情绪进行智能检测。
智能语音机器人融合了云计算、语音处理、商业智能和互联网技术,以实现语音数据高效转写、分析统计和数据挖掘等广发应用为目的,面向语音数据密集型行业和客户,提供数据处理所需资源、能力和应用服务的云平台,能够提升企业的客服质量,助力企业营销。
智能语音质检系统建设主要有三种模式:
1、公有云:企业无需购买机柜、服务器、网络设备、也无需准备机房,智能语音质检系统部署在云服务器上,企业只需具备上网条件,就可以使用专业的智能语音质检系统,还提供7*24小时的运维保障。
2、私有云:企业准备好机房、服务器、网络设备,直接将质检系统安装部署在企业的自有机房里,智能语音质检系统数据都储存在企业内部,由企业自己的运维人员负责维护管理。
3、混合云:企业呼叫中心系统采用云平台,质检系统建立在其云平台上,企业只需准备质监系统所需要的服务器,机柜空间,网络资源即可,质监系统则由企业自行进行维护。
9. 如何在云服务器上搭建云空间
1、用云服务器账号登录后,点击云服务管理。
10. 云空间是什么
云空间是旭日科技首家在全国率先推出的一款高科技精品虚拟主机。云空间是新一代的空间租用服务,它整合了云计算节点部署的高性能服务器与优质网络带宽,有效解决了传统空间租用价格偏高、服务品质参差不齐等缺点,可全面满足中小企业、个人站长用户对空间租用服务低成本,高可靠,易管理的需求。