当前位置:首页>>百科达人>>正文

AI超拟真有声书还原度有多高 背后真相实在让人惊愕

在不到六个月的时间里,成立两年的TTS(语音合成)技术初创公司reflect Sound开启了新一轮融资。

数字图书和广播剧的“耳朵经济”正在蓬勃发展,人工智能(AI)合成了专业播音员的声音。


(资料图片)

与人工播音员相比,人工智能语音合成技术不仅大大缩短了配音时间,还节省了制作成本和人工成本。反射音频,开始提供语音合成系统和解决方案,就是这样做的。

过去一年,在reflect Audio推出的有声读物制作平台上,AI主播的制作速度超过500万字/天,录制成本可节省90%以上。今年3月,它与中央广播电视总台的音频APP云天合作,开发基于集团IP和金融媒体的人工智能产品,这意味着它的业务已经成功进入“国家队”。

音频反射的核心团队大多来自百度、Microsoft、Ali等公司。这群技术专家在小爱同学、小都智能音箱、百度语音导航、百度呼叫中心等语音产品的前期基础技术建设中不可或缺。

reflection Sound基于端到端神经网络和深度学习合成器开发了自己的情感和情感控制模块,在音色仿真、情感显示、定制服务、多语言等方面达到了行业领先水平。

它的融资也在快速进行。此前,该创业公司已于2019年5月完成300万元的天使轮融资,今年5月完成1000万元的pre-A轮融资,正在启动目标规模2000 - 3000万元的A轮融资,以加速技术研发,加速产品在垂直场景下落地。

在北京建外SOHO的一间办公室里,一场新的语音合成职位争夺战正在酝酿。建外SOHO是一家初创企业,团队不到20人。

最近,志东去了他们在北京的总部。通过与创始团队的深入沟通,我们了解了公司的诞生和成长故事,也看到了他们对AI语音技术创新的很多探索和坚持。

1. 促进百度小米智能音箱的诞生,反映声音的开始

2013年左右,毕业于北京航空航天大学云计算专业硕士学位的肖硕加入百度语音技术部门。刚从伦敦帝国理工学院(Imperial College London)获得人工智能硕士学位的李晓(音译)也同时加入了该团队。此时,百度的人工智能(AI)业务才刚刚起步。

在百度工作期间,肖硕和李晓团队开发了国内首个情感语言合成系统,先后开发了小都智能音箱、百度呼叫中心等产品,为未来百度智能语音生态系统的建设和丰富奠定了重要基础。

此外,他们还在猎豹移动投资的AI创业公司Orion Sky工作,在一年的时间里与创业团队一起参与了小米首款夏爱智能音箱的开发项目。

这些年来,小硕和李晓因为两次从零开始搭建技术解决方案的经历,逐渐产生了创业的想法。在Orion奋斗的经历也让他们接触到了很多创造性的知识和经验,“消除了对创业的恐惧。”

2019年,随着百度语音技术步入成熟发展轨道,其语音技术战略已不再专注于语音合成,而是更多地关注语音交互。与此同时,硬件的改进、计算能力的提高和深度学习场景的扩展正在使处于早期发展阶段的语音合成技术取得革命性的突破。

因此,肖和李决定离开百度,开始自己的创业生涯。2019年3月,映声在杭州正式注册成立。由于很多百度团队的前合伙人跟随他们创业,他们也选择将公司总部“落户”在北京,成立两个月后就获得了300万元的天使轮融资。

萧硕和李晓的征途正式起航,映音的挑战也才刚刚开始。

其次,押注于有声书和人工智能新闻报道,语音合成的想象力是巨大的

然而,AI voice出现在如此广泛的音轨上,为什么reflect audio坚决选择voice synthesis track?

在肖朔看来,语音识别是语音技术最早爆发的领域,科大讯飞、云音等公司已经深入工作多年,推出了智能医疗、智能翻译笔、智能会议录入系统等成熟产品,留给新选手的市场机会很少。

在技术方面,李晓认为目前的语音识别技术已经进入了识别精度简单的成熟阶段。相比之下,还有很多语音合成的分割场景有待探索,包括广播剧、有声书、游戏配音,甚至亚文化中的虚拟偶像。这些都是未来落地的方向,有着巨大的想象空间。

例如,在有声书、广播剧等长音频作品的制作过程中,前期需要手工绘制大量的文本脚本,中期需要进行配音,后期需要进行编辑。整个过程需要几个月的时间,涉及大量的劳动力成本。但是,如果采用语音合成技术,可以大大降低每个环节的时间和财务成本,只需几天甚至几个小时,就可以完成一个很长的音频制作。

对于电影和游戏配音来说,为了保证用户的观看和游戏体验,制作团队需要花费大量的时间为角色选择合适的配音演员。同时,他们还需要考虑配音演员的休息时间和续集声音的连续性,这也给制作周期带来了很多不确定性。利用语音合成技术,只需输入脚本,就可以快速生成适合文字形象和工作需要的声音。

然而,因为用户有很高的要求,语音合成技术的运动感觉,如果这项技术不能实现效应水平与真实的人,很难让用户支付,用户购买意愿成正比技术的改进效果。

“因此,语音合成是语音交互链上的最后一击,一旦它实现了,市场将会更大。”肖硕评价。

目前,映音主要专注于有声图书和人工智能新闻播报,为创作者、版权所有人和融媒体平台提供高性能、低成本的音频制作服务。

在有声读物方面,reflect Audio主要提供了一个有声读物交易和制作的平台,用户可以通过这个平台实现从稿件覆盖、配音录制到音频编辑的整个云制作过程。用户还可以选择自动/半自动制作、纯AI主播、AI语音+人工主播录音等。

例如,在处理的早期阶段,该平台可以实现手稿的筛选和清洗。如果内容是广播剧级别的,还可以对内容进行深度改造,包括配音的角色划分、人物描述、情感风格等元素,从而改编出适合收听的文本。

在人工智能新闻播报方面,映音与中央广播电视总台音频客户端云天APP合作,打造人工智能新闻主播,为音频内容服务提供一站式解决方案。与国内其他人工智能新闻主播相比,反声播报效果更加饱满自然,音色模拟、情感展示、多语言表达达到行业领先水平。

三、科技城建设背后,语音合成三大优势

无论是有声读物还是人工智能新闻广播,都离不开反射音频在语音合成领域的技术积累与创新。

李晓说,过去,传统的语音合成技术主要有两种方式,分别为拼接法和参数法。例如原来的小米Ai采用的是拼接方法,几乎是用真人的语音片段进行算法拼接和组合。优点是音色和自然性都很好,缺点是操作复杂度很高,数据量也很大。

“那时候,我们让配音人员录制了将近半年的时间,总计数百个小时,才把小爱打磨得非常好。”李萧说。

随着端到端深度学习延伸到语音合成领域,语音合成技术实现了质的飞跃。

一方面,基于深度学习的语音合成技术内部计算模块和网络结构更加复杂,无论是参数数量还是技术复杂度都远高于以往。另一方面,内部结构的复杂性使得模型构建后的后续使用非常简单,不需要使用大量数据来进行底层支持。

总体而言,反射声音的语音合成技术主要有三个核心优势。

一是拟像度,这是语音合成技术的核心。语音合成通常包括有声绘本、有声读物、新闻广播、呼叫中心等许多场景,不同场景的技术表达和动作逻辑有较大的差异,比如语调不同,比如儿童、成人、老人或模拟不同动物、怪物的声音,是一个较大的问题。

反射声音可以大大减少语音合成与人的表达之间的差异,缩短合成声音与人的表达之间的距离。合成声音的采样率可以达到48kHz,更接近录音室真人录制的声音,而市场上主流的合成采样率是16kHz。

在多情感方面,反映声音的语音合成技术可以更准确、细腻、丰富地表达情感。同时还支持英文、中文和英文的混合合成,跨语言定制成本低。

二是定制能力。基于数据积累在过去的两年里,反映出音频积累了成千上万的真正的主持人在自己的平台上,和它的语音合成和定制能力已达到近100%的恢复一个人的声音只有200字(约30分钟),并且可以达到商业化水平。

即使用户只需要录制10-15句话并反映声音就可以“克隆”出相似度达90%的声音,但“克隆”的主要是声音线,句子数量非常少,所以需要其他算法技术来弥补情感恢复。

三是结合语音合成技术。反射音频除了语音合成的单点技术外,还关注与之密切相关的上下游技术点。例如,在有声读物场景中,实现了反射音频的自动绘制能力。每个句子的音库和情感风格与语音合成技术密切相关。

有声书产业快速发展的背后,反映了有声书的下一步

自2019年3月成立以来,reflect Sound花了一年多的时间打磨和积累基础技术,直到2020年5月正式商业化。在2020年,他们将在9月运行有声图书轨道,在12月运行广播、电影和媒体轨道……最大的变化是联合创始人兼首席营销官何培成的加入。

“何总裁补充了我们的营销和商业团队,并将reflection Audio从一家纯粹的技术出口公司转变为一家产品服务公司。”肖说,在这次转型中,该公司在几个垂直场景下形成了一整套产品和服务,在打开市场的同时进一步扩大了公司的收入。

“去年的重点是技术和产品阶段,营收基数较低。”贺培成表示,今年,该公司的收入出现了显著的爆炸式增长,预计收入将达到数百万美元,同比增长700%。

今年,反映Audio的主要目标仍然集中在技术和市场两个方面。一是巩固他们已经进入的有声读物和人工智能新闻报道市场,成为模范客户,实现更大的收入和市场份额,这是他们今年的核心目标。其次,它希望基于自己的语音合成技术扩展到更多的商业场景。

在技术方面,李晓认为语音合成的关键挑战在于如何使情感表达更加细腻。“这将是我们继续深入挖掘的重点。只有攻克了语音合成技术,才能将语音合成技术应用到更多的场景中。”他说,如何在长音频中使语音合成感觉自然流畅也是一个挑战,因为语音合成仍然专注于单个句子。

简单地说,目前语音合成技术最大的瓶颈不再是计算能力,而是语音合成技术本身。如何用一个更好的数学模型来解释人的发音的生理结构和原理,可能是语音合成技术下一个最重要的突破。

因此,下一步的反声技术研究和发展方向,一方面要从纵深入手,不断探索细腻的情感表达,更好地控制在长文本连贯逐渐强,逐渐弱自然的表达。与此同时,低成本定制也是关键之一。

另一方面,从广度上看,应加强与语音合成密切相关的上下游技术环节,包括自然语言处理(NLP)中的自动角色划分和文本级情感预测。李认为,在更远的地方,还有许多由声音驱动的场景,比如由声音驱动的虚拟角色的面部或身体表情。

“总的来说,语音合成在有声读物和媒体中都有明显的地位。真正的挑战是探索增量情景。”肖硕表示,未来还将服务东南亚,以及俄罗斯、日本、韩国等非英语国家,进一步扩大海外业务范围。

结论:语音合成技术具有很大的潜力

智能语音作为一项如日中天的技术,已经成为各行各业智能化进程中不可或缺的工具,尤其是语音交互和语音识别技术,已经渗透到人们生活和工作的各个方面。相比之下,语音合成技术确实正处于全面发展的阶段。

但有声读物在语音合成电路上增长迅速。据市场研究公司艾媒咨询(IMedia Consulting)称,中国有声读物行业已从2016年的23.7亿元增长到2019年的63.6亿元,连续三年增长率超过30%,预计到2020年将达到约95亿元。

反射声的建立无疑为语音合成技术在更多领域的融合创新提供了一个值得借鉴的商业范例。这个创业团队让我们看到了语音合成技术更广阔的想象力,从有声读物到人工智能新闻播报,从游戏到电影电视剧,从机器人到虚拟主播……似乎所有有视听内容输出的场景都有许多潜在的机会。

未来,随着语音合成技术逐渐进入爆发式发展阶段,我们期待它能为各行业带来更多的创新突破和转型。

标签: 语音合成 人工智能

下一条:AI超拟真有声书还原度有多高 究竟是怎么回事?

最新推荐

教育部:2022年九年义务教育巩固率为95.5%

数据显示,2022年,九年义务教育巩固率95 5%,比上年提高0 1个百分点。

2023-03-24

加快县域优质医疗卫生资源扩容(民生观)

持续提升县域医疗卫生服务能力,让医疗资源沉得下去、医疗人才留得下来,群众能就近获得更加公平可及、系统连续的医疗卫生服务,

2023-03-24

威海文旅消费券怎么领 济南文旅优惠券怎么领

第六届威海市文化和旅游惠民消费季每个人都可以领的微信文旅惠民消费券来了!全市百家景区景点、影院、书店等文旅商家门店,使用微信支付购买

2023-03-24

威海市文化和旅游惠民消费券发放安排

第六届威海市文化和旅游惠民消费季每个人都可以领的微信文旅惠民消费券来了!全市百家景区景点、影院、书店等文旅商家门店,使用微信支付购买

2023-03-24

威海家电消费券什么时候能领 威海家电消费券什么时候能领到

2022年9月15日上午10:00,300万元家电消费券准时开抢!活动时间2022年9月15日-2022年10月7日,每日上午10:00开始抢券,资金核销完,活

2023-03-24

威海家电消费券使用后需要进行资料备案吗

威海家电消费券资料备案消费者使用消费券购买家电后,务必于两日内在云闪付APP家电消费券“资料备案”端口上传与云闪付注册名一致的实名制发票

2023-03-24

威海家电消费券领取规则 家电消费券怎么领

威海家电消费券领取规则为保证消费券政策普惠性,消费者每人每日仅限领取一张(即10种组合消费券中一种),先到先得,领完为止。消费券当日有

2023-03-24

威海哪些商家参与了家电消费券活动 威海惠民消费券

威海家电消费券参与商家名单参与活动商家名单(扫码查看)用券标准1 个人消费者在威海市报名的家电销售企业(名单见后)实名制购买电视、冰箱

2023-03-24

威海家电消费券使用标准(威海家家悦电子券怎么用)

威海家电消费券用券标准1 个人消费者在威海市报名的家电销售企业(名单见后)实名制购买电视、冰箱、洗衣机、空调、燃气灶、抽油烟机、手机、

2023-03-24

威海家电消费券使用时有什么要求

威海家电消费券使用规则1 消费者在参与活动商家消费时,若满足使用标准,可使用消费券抵扣相应金额,单个订单限使用1张家电消费券,对应开具1

2023-03-24

威海家电消费券每天只能领取一张吗 威海家电消费券每天只能领取一张吗是真的吗

威海家电消费券领取方式1 个人消费者在参与活动商家,使用云闪付APP扫描对应面值消费券二维码进行领取。2 消费者在云闪付APP页面领券端口领取

2023-03-24

常态化防控区域是什么风险等级 防控地区风险等级动态管理

根据国家卫健委官网最新发布《新型冠状病毒肺炎防控方案(第九版)》:☞常态化防控区域:没有疫情发生的县(市、区、旗)全域实行常态化防控措施;

2023-03-24

9月威海家电消费券发放安排

2022年9月15日上午10:00,300万元家电消费券准时开抢!活动时间2022年9月15日-2022年10月7日,每日上午10:00开始抢券,资金核销完,活

2023-03-24

常态化防控区域可以自由出入吗(常态化防控区域可以去外地吗)

常态化防控区域可以自由出入吗?答:可以,常态化防控地区为所有中高风险区解除后,没有疫情发生的县(市、区、旗)全域实行常态化防控措施区

2023-03-24

台风梅花对威海有什么影响(台风梅花对威海有什么影响没)

台风蓝色预警今年第12号台风“梅花”(强台风级)14日06时中心距离浙江省象山县东南方向约260公里,中心附近最大风力14级,中心气压955百帕。预

2023-03-24

2022常态化​防控区域是低风​险区吗?

2022常态化防控区域是低风险区吗?答:不是。二者是不同的概念。根据国家卫健委官网最新发布《新型冠状病毒肺炎防控方案(第九版)》:☞常态化

2023-03-24

山东威海退役军人成人高考怎么报名(威海成人高考去哪里报名)

山东威海退役军人成人高考如何报名?山东省教育招生考试院官网(www sdzk cn)是山东省唯一报名网站。考生必须本人登录网上报名系统完成报名,

2023-03-24

威海市气象台9月15日14时00分发布暴雨黄色预警信号

市气象台9月15日14时00分将暴雨蓝色预警信号升级为暴雨黄色预警信号!天气预报威海市气象台2022年9月15日14时00分将暴雨蓝色预警信号升级为暴

2023-03-24

威海什么企业可以参与消费季活动

什么样的企业可以参与消费季活动?一、行业界定(1)A级旅游景区,以及其他景点、采摘园、游乐园、海洋馆等各种观光游乐类;(2)锡镶、剪纸等

2023-03-24

台风梅花最新消息 台风梅花最新消息2022

台风“梅花”最新消息据气象部门预报,今年第12号台风“梅花”已于9月13日凌晨移入东海南部海面,将以每小时10-15里的速度向偏北转西北方向移

2023-03-24

2022年9月15日20时聊城东昌府区新增2例无症状感染者

聊城疫情情况:以下内容来源于2022年9月15日聊城疾控账号2022年9月15日20时,聊城市新增2例新冠肺炎本土无症状感染者,均在东昌府区,均系集中

2023-03-24

山东省气象台于9月14日06时继续发布海上大风黄色预警

山东省气象台于9月14日06时继续发布海上大风黄色预警:受“梅花”外围及本体影响,14日白天到夜间,黄海中部东北风转偏东风7~8级阵风9~10级

2023-03-24

立春也称作什么 立春也叫做什么

1、立春又叫“打春”,是表示一年的春天开始的意思,也表示一年开始的意思。立春,意味着新的一个轮回已开启,乃万物起始、一切更生之义也。立

2023-03-24

台球厅转让合同

台球厅转让合同(汇编9篇)在人们愈发重视契约的社会中,随时随地,各种场景都有可能使用到合同,签订合同能促使双方规范地承诺和履行合作。那么

2023-03-24

描写雨水节气的唯美句子(描写雨水节气的唯美句子有哪些)

1、细雨飘飞精神爽,小雨滴答喜气添,大雨倾盆福满聚,暴雨袭来,嘿嘿,赶紧躲!2、雨水到来天地欢,万物焕发新容颜。甘霖普降润无声,田野蓬

2023-03-24

学校招生代理合同

学校招生代理合同(3篇)随着人们对法律的了解日益加深,合同的地位越来越不容忽视,在达成意见一致时,制定合同可以享有一定的自由。合同有不同

2023-03-24

立春什么日子(立春什么日子结束)

1、立春,为二十四节气之首,又名正月节、岁节、改岁、岁旦等。立,是“开始”之意;春,代表着温暖、生长。二十四节气最初是依据“斗转星移”

2023-03-24

大学学期学习计划

大学学期学习计划精选15篇时间就如同白驹过隙般的流逝,迎接我们的将是新的生活,新的挑战,做好计划,让自己成为更有竞争力的人吧。那么你真

2023-03-24

立春暖心祝福语 立春温馨祝福

1、春雨浸润了大地生命,百花争艳。2、游玩踏青,春季旅行,心平处处风景。立春旅行,一路顺风!3、保持青春添活力,功成名就,必定春风得意。4

2023-03-24

幼儿园中班下学期班级计划

幼儿园中班下学期班级计划(通用14篇)时间过得太快,让人猝不及防,前方等待着我们的是新的机遇和挑战,不妨坐下来好好写写计划吧。我们该怎么

2023-03-24

词条信息

柚子 99
词条创建者
  • 浏览次数:824

Copyright@  2015-2022 百科大全版权所有  备案号:豫ICP备2021032478号-16   联系邮箱:89 71 80 9@qq.com