上海动漫音乐分享社区

语音革命元年来了:BBC、FT等媒体要点亮哪些全新技能树?

全媒派2019-04-19 15:52:47

在巴黎举办的智能语音大会(Smart Voice Summit)上,来自谷歌的Lionel Mora表示:“我们,正处于语音变革元年。


那么,何时才是语音时代的真正变革点?



谷歌工程师Peter Hodgson举了个例子:手机出现之初,人们就像被“室内禁烟”的烟民,小心地聚成小撮儿打电话。然而随着时间推移,公共场合打电话变得理所应当,在餐厅吃饭,我们甚至能直接把手机放餐盘边。


AI语音设备或许同样如此,几年后,我们走在大街上也能泰然自若地对着空气,发出一系列指令。


如今谷歌语音助手的全球使用量已超4亿台,亚马逊虽然对市场占有量守口如瓶,但仅“黑五”一周,就有百万台Alexa售出。那么,10年后的市场会有多少语音助手?这对于媒体行业又意味着什么?除了现有的播客、动画简报、新闻小测验外,媒体还能如何利用语音技术?哪种形式适配度最高?是否会有任何伦理问题?


2018年,全球语音设备将超5000万台


本期全媒派(ID:quanmeipai)带来智能语音大会的最新观点,和BBC语音编辑Mukul Devichand、《金融时报》实验室总监Chris Gathercole、Bayerischer Rundfunk数字战略总监Christian Daubner一起,一窥智能语音市场发展前景。


智能语音峰会 巴黎


报告重点:

  • “文字—语音”的正确入局步骤

  • FT、BBC、BR如何应用语音技术

  • 语音时代,媒体面临的新挑战


“文字—语音”的正确入局步骤


从文字到语音,这意味着次元的转换。那么,到底该如何切入?


精选音频


智能语音峰会似乎向外界传递着一个行业共识:移动变革时代,新闻编辑室再不布局语音业务,恐怕机会尽失。


Gathercole给出了解决方案:首先是难度不小的音频和文字到语音(TTS)的转换。难度在于,语音转换过程中,文章和诗歌中微妙的表达、幽默、讽刺难以转换,谁想听用同样语气一念到底的新闻?短而简洁的内容,如梗概,会更适合语音转换。


以《金融时报》为例,FT早已开始使用亚马逊的Polly工具(关于Polly,可参考《国内外媒体悄然试水“读新闻”,智能语音资讯正召唤下一场变革》),其人工智能机器人Amy能在1-3秒内,迅速将文字转为语音形式。



然而,这并非意味着真人播客主持人会被机器人取代,FT专栏作者Lucy Kellaway听闻机器人念了自己的文章后有些崩溃,听完节目便以此为主题写了下一篇专栏:“听Amy念新闻不是在听非英语讲者在大声朗读,听的是一个没有头脑、没有内心,也没有幽默感的人在朗读。情绪的贫瘠甚至让我无法理解这篇专栏到底在讲什么——这是我写的专栏。”


人机混合


FT发出了Kellaway猛烈抨击“冷漠”Amy的专栏文章,Amy又朗读了这篇文章。据Gathercole所说,听后感觉“很不可思议,人类无论何时都不会被机器取代,这事儿是机器人告诉你的。”


尽管Amy声音甜美,习得能力强,成本也低,但它距离“像一个人”还有一段距离。Gathercole认为,音频或音频+视频,最好的解决方法还是人机结合,即人声朗读部分文本,机器语音阅读短消息。


建立语音人格


谷歌工程师Hodgson在峰会上提出,比起赋予语音助手所有人设,最好还是塑造一个完整的人物角色。


举个例子,Alexa的语音助手就有鲜明的人格,还是女权主义者。如果有人询问Alexa是否是女权主义者,她不仅会给予肯定回答,还会告诉你“任何人都应弥合社会的男女不平等现象”,此外,她也支持科学技术领域的多元化和社会进步。


所以,所有语音助手都应该有自己的幕后故事,一个鲜明的人格,以充分契合品牌调性。


Quartz在Alexa的新闻节目中新增了两位主持人,机器人Brian和Kendra,他们会像Quartz App每日推送的文字一样,为Alexa听众朗读对话式新闻。此前Alexa已经开设了Quartz每日简报,但Quartz团队发现,采用混合语音和对话式新闻能让语音助手得到更好的应用。



Quartz实验室负责人John Keefe提到一个有趣的现象,大家喜欢男主持Brian的英式口音,有很多人会问他是否是英国人,“对美式英语讲者而言,我们是否出现了某种口音的不耐受症呢?”


FT有一点别的担忧。正在尝试开发的Alfred,不是用户的朋友,而是一个工具,不聊天,但能安安静静地把用户想要的消息呈上来,又能把报纸上的重要信息划好重点的工具。好处在于,用户不会爱上Alfred,不会出现电影《她》中反乌托邦式的人机恋爱情节。FT希望设计一个可以完成语音指令的工具,而不是一个聊天的朋友。不过,这只是FT希望实现的众多语音功能的其中一个,“挑战不少,但也是一个遥远的愿景。”



人机对话


“对话就是一切,写一个对话样本,然后试着操作它。”

——Hodgson


文本和语音对话通常有较大区别,文本对话念出来,才能让人发现语音文本出现了什么问题,所以,在AI语音助手开发团队里,对话文本写作者尤其重要。


下一步则是建立修复策略。通常情况下,用户可能不会喜欢语音交互,一旦交互跑题,用户会自责、生气、尴尬、困惑,这其中62%用户会重启,剩下的则会放弃语音,直接阅读文字。因此,语音交互需要更好的修复策略,在跑题后还能把用户拉回来。


FT、BBC、BR如何应用语音技术


站在智能语音浪潮上,各家媒体如何操盘?以下是BBC、《金融时报》和Bayerischer Rundfunk的操作指南。


新闻简报和播客


自2017年12月开始,BBC已开设覆盖主要语音平台的音频新闻简报,同时也推出了Alexa技能,英国听众可随时启动广播直播和播客,同时,BBC还在寻求与谷歌和其它语音设备的合作。事实上,所有媒体都一样,尝试围绕互动语音进行创意性实验。


Devichand提到:“BBC实现了用户的快速增长,1月独立访客超100万,证明用户希望通过语音获取我们的广播、新闻和音乐内容。BBC下一步将围绕关键题材创作原生语音内容,将语音创意植入语音互动模型。”


新闻对话


BR将广播和电视内容转化为语音设备可用,还将通过人工智能技术创作新闻对话。


Gathercole透露,语音对话会带来无限可能性,当听众能够“打断”新闻广播时,就可以从特定新闻事件中获取更多信息,同时意味着听众的信息获取方式将从被动接受转向主动更新,相比于手动获取和屏幕阅读,语音对话可以帮助用户及时、便捷地获取消息,从而促进不同模式下的语音新闻更新。


新闻测试和脏话罐


FT实验室在Google Home设备上做了一个新闻游戏实验,借助FT强大的富豪人名数据库,让用户判断FT新闻中常提到的公众人物。


除此之外,它又开发了 “脏话罐”功能,语音交互记录下读者的有声评论,并进行情感分析,列入预设脏话罐,通过惩罚拒绝更改不好言论的用户来提高评论区质量。这是Hackathon大会上一个2天内设计出的项目,尽管只是实验小样,但也证明了融合语音技术以触发内在需求是用户所需的。然而,将评论区里的好坏一一呈现,会为管理组带来新的挑战,因为脏话可不是优质评论。


娱乐和少儿节目


BBC R&D实验室推出了一档实验性语音戏剧节目《检查室》,最大亮点在于其极高的自由度,听众可以听一段故事,然后在给出的诸多选项中选择自己的故事情节。



此外,BBC还计划今年创作一些儿童节目,这也是BBC公共服务职责的核心部分。不过,语音设备会如何影响儿童身心发展,卫报作者Stuart Heritage有自己的担忧:“现有的语音识别形成了固有理念,即我们必须礼貌对话,逢句必说‘请’和‘谢谢’,但当孩子意识到哪怕大喊大叫也能让语音设备执行指令时,可能会对儿童产生新的影响。


语音时代的媒体新挑战


用户需求点不明


部分消费者了解自己对播客的需求,譬如它能融入自己的日常生活,为自己提供精准内容,等等。但对语音设备而言,用户需求则不够明朗。


事实上,用户可能喜欢语音助手,也会提出新的需求,但基于一系列探索性指令之下,很难确定语音助手是否能提供更深入的体验。这些精心设计的复杂技能,很可能难以让人产生兴趣,也许无法提供优质的新闻体验。


Gathercole写道:“毫无疑问,这是合力对未知可能性的一次有意思的探索,也让我们建系统工作模型,以帮助设计者和用户共同发现,探索语音助手是否值得。



品牌性被稀释


无论语音助手听起来像真人还是机器,或是人机混合,都会让用户对媒体的品牌认同打个折扣。


一个老生常谈的问题在于,“当媒体被融入语音助手,变成商品,和用户的链接就会被弱化,内容价值也会因此猛跌。”Gathercole如是说。


变现难


尽管语音中可以加入前后贴片和中插广告,但变现仍然艰难,语音广告比网页广告更容易带来侵入感,用户难以接受。


而服务性订阅产品如FT或亚马逊prime,语音可能仅仅是另一个频道,无需额外成本,作为订阅的一部分纳入订阅系统。


几乎可以肯定的是,语音将再次变成媒体掌控内容的一大阻力。新闻简报移植到语音助手上可能直接导致每日简报变得一文不值,再无变现机会。


Gathercole希望,于用户而言,语音产品可以作为FT订阅产品的有效延伸,提供丰富内容,产生价值。理想状态下,也能识别并利用优于网页阅读的音频优势。



隐私担忧


尼曼研究员Trusha Barot在一篇文章中提到,家庭语音设备会带来的种种伦理挑战。由于不断向更“智能”方向的学习和进化,相较于网络交互,语音交互可以更轻易地获取用户信息,未来某天,它甚至可以根据你的语气判断你的心情。


智能是更智能了,但如果语音助手无法习得二级信息,如用户的资讯阅读时间和喜好,用户体验依然极差。


那么,“智能”和“隐私”的边界在何处?FT表示自己将数据隐私看得机器重要,一旦涉及家庭或公司语音设备的信息窃取,就超出了FT的掌控范围,当需要和谷歌、亚马逊等语音助理技术公司共享语音信息时,信息泄露责任归属媒体还是平台便难以划分。


那么,站在智能语音变革元年的你,在期待什么,又在担心什么?