百度智能云发布AI手语平台和一体机,听障人士的福音?IT科技

官方发布
出品 | 搜狐科技 编辑 | 梁昌均 在不久前结束的冬奥会各类赛事直播中,有不少虚拟人前来助阵,其中就有AI手语主播,为听障人士提供了共享奥运精彩的可能。但在日常生活中...

出品 | 搜狐科技

编辑 | 梁昌均

在不久前结束的冬奥会各类赛事直播中,有不少虚拟人前来助阵,其中就有AI手语主播,为听障人士提供了共享奥运精彩的可能。但在日常生活中,听障人士想要方便地获取信息仍面临着众多困难,国内不少科技公司都意图通过技术的力量解决这些问题。

3月3日下午,百度智能云曦灵的发布AI手语平台和AI手语平台一体机,则为手语服务普及、缓解无障碍窗口短缺困境提供了新解法。

百度智能云曦灵是百度在去年底的Create 2021上推出,是数字人生产、内容创作、业务配置服务为一体的平台级产品。目前已服务数十个用户和多个场景,包含数字员工、虚拟偶像等,AI手语数字人也是其中一个重要方向。在此次冬奥会央视新闻客户端上,百度智能云曦灵打造的AI手语主播就已上岗,目前已经生产了超过200条视频和进行数场直播,总观看次数已超过1亿次。

百度集团副总裁吴甜在发布会上表示,新代际用户越来越多的在接受和喜爱数字内容的消费,以及虚拟世界带来的新鲜感,数字人的需求正在不断提升。同时,人工智能呈现融合创新和降低门槛的新特点,综合运用多技术的数字人带来新体验,AI加持使数字人制作和运营成本与门槛降低,AI手语平台将让更多听障人士享受科技带来的便利。

搜狐科技在发布会上了解到,中国有超过2000万的听障用户,它占到全球总听障用户的39%,但专业的手语翻译不足1万人,相较于日美等国家,手语翻译人员与听障用户的比例是1比100,而我国的比例是1比2780,巨大的需求缺口亟待补足。

这些反映到具体生活中,就会对听障人士的生活造成诸多不便。百度AI人机交互负责人李士岩就介绍到,绝大多数的线上场景,无论是APP电视还是智能硬件,都没有提供手语服务。线下的场景则更为复杂,医院有超过97%的听障用户因为没有手语翻译而在就诊遇到困难;在火车站有超过75.73%的用户没有使用过火车站的无障碍手语设施。

此次百度智能云发布的AI手语平台及AI手语平台一体机有望改变这一现状。据介绍,AI手语平台具备视频手语合成、直播手语合成、文本转手语、语音转手语四大功能,只需几小时的部署,即可实现普通视频合成为手语视频、实时直播中增加手语画面、文字翻译为手语、语音实时翻译为手语等多种效果。AI手语平台可搭载在各类APP、网站、小程序中,让听障人士也能轻松实现线上社交、娱乐休闲、课程学习等各类需求。

对于医院、银行、机场等线下场景,此次发布的全离线一体机V3以及端云结合一体机P3,搭载了AI手语平台的核心功能,可实现ASR语音识别、语音翻译、人像渲染等多功能。通过将普通服务窗口转换为“无障碍窗口”,听障人士在医院可轻松实现挂号、看诊、缴费、取药等全系列流程,在车站、机场可独立完成值机、托运、改签、中转,在法院、警局等特殊场景中也可对各类紧急情况进行实时平等的沟通。

但AI手语的实现也需要克服诸多技术挑战。和传统翻译相比,手语翻译并非按照日常说话的顺序,而要根据语句意思进行语言精炼和语序调整。同时,手语是真正的小语种,数据量难以支撑训练,各类场景声学环境复杂难部署,还需要唇语及表情的配合辅助理解。

因此想实现高可懂度的AI手语能力,就需要解决三个技术难点:语音识别的清晰度、手语翻译的准确度和手语动作的流畅度。那么,百度智能云曦灵-AI手语平台在提供听得清、翻得准、打得好的手语服务上做得怎么样?

据了解,在语音识别清晰度上,百度智能云曦灵的AI手语平台通过SMLTA语音识别算法模型,实现声学、语言一体化端到端建模语音识别,在手机端近场语音识别率可达98%以上。

百度语音技术部总监高亮表示,百度语音在手语平台里主要需要解决实时的问题,要把它做的又快又要准,对模型的要求就特别高。“语音大模型SMLTA能够做到实时识别和非常高的准确度,还可针对诸如旅游、医院、司法等不同领域的词准率进行针对性训练,词准率可达96%。”

解决了语音的问题,如何准确翻译成手语也是一大挑战。百度人工智能技术委员会主席何中军在交流会上表示,手语翻译面临语序顺序不同、词汇语义差异、效率和实时性等挑战,为此百度研发了首个基于神经网络的精炼度可控手语翻译模型,并联合手语语言学专家、特殊教育专家等制定了自然手语标注规范,建设了大规模自然手语翻译语料库,使得模型可以从真实数据中学习手语翻译知识,比如语序的调整、词语的映射以及长度控制等,从而生成符合听障人群习惯的自然手语。

“手语翻译有点像同声传译,对表达的准确性和时间延时低,但打手势速度比说话要慢,所以更加需要对语言的提炼。”何中军表示,这就需要在模型里面去学精炼度,同时引入长度的控制模型,可以动态调整语句的长短,做到既能够把主要意思传递出来,又能够把一些不太重要的内容忽略掉,从而达到准确度和凝练度都能兼得的效果。

值得注意的是,在自然手语翻译语料库的建立也离不开诸多听障人士的助力,天津理工大学聋人工学院的500多名学生就参与了百度手语数字人的语料库标注工作。 “去年11月份在接到这个任务的时候,真的是时间紧任务急,学生听说要为冬奥会服务,所以也是特别高兴,其实也是为了服务聋人朋友自己。”天津理工大学聋人工学院副院长袁甜甜分享到。

在手语动作的流畅度上, AI手语平台通过动作融合算法, 基于《国家通用手语词典》规范精修近11000多个手语动作,让每一个动作的起落之间自然衔接,实现连贯性表达。再配合4D扫描技术训练,使得AI手语数字人表情自然生动,口型生成准确度高达98.5%。百度表示,未来将在不断完善产品的基础上,加快覆盖和落地,解决各类场景中无障碍窗口稀缺的问题。

1
联系我们