首页 > 院士专家科普 > 正文

第十讲 人工智能在南亚东南亚语言翻译领域的应用(上)

2024-06-18 17:44:14  来源:2024年第6期《致富天地》

编者的话:

由余正涛教授领衔的云南省人工智能重点实验室,为南亚东南亚语言语音信息处理教育部工程研究中心。实验室面向越南语、老挝语、缅甸语、柬埔寨语、泰语等南亚东南亚语言,长期开展自然语言处理与机器翻译、信息检索和社会计算、语音识别及合成、图像识别与检索等领域的研究,取得了一系列成果,部分成果填补了该领域空白,达到国际领先水平。实验室研发的产品,在旅游、贸易、教育、国际传播等领域得到很好的应用,对推进我国与南亚东南亚国家交流与合作起到重要作用。本刊特邀该实验室团队成员,科普人工智能在语言翻译领域应用方面的相关知识。

云南省人工智能重点实验室团队介绍:

实验室成立于2005年10月,依托于昆明理工大学信息工程与自动化学院人才优势,2019年遴选为云南省人工智能重点实验室,2023年遴选为南亚东南亚语言语音信息处理教育部工程研究中心。实验室承担国家重点研发计划项目、课题,国家自然科学基金重点、面上、地区项目,云南省科技重大专项,云南省重点研发计划及企事业合作项目等100余项。在国内外重要期刊及会议发表论文500余篇,SCI/EI检索400余篇,授权国家发明专利100余件,登记软件著作权200余项。获得云南省科技进步特等奖、云南省自然科学一等奖、云南省科技进步一等奖、云南省教学成果一等奖、云南省自然科学二等奖等省部级奖励10 余项。

近年来,实验室研发了面向南亚东南亚语言的神经机器翻译引擎——云岭翻译,支持中文到越南语、老挝语、缅甸语等108个语种的双向翻译,翻译效果达到业内领先水平,日均服务用户上百万次,有效支撑了面向南亚东南亚语言的翻译需求。此外,实验室还研发了南亚东南亚语言语音识别软件“小语洞听”、南亚东南亚语言语音合成软件“小语悦读”、南亚东南亚语言图像文字识别软件“小语洞见”、南亚东南亚多语言大模型“小语问答”等产品,这些产品在旅游、贸易、教育、国际传播等领域得到很好的应用,对推进我国与南亚东南亚国家交流与合作起到重要作用。

1.机器翻译技术及应用

机器翻译是一种利用计算机程序将一种语言自动翻译为另一种语言的技术,具有高效、便捷、可扩展和低成本等优势。机器翻译在日常工作生活中应用广泛,比如国际会议的同声传译、国际教育的多语言教学、跨境旅游的日常交流等,已成为现代翻译领域的重要工具,助力全球化的交流与发展。

目前,机器翻译主要采用的是大规模双语数据驱动的深度神经网络模型,在英语、德语等使用人口较多的通用语言上,效果已接近专业水平。然而,对于南亚东南亚地区使用的越南语、老挝语、缅甸语、泰语等非通用语言,由于学习和使用的人口相对较少,双语数据稀缺,导致面向南亚东南亚语言的机器翻译技术不成熟,尚无法满足实用化需求,缺乏成熟可用的翻译产品。

云岭翻译App、云岭智能翻译机、多语言讲解器、翻译耳机

云南省人工智能重点实验室结合南亚东南亚语言的特点,经过近20年的持续研究和积累,研发了面向南亚东南亚语言的机器翻译——云岭翻译。云岭翻译采用深度Transformer架构,实现了中文到老挝语、缅甸语、柬埔寨语、泰语、越南语等108个语种的双向翻译,翻译效果达到业内领先水平。针对不同应用场景需求,搭建了云岭翻译WEB在线翻译平台,面向公众免费提供文本翻译、文档翻译、图片翻译等多种形式的翻译服务;研发了云岭翻译App、云岭智能翻译机、多语言会议系统、多语言讲解器以及翻译耳机等灵活便捷的软硬件设备,实现了面向南亚东南亚的全场景翻译服务。

云岭翻译在跨国旅游、国际贸易、国际传播和国际教育等领域的广泛应用,极大地提升了跨语言交流的便利性。在跨国旅游中,游客通过云岭翻译App或智能翻译机在异国他乡可以轻松无障碍交流、了解当地的人文历史;借助讲解器和翻译耳机可深入了解当地博物馆、艺术展览和历史遗址的背景知识,提升参观体验。在国际贸易和商务合作中,多语言会议系统可提供即时翻译服务,准确传达各方观点,消除沟通障碍;文档翻译则帮助企业高效翻译合同、技术文档和产品说明书等。

基于云岭翻译,实验室还研发了小语译制平台,将诸如《走遍云南》《舌尖上的中国》《西游记》等影视剧和纪录片译制成多种南亚东南亚语言,传播弘扬中国优秀文化。在国际教育中,云岭翻译可为学生提供外文文献资料的翻译,支持制作多语言课件,提高跨境教学质量和效率。云岭翻译的推广与应用,助力不同语言和文化之间的交流与合作。

随着自然语言处理技术的不断进步,结合语音识别、图像识别等多模态信息,机器翻译将不仅仅局限于文本翻译,而是在更广泛的应用场景中提供全方位的语言翻译服务。云岭翻译也将继续深耕,实现更高的智能化和个性化,为我国与南亚东南亚地区在政治、经济、文化、旅游等多领域的交流合作提供重要语言翻译能力支撑。

2.语音识别与合成技术及应用

语音识别技术是将人类的语音信号精准地转化为文字,实现了机器能"听懂"人类说的话。语音合成技术,则是将文字转化为自然流畅的语音信号,实现了机器能“说”会“道”。语音识别与合成作为人机交互的桥梁,使得机器与人类的沟通变得更容易、更生动、更亲切。在现今科技日新月异的时代,中文普通话的语音识别准确率已高达95%以上,广泛应用于智能手机、智能家居、智能汽车、虚拟助手及会议记录等领域,展现了其卓越的性能。语音合成技术也在有声读物、影视配音及虚拟主播等领域大放异彩,为人们带来了丰富的听觉体验。

随着深度学习和大数据的出现,语音识别与合成的效果都得到质的飞跃,基于Transformer的语音识别与合成方法在中英文等语言上取得了较好的效果。然而,对于南亚东南亚语言,由于其独特的发音特点,语音识别与合成的效果并不理想,未见成熟的应用软件。面对这一挑战,云南省人工智能重点实验室组织标注了上万小时的语音—文本数据集,为南亚东南亚语音识别与合成提供了数据基础,并结合南亚东南亚语音语言特点,突破了基于语音语言大模型的语音识别与合成技术,实现了中文普通话、英文以及昆明方言、曲靖方言等常规使用语种的语音识别,也支持越南语、泰语、老挝语等南亚东南亚语言的语音识别与合成,大幅提升了语音识别准确率,合成的语音流畅自然,达到了实用化效果。

虚拟主播

基于语音识别与合成技术,面向南亚东南亚多语言商务洽谈场景,实验室研发了语音转录软件“小语洞听”。在使用过程中只需打开软件,使用麦克风采集说话语音即可将语音转录为文本,进一步调用云岭翻译,还可实现实时语音翻译,极大地提升了跨境交流的便捷性和准确性,降低了人工成本。针对南亚东南亚跨国多语言会议应用需求,实验室研发了“小语会议”,用户可在远程实现音视频实时通信、共享屏幕、在线投票等功能,同时还配套了硬件设备采集会议语音,实现了中文、越南语、泰语、老挝语等语言之间的同声传译;采集到的语音可转录为文本,可利用大模型生成会议纪要,提高了多人大型会议的组织效率。

在国际传播场景,为讲好中国故事、传播中国文化,实验室研发了“小语悦读”,只需输入越南语、泰语、缅甸语等文本,即可将文本实时合成为高质量语音,合成效果接近真实人声。在此基础上,进一步使用虚拟主播强化宣传渠道,用户可自主定制虚拟主播形象,输入文本即可实时生成主播视频。

随着南亚东南亚语音识别与合成技术的成熟,将在跨境教育中的数字课堂、有声教材等,跨境贸易中的电商虚拟数字人直播、直播间多语言实时字幕等,多语言呼叫中心的语音导览、信息查询等应用场景发挥重要作用。

云南省人工智能重点实验室常务副主任、教授 高盛祥/文图

责任编辑:王璐

34
已经是第一篇
已经是最后一篇
网友评论已有0条评论, 查看所有评论
昵称:    验证码:   
网友评论仅供其表达个人看法,并不代表本网立场