首页 > 院士专家科普 > 正文

第十一讲 人工智能在南亚东南亚语言翻译领域的应用(下)

2024-07-17 10:06:53  来源:2024年第7期《致富天地》

编者的话:由余正涛教授领衔的云南省人工智能重点实验室,是南亚东南亚语言语音信息处理教育部工程研究中心。实验室面向越南语、老挝语、缅甸语、柬埔寨语、泰语等南亚东南亚语言,长期开展自然语言处理与机器翻译、信息检索和社会计算、语音识别及合成、图像识别与检索等领域的研究,取得了一系列成果,部分成果填补了该领域空白,达到国际领先水平。实验室研发的产品,在旅游、贸易、教育、国际传播等领域得到很好的应用,对推进我国与南亚东南亚国家交流与合作起到重要作用。本刊特邀该实验室团队成员,科普人工智能在语言翻译领域应用方面的相关知识。

1.图像文字识别技术及应用

图像文字识别技术在日常生活中的应用场景广泛,它能够精准地识别文本资料的图像文件,从而轻松获取其中的文字信息。通过图像文字识别技术可以快速地将纸质文档转化为电子文档,方便存储、传输和编辑,这在图书馆、档案馆、政府机构等领域应用广泛。也可以应用于车牌识别、票据识别、证件识别等场景,对交通管理、财务处理、户籍管理等方面起到很好的辅助作用。

目前,中文、英文等大语种的图像文字识别已经取得很好的效果,如微信、QQ等聊天软件中,中英文图片文字提取已经达到实用化程度。但是越南语、老挝语、缅甸语等南亚东南亚语言的字形结构复杂,存在上下标、嵌套组合等难以识别的特征,将大语种的识别方法直接应用于南亚东南亚语言图像文字识别时效果较差,目前还没有成熟的南亚东南亚语言图像文字识别工具。因此,云南省人工智能重点实验室组织语言专家标注了大量的南亚东南亚图像—文本对齐数据,围绕南亚东南亚语言图像文字识别中面临的关键难点问题开展研究,突破了基于卷积神经网络的南亚东南亚语言图像文字识别技术,实现了识别准确率的大幅提升,并达到实用化效果。实验室面向公众用户开放了南亚东南亚语言图像文字识别平台,提供针对越南语、老挝语、缅甸语、柬埔寨语、泰语等南亚东南亚语言的图像文字自动识别和翻译功能。

智能扫描仪

为满足不同场景下的应用需求,实验室研发了一系列软硬件设备。针对游客在跨境旅游中的即时语言需求,实验室研发了具有拍照识别和翻译功能的“小语洞见”App,让游客能够通过拍照的方式迅速、准确地理解路牌、菜单、景点介绍中的关键信息,极大地提升了旅游体验的便捷性和愉悦感。在语言学习领域,为帮助语言学习者快速掌握南亚东南亚文字的中文含义及标准发音,实验室研发了具有扫描识别和翻译功能的智能扫描笔,只需轻轻一扫,就能获取南亚东南亚文字对应的中文解释和准确的发音指导。这种智能化的学习方式,不仅提高了学习效率和趣味性,还降低了学习难度。为了满足南亚东南亚地区用户在办公场景中快速处理纸质文档的需求,实验室研发了智能扫描仪,用户可以借助这种设备轻松地将纸质文档转化为便于存储、分享和编辑的电子格式,这样智能化的文档处理方式,不仅节省了用户的时间和精力,还使得办公流程更加顺畅和高效。

随着技术的不断进步和应用场景的拓展,图像文字识别技术还可应用于医疗保健、电子商务等更多领域,在提高工作效率、降低成本和促进数字化转型方面发挥出显著作用,为促进我国面向南亚东南亚国家的交流合作提供了更好的支撑。

2.大语言模型技术与应用

大语言模型是一种先进的人工智能技术,基于大规模的多语言多类型数据,采用深度学习算法进行模型训练,存储海量信息和知识,使其具有强大的理解和生成自然语言文本的能力。大语言模型的应用非常广泛,在文本分析、知识问答、文本创作等领域提供智能化服务。例如,辅助生成新闻稿件、故事、诗歌,进行多语言翻译、智能对话等。

目前,在中文、英文等大语种上,大语言模型已经取得很好的效果,例如百度的“文心一言”、阿里的“通义千问”都已经投入实际应用。但是主流的大语言模型在越南语、老挝语、缅甸语等南亚东南亚语言上效果较差,无法满足使用需求。其原因在于这些大语言模型缺乏南亚东南亚语言的数据,未能充分学习南亚东南亚语言的特点和规律。为此,云南省人工智能重点实验室收集了数百亿的南亚东南亚语言的单语数据,提出了面向南亚东南亚语言的大模型预训练和增量训练方法,构建了面向南亚东南亚语言的微调指令,研发了南亚东南亚大语言模型平台“小语问答”,提供面向南亚东南亚语言智能服务,能够准确地理解和生成南亚东南亚语言。

“小语问答”为用户提供文本分析服务。对于长篇章或长段落文本,“小语问答”可以快速生成精确的摘要总结,大大提高了用户的阅读效率,使用户能够在短时间内了解文章的重点。

“小语问答”辅助用户进行文本创作。根据用户提出的文章主题,“小语问答”能够生成紧扣主题的高质量文本内容,并优化语言表达,有效提升用户创作效率。

“小语问答”为跨境贸易提供多语言智能服务。根据用户选择的南亚东南亚语言,回答详细的行业介绍、区域产业特点等,帮助用户快速了解相关国家和地区的产业信息、产业状况和地方政策,为用户提供全面的信息支持。

“小语问答”为跨境旅游提供帮助。对于前往南亚东南亚国家旅游的游客来说,他们可能会面临语言不通的问题,特别是在解读政府公告、政策说明等官方文件时,“小语问答”能帮助游客快速理解这些信息,比如,签证要求、旅游政策、安全指南等。这样,游客可以更加安心地规划行程,享受旅行,同时确保自己的安全和合法权益得到保障。

云南省人工智能重点实验室常务副主任、教授 高盛祥/文图

责任编辑:王璐

34
已经是第一篇
网友评论已有0条评论, 查看所有评论
昵称:    验证码:   
网友评论仅供其表达个人看法,并不代表本网立场