赋能“一带一路”建设互通,实现基础设施“硬联通”、规则标准“软联通”、共建国家人民“心联通”
鹏城·脑海大模型多语言版 | 支持中文与52个“一带一路”国家语言互译
语言作为沟通工具,是实现基础设施“硬联通”、规则标准“软联通”、共建国家人民“心联通”的基础,是“一带一路”建设互通的前提条件。 本项目以“一带一路”多语言机器翻译为应用示范,建成一套以中文为核心且性能国际先进的多语言翻译与交流工具链,提供机器翻译、语音识别、语音生成、同声传译引擎,并构建了国产自主的“鹏城·脑海”大模型多语言版,支持中文与52个“一带一路”国家语言的文本互译,基座模型的机器翻译能力发布时处于主流开源模型的领先地位,基于基座模型的微调模型在13个“一带一路”语言同中文的互译能力上超过主流商业系统(包括国内的讯飞、百度、小牛,国外的微软Bing等),为实现下一步5年目标,即基于中国算力网的垂直开源和应用生态奠定了坚实基础。
构建了全球首个以中文为中心、面向低资源语言的高质量平行训练和评测数据集,实现了以中文为中心的翻译模型训练、评测、部署、排行、服务全流程的工具链。

有效解决多语言大模型训练中的高低资源语言数据规模、质量不均衡,学习效率不一致,以及灾难性遗忘等问题,发布全栈自主可控的多语言大模型以及开源算法库。
融合自监督、半监督和有监督的多样化数据增强和大语言模型能力的语音处理技术栈,大幅度降低语音识别与语音翻译对带标注数据的依赖,打造低成本同传新范式。

提供面向低资源语种的多语言模型评测标准、规范和评测数据集。用户可通过多语言智能翻译与交流平台实现翻译模型全自动定制生产和服务部署系统开发,并提供机器翻译、语音识别、同声传译、数字人等多语言服务,为对外科技交流合作提供了平台基础。

以"鹏城·云脑II"超大规模国产智能算力集群为计算平台,以"鹏城·脑海"中文通用大语言模型为内核,同时支持"英伟达 + PyTorch"和"华为昇腾 + MindSpore"异构硬件和框架训练,可针对多语言语音识别领域的典型问题进行特定优化,并可有效缓解Whisper模型中常见的幻觉问题。

在13个"一带一路"语种同中文的互译性能超过国内三大主流商业翻译引擎(百度、讯飞、小牛),其中7个语种的翻译性能超商业系统 10%,5个语种超20%。3个语种的实时语音识别准确率比第三方商业平台(微软、百度和讯飞)提供的公开接口的准确率相对提升15%以上。

多语言大模型和机器翻译能力在国家级国际传播机构和大型央企的国际合作场景中落地应用:服务于中移动信息技术有限公司,在中国移动的出海业务产品中服务于超百万用户;服务于国家顶级外宣机构中国外文出版社,部署半年接口调用万余次(全文4280次,辅助13194次)。

多语言大模型和机器翻译赋能国家级外语评测机构核心业务,服务于中国外文局翻译院,支持全国翻译技术大赛约400家单位,6000名参赛者。支撑新疆少数民族地区百万群众中文学习,赋能新疆国家通用语言教学和推广平台,平台已经在新疆南疆32县市进行试用,注册用户超百万人。

与中国外文局、中国翻译协会等权威机构深度合作
连续三年举办人工智能与国际传播论坛
发布多个大模型版本和重要技术成果
2022年9月7日,由中国外文局与鹏城实验室主办,中国外文局翻译院、外文出版社承办的人工智能与国际传播高峰论坛在京举行,会上发布"鹏城·丝路"机器翻译平台2.0版,标志着双方在AI翻译领域的深度合作正式开启。


2023年11月16日,由中国外文局和鹏城实验室主办,中国翻译协会支持,中国外文局翻译院和外文出版社承办的人工智能与国际传播论坛在深圳举办,会上与百川共同发布鹏城·脑海33B版,并启动辅助翻译平台研究计划,推动AI技术在出版领域的应用创新。


2024年11月28日,第三届人工智能与国际传播论坛在深圳成功举办,此次盛会由鹏城实验室、中国外文局翻译院及外文出版社携手主办,会上发布"鹏城·脑海"大模型多语言版、"鹏城·星语"多语言语音大模型,辅助翻译平台正式上线,标志着多语言AI技术进入新的发展阶段。

