多语言数据

全球领先的多语言文本语料库、知识图谱和评测数据集,支持跨语言研究与人工智能应用

多语言多模态数据生产、治理与应用一体化平台


遥感图像

GigaSpeech 2

不断发展、大规模、多领域和多语种的 ASR 语料库,专注于低资源语言。它主要包含泰语、印尼语和越南语,语音数据来自未标注的 YouTube 视频,并通过自动化的爬取、转录和标签优化流程构建。

数据集详情
遥感图像

FLEURS

Few-shot Learning Evaluation of Universal Representations of Speech 的简称,是 FLoRes 机器翻译基准的语音版本。它是一个 n-way 平行语音数据集,旨在作为评估语音通用表征的少样本学习基准。可用于多种语音任务。

数据集详情
遥感图像

WMT 2022

WMT22 是机器翻译研讨会(WMT)的共享任务之一。其目标包括通用机器翻译(涉及多领域盲测,如新闻、社交、会话、电子商务),以及指标共享任务,旨在实现与人工判断的最高相关性,并测试指标在非新闻数据领域的鲁棒性。它还包含大规模多语言机器翻译任务,包括 24 种非洲语言。

数据集详情
遥感图像

WMT 2023

WMT23 的核心任务包括术语共享任务,旨在研究具有专业词汇文本的机器翻译进展,参与者会获得源文本和段落级别的术语词典。同时包含指标共享任务,关注与人工判断(MQM)的相关性,新增了对段落级别评估的关注。

数据集详情

相关论文

共找到 7 篇论文

Huang, Yichong, Xiaocheng Feng, Xinwei Geng, Baohang Li, and Bing Qin. 2023. Towards Higher Pareto Frontier in Multilingual Machine Translation. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3802–3818, Toronto, Canada. Association for Computational Linguistics.

MTranslation

Huang, Yichong, Xiaocheng Feng, Xinwei Geng, and Bing Qin. 2022. Unifying the Convergences in Multilingual Neural Machine Translation. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 6822–6835, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.

MTranslation

Chen, Andong, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, and Min Zhang. 2024. DUAL-REFLECT: Enhancing Large Language Models for Reflective Translation through Dual Learning Feedback Mechanisms. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 693–704, Bangkok, Thailand. Association for Computational Linguistics.

LLM