多语言数据

全球领先的多语言文本语料库、知识图谱和评测数据集,支持跨语言研究与人工智能应用

多语言多模态数据生产、治理与应用一体化平台


遥感图像

CCFQA

面向"跨语种+跨模态(语音/文本)"事实性(factuality)评测的基准数据集,用于系统检验多模态大模型在不同语言、不同模态下回答短事实问答时的一致性与可靠性。其覆盖8种语言(含普通话、粤语等),由1,800条n-way平行的"文本-语音"问题对构成,并包含14,400条语音样本;同时支持多语种文本QA、跨语种文本QA(XQA)、多语种语音QA(SQA)与跨语种语音QA(XSQA)等评测设置。

数据集详情
遥感图像

PoetMT

面向"古典中文诗词→英文"翻译的专项基准,目标是衡量"信(Adequacy)、达(Fluency)、雅(Elegance)"三维质量,从而更贴近诗词翻译的实际要求。数据侧包含唐、宋、元等朝代的诗词集合及人工专家译文,并配套提供一个 30,000+ 规模的诗词知识库(含历史背景、朝代、现代汉语释义、作者介绍、结构/赏析等),以支撑检索增强翻译(RAT)与更细粒度的评测任务。

数据集详情
遥感图像

CCEval

以中文为中心(Chinese-centric)的多语言机器翻译评测基准,旨在提供更"代表性强、质量可控、可追溯"的测试集来评估中文↔多语种翻译系统。它由 2,500 条中文源句构成,覆盖 6 个代表性领域与 60 个主题,并由专业译者翻译到 11 种语言;数据构建过程中使用 Direct Assessment 等流程做质量把关,各语种质量分数均控制在 90% 以上。

数据集详情
遥感图像

GigaSpeech 2

不断发展、大规模、多领域和多语种的 ASR 语料库,专注于低资源语言。它主要包含泰语、印尼语和越南语,语音数据来自未标注的 YouTube 视频,并通过自动化的爬取、转录和标签优化流程构建。

数据集详情
遥感图像

FLEURS

Few-shot Learning Evaluation of Universal Representations of Speech 的简称,是 FLoRes 机器翻译基准的语音版本。它是一个 n-way 平行语音数据集,旨在作为评估语音通用表征的少样本学习基准。可用于多种语音任务。

数据集详情
遥感图像

WMT 2022

WMT22 是机器翻译研讨会(WMT)的共享任务之一。其目标包括通用机器翻译(涉及多领域盲测,如新闻、社交、会话、电子商务),以及指标共享任务,旨在实现与人工判断的最高相关性,并测试指标在非新闻数据领域的鲁棒性。它还包含大规模多语言机器翻译任务,包括 24 种非洲语言。

数据集详情
遥感图像

WMT 2023

WMT23 的核心任务包括术语共享任务,旨在研究具有专业词汇文本的机器翻译进展,参与者会获得源文本和段落级别的术语词典。同时包含指标共享任务,关注与人工判断(MQM)的相关性,新增了对段落级别评估的关注。

数据集详情

相关论文

共找到 7 篇论文

Huang, Yichong, Xiaocheng Feng, Xinwei Geng, Baohang Li, and Bing Qin. 2023. Towards Higher Pareto Frontier in Multilingual Machine Translation. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3802–3818, Toronto, Canada. Association for Computational Linguistics.

MTranslation

Huang, Yichong, Xiaocheng Feng, Xinwei Geng, and Bing Qin. 2022. Unifying the Convergences in Multilingual Neural Machine Translation. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 6822–6835, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.

MTranslation

Chen, Andong, Lianzhang Lou, Kehai Chen, Xuefeng Bai, Yang Xiang, Muyun Yang, Tiejun Zhao, and Min Zhang. 2024. DUAL-REFLECT: Enhancing Large Language Models for Reflective Translation through Dual Learning Feedback Mechanisms. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 693–704, Bangkok, Thailand. Association for Computational Linguistics.

LLM