多语言数据

全球领先的多语言文本语料库、知识图谱和评测数据集，支持跨语言研究与人工智能应用

🌐

📚

🔤

多语言多模态数据生产、治理与应用一体化平台

CCFQA

面向"跨语种+跨模态（语音/文本）"事实性（factuality）评测的基准数据集，用于系统检验多模态大模型在不同语言、不同模态下回答短事实问答时的一致性与可靠性。其覆盖8种语言（含普通话、粤语等），由1,800条n-way平行的"文本-语音"问题对构成，并包含14,400条语音样本；同时支持多语种文本QA、跨语种文本QA（XQA）、多语种语音QA（SQA）与跨语种语音QA（XSQA）等评测设置。

数据集详情

PoetMT

面向"古典中文诗词→英文"翻译的专项基准，目标是衡量"信（Adequacy）、达（Fluency）、雅（Elegance）"三维质量，从而更贴近诗词翻译的实际要求。数据侧包含唐、宋、元等朝代的诗词集合及人工专家译文，并配套提供一个 30,000+ 规模的诗词知识库（含历史背景、朝代、现代汉语释义、作者介绍、结构/赏析等），以支撑检索增强翻译（RAT）与更细粒度的评测任务。

数据集详情

CCEval

以中文为中心（Chinese-centric）的多语言机器翻译评测基准，旨在提供更"代表性强、质量可控、可追溯"的测试集来评估中文↔多语种翻译系统。它由 2,500 条中文源句构成，覆盖 6 个代表性领域与 60 个主题，并由专业译者翻译到 11 种语言；数据构建过程中使用 Direct Assessment 等流程做质量把关，各语种质量分数均控制在 90% 以上。

数据集详情