论文标题
Morisienmt:毛里求斯克里奥尔语机器翻译数据集
MorisienMT: A Dataset for Mauritian Creole Machine Translation
论文作者
论文摘要
在本文中,我们描述了Morisienmt,这是一种基准测试机器翻译质量的数据集。毛里求利亚克里奥尔(Morisien)是毛里求斯共和国的通用语言,是一种基于法国的克里奥尔语。 Morisienmt由英语和莫里森,法语和莫里森之间的平行语料库以及莫里森的单语语料库组成。我们首先对Morisien进行概述,然后描述为创建CORPORA所采取的步骤,并从中进行培训和评估分割。此后,我们使用创建的平行语料库以及大型法语 - 英语语料库来建立各种基线模型,用于转移学习。我们出于研究目的公开发布数据集,并希望这是为Morisien Machine Translation的研究。
In this paper, we describe MorisienMT, a dataset for benchmarking machine translation quality of Mauritian Creole. Mauritian Creole (Morisien) is the lingua franca of the Republic of Mauritius and is a French-based creole language. MorisienMT consists of a parallel corpus between English and Morisien, French and Morisien and a monolingual corpus for Morisien. We first give an overview of Morisien and then describe the steps taken to create the corpora and, from it, the training and evaluation splits. Thereafter, we establish a variety of baseline models using the created parallel corpora as well as large French--English corpora for transfer learning. We release our datasets publicly for research purposes and hope that this spurs research for Morisien machine translation.