Paracotta：来自最多样化的翻译样本对的合成多语言释义语料库

论文标题

Paracotta：来自最多样化的翻译样本对的合成多语言释义语料库

ParaCotta: Synthetic Multilingual Paraphrase Corpora from the Most Diverse Translation Sample Pair

论文作者

Aji, Alham Fikri, Fatyanosa, Tirana Noor, Prasojo, Radityo Eko, Arthur, Philip, Fitriany, Suci, Qonitah, Salma, Zulfa, Nadhifa, Santoso, Tomi, Data, Mahendra

论文摘要

我们跨17种语言发布了合成的平行释义语料库：阿拉伯语，加泰罗尼亚，捷克语，德语，英语，西班牙语，爱沙尼亚语，法语，印地语，印度尼西亚语，意大利语，荷兰语，罗马尼亚语，俄语，瑞典语，瑞典语，越南和中文。我们的方法仅依靠单语数据和神经机器翻译系统来生成释义，因此易于应用。我们使用Beam搜索生成多个翻译样品，并根据其句子BLEU选择最多样化的对。我们将生成的语料库与\ texttt {parabank2}进行比较。根据我们的评估，我们的合成术语对在语义上相似，并且在词汇上是多种多样的。

We release our synthetic parallel paraphrase corpus across 17 languages: Arabic, Catalan, Czech, German, English, Spanish, Estonian, French, Hindi, Indonesian, Italian, Dutch, Romanian, Russian, Swedish, Vietnamese, and Chinese. Our method relies only on monolingual data and a neural machine translation system to generate paraphrases, hence simple to apply. We generate multiple translation samples using beam search and choose the most lexically diverse pair according to their sentence BLEU. We compare our generated corpus with the \texttt{ParaBank2}. According to our evaluation, our synthetic paraphrase pairs are semantically similar and lexically diverse.

下载PDF全文

下载文献需遵守相关版权规定

论文标题