全文预览

北京大学计算语言学研究所博士论文开题报告

上传者:非学无以广才 |  格式:doc  |  页数:37 |  大小:0KB

文档介绍
为两个层次:粗(RoughAlignment)对齐模型和细对齐(DetailedAlignment)模型。首先,源语言和目标语言的短语通过一个粗对齐模型进行对齐,然后短语内的单词再通过一个细对齐模型进行对齐。为了在粗对齐阶段实现双语短语的对齐,王野翊引入了一种双语的文法推导算法。在训练语料库上,通过基于互信息的双语词语聚类和短语归并反复迭代,得到一组基于词语聚类的短语规则。再用这组规则进行句子的短语分析。王野翊的实验表明,结构的引入不仅使统计机器翻译的正确率有所提高(错误率降低了11%),同时还提高了整个系统的效率,也缓解了由于口语数据的严重缺乏导致的数据稀疏问题。约翰霍普金斯大学(JHU)的统计机器翻译夏季研讨班IBM提出统计机器翻译方法引起了研究者广泛的兴趣。不过,由于其他人无法得到IBM的源代码,而要进行统计机器翻译的研究,首先需要重复IBM的统计机器翻译试验,然后才谈得上对它进行改进。这将面临着编码方面巨大的工作量。于是,在1999年夏天,很多相关的研究者会聚在约翰霍普金斯大学(JHU)举行了一个夏季研讨班,大家共同合作,重复了IBM的统计机器翻译试验,并开发了一个源代码公开的统计机器翻译工具包——Egypt。在这以后,这些研究者回到各自的研究机构,继续开展相关的研究工作,并提出了各种改进的模型,使得统计机器翻译的研究又出现了一个新的高潮。在约翰霍普金斯大学的1999年统计机器翻译夏季研讨班上,研究者们构造了一个基本的统计机器翻译工具集Egypt,并将该工具集在感兴趣的研究者中间自由散发。在研讨班上,他们使用这个工具集作为试验的平台进行了一系列的实验[Al-Onaizan1999]。研讨班开始时预期达到的目标如下:构造一个统计机器翻译工具并使它对于研究者来说是可用的。这个工具集应该包含语料库准备软件、双语文本训练软件和进行实际翻译的实时解码软件。它主要瞄准两类用户:

收藏

分享

举报
下载此文档