全文预览

最新-最全句子对齐算法介绍

上传者:苏堤漫步 |  格式:pdf  |  页数:27 |  大小:0KB

文档介绍
.‡但是,我们大多数人把生活认为是理所当然的。我们知道,某一天我们一定会死,但通常我们把那天想象在遥远的将来。‡Whenweareinbuoyanthealth,deathisallbutunimaginable.Weseldomthinkofit.‡当我们心宽体健时,死亡几乎是不可想象的,我们很少想到它。‡Thedaysstretchoutinanendlessvista.Sowegoaboutourpettytasks,hardlyawareofourlistlessattitudetowardlife.‡时日在无穷的展望中延展着,于是我们干着琐碎的事情,几乎意识不到我们对生活的倦怠态度。对齐的级别双语语料库对齐可分为:„段落对齐„句子对齐„短语对齐„单词对齐句子对齐的方法‡基于长度的句子对齐方法‡基于词典的句子对齐方法‡基于长度和词典相结合的句子对齐方法基于长度的句子对齐方法‡源语言文本的长度与译文长度有很强的相关性„基于词数长度的对齐(Brown)„基于字符数的长度对齐方法(GaleChurch)基于长度对齐方法的特点‡把句子对齐看作是句子长的函数;‡不需要额外的词典信息;‡缺点是容易造成错误的蔓延基于词数长度的对齐(Brown)‡Brown对Hansard语料库进行对齐时,引入了锚点(anchor)的概念将整个语料库划分成一些小的片段‡采用语料库中特定的注释来作为锚点,使用动态规划算法对这些锚点进行匹配‡匹配之后锚点之问的文本就能够一一对应,形成对齐文本‡利用特定的注释来作为锚点的方法并不适用干一般情况其它基于长度的对齐方法‡Fung通过统计文本中词的频度和位置信息,采用一些高频的互译词汇对所在句子作为候选锚点‡然后利用动态规划算法对双语文本中这些候选锚点进行匹配,找出真正的锚点‡需要对全部词汇进行统计,计算量很大另外由于数据稀疏的问题,还可能会导致锚点的匹配错误

收藏

分享

举报
下载此文档