全文预览

中国台湾中研院

上传者:qnrdwb |  格式:ppt  |  页数:80 |  大小:2030KB

文档介绍
草案。依此标准分词不但可以有助于资源共享,对语料库分词结果之回馈也可成为尔后修定国家标准草案的依据。 ( 二) 裁文是以文章( text )的自然段落为准,而非以文章长度为准避免选取过短或过长的文章, 便随其自然段落截取。我们认为我们的设计理念可以取得更完整不偏颇的语言讯息内容。 1.3 中研院平衡语料库的设计理念 ( 三) 语料库多重分类原则分类把所有语料都给了五个不同特征的值: (1) 文类(2) 文体(3) 语式(4) 主题(5) 媒体。目前初步虽然仍以主题为主轴來进行语料库的平衡。理想上是希望有了更多研究的结果之后,可以同时利用一个以上的轴來定义更完善的平衡语料库。具有五个轴的多重分類,另一个立即的好处是研究上的活用性( versatility )增加了许多。研究者可任选其中特征的组合,定义自己的次语料库( sub-corpora );也可以在次语料库间作比较研究。多重分類原则也有利于以后平衡语料库的更新。因此在有监看语料库( monitor corpus )的前提下,我们可以随时抽换平衡语料库中某个符合一组特征条件的次语料库,以保平衡语料库仍忠实代表当代语言的真实现况。 1.4 中研院平衡语料库的构建过程要建构一个平衡带词类标记的语料库,第一个起步工作是收集语料。接下來是语料整理的工作,包括语料清洁、为语料分类、加词类标记等等[陈克健 1994 ]。以下就构建一个中文的带词类标记的平衡语料库需要考虑的三个中心问题分三章依次说明: 第二章谈平衡语料的分类与选取,如何为语料做分类,分类的标准以及各类的比例。第三章是中文的断词问题,中文基本上以小句为单位,从來源处得到的资料,并无标示词的讯息,但是切分词的结果也直接或间接影响到词类标记的判定及句子的分析。第四章讨论如何订出词类标记集,词类标记的原则以及每一个标记所代表的涵义。

收藏

分享

举报
下载此文档