全文预览

汉语中介语语料库介绍

上传者:梦&殇 |  格式:ppt  |  页数:16 |  大小:633KB

文档介绍
语语料库? (三)暨南大学中介语语料库Р(一)北语HSK动态作文语料库Р北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建?成的。它以母语为非汉语的外国人参加高等汉语水平考试( HSK高等) ?作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行?全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569?篇,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北?语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因?此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的?修改。? ? 北语HSK作文语料库? http://202.112.195.192:8060/hsk/login.asp(维护中)Р(二)中山大学中介语语料库Р汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学?院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、?词、句偏误标准版两个入口。? 使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享?有查看和搜索全部语料的权利。? 其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。偏?误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。?   “汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般的?词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。? “错字数据库”是该库一大重要特色。错字数据库中收集了语料库中的所?有错字使用情况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月?共有大约 310 万字,目前还在不断增加更新改善。本语料库收集的主要?是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、?中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所?以初级水平的语料偏少,中级较多,高级最多。

收藏

分享

举报
下载此文档