|
NLPIR_UGWS: 维吾尔语分词语料库项目介绍NLPIR_UGWS(Natural Language Processing & Information Retrieval Sharing Platform Uyghur Word Segmentation Corpus )是由NLPIR实验室构建的维吾尔语分词语料。原始语料为从CWMT往届语料中选取的共5000条句子。语料库构建的步骤为:语料搜集、聚类、随机抽取、自动分词、人工分词、反复校对。 标准规范“/”代表切分 数据格式原文本 分词后的文本 下载需要购买更大规模语料联系邮箱liwang@nlpir.org或电话13681251543 开源协议
作者张华平,严若豪 |