<<返回自然语言处理相关数据

互联网词库(SogouW)版本:2006

介绍:

互联网词库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息。

格式说明:

数据格式为

词A 词频 词性1 词性2 … 词性N

词B 词频 词性1 词性2 … 词性N

词C 词频 词性1 词性2 … 词性N

相关任务:

中文词性标注

词频分析

相关资源:

互联网语料库 中文词语搭配库

成果列表:

提供相关成果

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议”。

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

完整版(1.3MB):tar.gz格式zip格式

词性说明(196B)

反馈:

线上反馈留下您的宝贵意见和建议。

资源下载FAQ中查找您遇到的资源下载问题的答案