<<返回自然语言处理相关数据

中文词语搭配库(SogouR)版本:2006

介绍:

互联网词语搭配关系库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。涉及到的搭配样例超过2000万,涉及到的高频词超过15万。

格式说明:

数据格式为

二元组1 同现次数1

二元组2 同现次数2

… …

二元组N 同现次数N

相关任务:

中文输入法

文字到语音转化

语音识别

相关资源:

互联网语料库 互联网词库

成果列表:

基于相对条件熵的搭配抽取方法

王大亮,张德政,涂序彦,郑雪峰,佟子健,北京邮电大学学报,2007年 06期;

多策略融合的搭配抽取方法

王大亮,涂序彦,郑雪峰,佟子健,清华大学学报(自然科学版),第48卷,第4期,2008年

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议”。

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

迷你版(样例数据,829KB):tar.gz格式zip格式

精简版(17MB):tar.gz格式zip格式

完整版(149MB):tar.gz格式zip格式

反馈:

线上反馈留下您的宝贵意见和建议。

资源下载FAQ中查找您遇到的资源下载问题的答案