<<返回自然语言处理相关数据
中文词语搭配库(SogouR)版本:2006
介绍:
互联网词语搭配关系库来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。涉及到的搭配样例超过2000万,涉及到的高频词超过15万。
格式说明:
数据格式为
二元组1 同现次数1
二元组2 同现次数2
… …
二元组N 同现次数N
相关任务:
中文输入法
文字到语音转化
语音识别
相关资源:
成果列表:
王大亮,张德政,涂序彦,郑雪峰,佟子健,北京邮电大学学报,2007年 06期;
王大亮,涂序彦,郑雪峰,佟子健,清华大学学报(自然科学版),第48卷,第4期,2008年
下载:
下载前请仔细阅读“搜狗实验室数据使用许可协议”。
Please read the "License for Use of Sogou Lab Data" carefully before downloading.
迷你版(样例数据,829KB):tar.gz格式,zip格式
反馈:
在线上反馈留下您的宝贵意见和建议。
在资源下载FAQ中查找您遇到的资源下载问题的答案