<<返回语料数据
链接关系库(SogouT-Link)版本:2012
介绍:
包括对应互联网语料库内文档的链接关系列表
格式说明:
链接数据以如下格式组织在文本格式文件中:
源文档ID1 目标文档ID1
源文档ID2 目标文档ID2
… …
源文档IDN 目标文档IDN
包括URL到文档编号的映射表以及映射关系两个文件
相关任务:
相关性排序
链接分析
反垃圾
相关资源:
成果列表
R-SpamRank: A Spam Detection Algorithm Based on Link Analysis Chenmin Liang, Liyun Ru, Xiaoyan Zhu, to be appeared at the Journal of Computational Information Systems.
下载:
下载前请仔细阅读“搜狗实验室数据使用许可协议”
Please read the "License for Use of Sogou Lab Data" carefully before downloading.
历史版(279MB):V1.0
2008版:完整版(25.9GB) (硬盘拷贝)
迷你版(样例数据,URL对照表,23KB):tar.gz格式
迷你版(样例数据,链接关系,7KB):tar.gz格式
反馈:
在线上反馈留下您的宝贵意见和建议。
在资源下载FAQ中查找您遇到的资源下载问题的答案