<<返回语料数据

链接关系库(SogouT-Link)版本:2012

介绍:

包括对应互联网语料库内文档的链接关系列表

格式说明:

链接数据以如下格式组织在文本格式文件中:

源文档ID1 目标文档ID1

源文档ID2 目标文档ID2

… …

源文档IDN 目标文档IDN

包括URL到文档编号的映射表以及映射关系两个文件

相关任务:

相关性排序

链接分析

反垃圾

相关资源:

网页搜索结果评价 互联网语料库 SogouRank库

成果列表

R-SpamRank: A Spam Detection Algorithm Based on Link Analysis Chenmin Liang, Liyun Ru, Xiaoyan Zhu, to be appeared at the Journal of Computational Information Systems.

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

迷你版(85KB):tar.gz格式,zip格式

历史版(279MB):V1.0

2008版:完整版(25.9GB) (硬盘拷贝)

迷你版(样例数据,URL对照表,23KB):tar.gz格式

迷你版(样例数据,链接关系,7KB):tar.gz格式

反馈:

线上反馈留下您的宝贵意见和建议。

资源下载FAQ中查找您遇到的资源下载问题的答案