<<返回语料数据

互联网语料库(SogouT)版本:2016

介绍:

来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB

格式说明:

<url>标签后一行直到</doc>标签结束的中间部分即为网页原始内容,保留了HTML标记

<doc>

<docno>页面ID</docno>

<url>页面URL</url>

页面原始内容

</doc>

相关任务:

相关性排序

文本分类

新词发现

机器翻译

分词

相关资源:

网页搜索结果评价 链接关系库 SogouRank库 Microsoft Anonymous Web Data MSNBC Anonymous Web Data Syskill Webert Web Data

成果列表

1. Data Cleansing for Web Information Retrieval using Query Independent Features. Yiqun Liu, Min Zhang, Rongwei Cen, Liyun Ru, Shaoping Ma. Journal of the American Society for Information Science and Technology. DOI: 10.1002/asi.20633.

2. R-SpamRank: A Spam Detection Algorithm Based on Link Analysis Chenmin Liang, Liyun Ru, Xiaoyan Zhu, to be appeared at the Journal of Computational Information Systems.

3. Incorporating Web Browsing Information into Anch or Texts for Web Search Bo Zhou, Yiqun Liu, Min Zhang, Yijiang Jin, Shaoping Ma. Information Retrieval Volume 14, Issue 3: 290-314, 2011.

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议”, 请在使用了本语料库的论文、技术报告等研究成果中添加如下参考文献引用:Yiqun Liu, Fei Chen, Weize Kong, Huijia Yu, Min Zhang, Shaoping Ma, Liyun Ru. Identifying Web Spam with the Wisdom of the Crowds. ACM Transaction on the Web. Volume 6, Issue 1, Article No. 2, 30 pages. March 2012.

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

迷你版(样例数据, 61KB):tar.gz格式,zip格式

完整版(1TB):(硬盘拷贝)

历史版本(130GB):V2.0(硬盘拷贝)

反馈:

线上反馈留下您的宝贵意见和建议。

资源下载FAQ中查找您遇到的资源下载问题的答案