<<返回图片数据

互联网图片库2.0(SogouP2.0)版本:2011

介绍:

互联网图片库2.0来自搜狗识图搜索(http://pic.sogou.com/shitu/index.html)索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达1000万张图片。对于每张图片,搜狗给出了图片的原图文件、图片的URL、图片所在网页的URL、图片所在网页中的Surrounding Text文本、同主题系列图片等信息。图片库还包括了一个识图搜索结果人工标注集合,用于训练和评测。

格式说明:

共包括三个文件:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据;Original_Pic中存储图片的原图;Evaluation_Data是识图搜索结果的人工标注集合。

Meta_Data文件包含所有图片的相关元数据,格式如下:

<PIC>

<PIC_URL>图片在互联网中的URL地址</PIC_URL>

<PAGE_URL>图片所在网页的URL地址</PAGE_URL>

<ALT_TEXT>图片的替换文字</ALT_TEXT>

<ANCHOR_TEXT>以图片为目标的超链接的显示文本</ANCHOR_TEXT>

<SUR_TEXT1>页面中提取的图片上方的文本</SUR_TEXT1>

<SUR_TEXT2>页面中提取的图片下方的文本</SUR_TEXT2>

<PAGE_TITLE>图片所在网页的标题</PAGE_TITLE>

<CONTENT_TITLE>图片所在网页的正文标题</ CONTENT_TITLE>

<WIDTH>图片的宽度</WIDTH>

<HEIGHT>图片的高度</HEIGHT>

<ORIGINAL_PIC_NAME>图片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME>

</PIC>


图片原图存储在Original_Pic文件中,每个图片二进制数据保存成一个单独文件,文件名在Meta_Data的元信息中指明。


Evaluation_Data文件包含所有图片的相关元数据,格式如下:

<PIC>

<QUERY_URL>查询图片在互联网中的URL地址</QUERY_URL>

<RESULT_URL>搜索结果的 PIC_URL,多个分号隔开</RESULT_URL>

</PIC>

相关任务:

基于内容的图片检索

下载:

下载前请仔细阅读“搜狗实验室数据使用许可协议

Please read the "License for Use of Sogou Lab Data" carefully before downloading.

完整版(635GB):(硬盘拷贝)

反馈:

线上反馈留下您的宝贵意见和建议。

资源下载FAQ中查找您遇到的资源下载问题的答案