互联网图片库2.0(SogouP2.0)版本:2011
介绍:
互联网图片库2.0来自搜狗识图搜索(http://pic.sogou.com/shitu/index.html)索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达1000万张图片。对于每张图片,搜狗给出了图片的原图文件、图片的URL、图片所在网页的URL、图片所在网页中的Surrounding Text文本、同主题系列图片等信息。图片库还包括了一个识图搜索结果人工标注集合,用于训练和评测。
格式说明:
共包括三个文件:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据;Original_Pic中存储图片的原图;Evaluation_Data是识图搜索结果的人工标注集合。
Meta_Data文件包含所有图片的相关元数据,格式如下:
<PIC>
<PIC_URL>图片在互联网中的URL地址</PIC_URL>
<PAGE_URL>图片所在网页的URL地址</PAGE_URL>
<ALT_TEXT>图片的替换文字</ALT_TEXT>
<ANCHOR_TEXT>以图片为目标的超链接的显示文本</ANCHOR_TEXT>
<SUR_TEXT1>页面中提取的图片上方的文本</SUR_TEXT1>
<SUR_TEXT2>页面中提取的图片下方的文本</SUR_TEXT2>
<PAGE_TITLE>图片所在网页的标题</PAGE_TITLE>
<CONTENT_TITLE>图片所在网页的正文标题</ CONTENT_TITLE>
<WIDTH>图片的宽度</WIDTH>
<HEIGHT>图片的高度</HEIGHT>
<ORIGINAL_PIC_NAME>图片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME>
</PIC>
图片原图存储在Original_Pic文件中,每个图片二进制数据保存成一个单独文件,文件名在Meta_Data的元信息中指明。
Evaluation_Data文件包含所有图片的相关元数据,格式如下:
<PIC>
<QUERY_URL>查询图片在互联网中的URL地址</QUERY_URL>
<RESULT_URL>搜索结果的 PIC_URL,多个分号隔开</RESULT_URL>
</PIC>
相关任务:
基于内容的图片检索
下载:
下载前请仔细阅读“搜狗实验室数据使用许可协议”
Please read the "License for Use of Sogou Lab Data" carefully before downloading.
完整版(635GB):(硬盘拷贝)
反馈:
在线上反馈留下您的宝贵意见和建议。
在资源下载FAQ中查找您遇到的资源下载问题的答案