欢迎访问四川大学网络空间安全研究院!

院长信箱

当前位置: 首页 >> 科学研究 >> 学术成果 >> 正文

网页层次分类数据集CSRI_CONTAM_PAGE

日期:2020-12-30 来源:本站 作者:管理员 关注:

介绍:

该数据集的数据由爬虫在互联网上爬取所得,数据的标签经专业的标注者人工标注得到。标注的主要对象是网页,其中包含64747条数据,以及每条数据所属的一级和二级类别。


格式说明:

本数据集为csv格式文件,以’,’为分隔符,如下:

2,休闲娱乐,影视音乐,http://video.baidu.com,百度视频搜索,百度视频搜索是业界领先的中文视频搜索引擎之一,拥有海量的中文视频资源,提供用户满意的观看体验。在百度视频,您可以便捷地找到海量的互联网视频,更有丰富的视频榜单、多样的视频专题满足您不同的视频观看需求。百度视频,你的视界。,"热播电视剧,高清电影,好看的电视剧,好看的电影,电影天堂,电视剧排行榜,电影排行榜,百度影音电影,高清电影,电影推荐",2

分别是序号,一级类别,二级类别,域名,titledescriptionkeywordsflag(并未使用)。


注意:


1. 数据使用方有义务将使用数据获得的成果(项目、论文等)主动告知四川大学网络空间安全研究院;在利用该数据集进行深入研究而获得的成果中,应指明数据的提供方(四川大学网络空间安全研究院)。


2. 本数据集仅用于学术研究,禁止商用。



下一条:学术论文

关闭

Copyright © 2020 All Rights Reserved - 四川大学网络空间安全研究院