介绍:
该数据集的数据由爬虫在互联网上爬取所得,数据的标签经专业的标注者人工标注得到。标注的主要对象是网页,其中包含64747条数据,以及每条数据所属的一级和二级类别。
格式说明:
本数据集为csv格式文件,以’,’为分隔符,如下:
2,休闲娱乐,影视音乐,http://video.baidu.com,百度视频搜索,百度视频搜索是业界领先的中文视频搜索引擎之一,拥有海量的中文视频资源,提供用户满意的观看体验。在百度视频,您可以便捷地找到海量的互联网视频,更有丰富的视频榜单、多样的视频专题满足您不同的视频观看需求。百度视频,你的视界。,"热播电视剧,高清电影,好看的电视剧,好看的电影,电影天堂,电视剧排行榜,电影排行榜,百度影音电影,高清电影,电影推荐",2
分别是序号,一级类别,二级类别,域名,title,description,keywords,flag(并未使用)。
注意:
1. 数据使用方有义务将使用数据获得的成果(项目、论文等)主动告知四川大学网络空间安全研究院;在利用该数据集进行深入研究而获得的成果中,应指明数据的提供方(四川大学网络空间安全研究院)。
2. 本数据集仅用于学术研究,禁止商用。