欢迎访问四川大学网络空间安全研究院!

院长信箱

当前位置: 首页 >> 科学研究 >> 学术成果 >> 正文

法语命名实体识别数据集CSRI_FR_NER

日期:2018-06-07 来源:本站 作者:管理员 关注:

介绍:

    该数据集的语料从三大法国新闻网站Aujourd'hui en France(法国今日报)、Libération(法国解放报)、L'Humanité(法国人道报)上采集而来,从其中随机挑选出1005篇不同类别的新闻报道,经由5位法语专业的标注者人工标注得到。标注的实体类型包括:LOC(地名)、PER(人名)、ORG(机构名)、MISC(杂项)和TIMEX(时间)5种。

格式说明:

    每篇被标注的文章由两个文件组成,txt文件包含文章内容,ann文件包含被标注的实体。ann文件的每一行表示一个实体,例如下面这行:

T20ORG 1553 1569Union européenne

    分别为实体的id,类型,起始字符位置,结束字符位置和实体字符串。ann文件格式由brat(http://brat.nlplab.org/)标注生成,本数据集也可以放到brat中再次标注。

注意:

    1. 数据使用方有义务将使用数据获得的成果(项目、论文等)主动告知四川大学网络空间安全研究院;在利用该数据集进行深入研究而获得的成果中,应指明数据的提供方(四川大学网络空间安全研究院)。

    2. 本数据集仅用于学术研究,禁止商用。

下载: CSRI_FR_NER.zip

关闭

Copyright © 2020 All Rights Reserved - 四川大学网络空间安全研究院