近期,团队在国际权威学术期刊《Information Processing& Management》在线发表了两篇数据分类分级方面的研究论文:“Listen carefully to experts when you classify data: A generic data classification ontology encoded from regulations” (DOI: 10.1016/j.ipm.2022.103186),“Laws and Regulations tell how to classify your data: a case study on higher education”(DOI: 10.1016/j.ipm.2022.103240)。第一作者均为陈兴蜀教授指导的博士研究生杨敏。
期刊介绍
Information Processing& Management是计算机科学领域一区TOP学术期刊,最新影响因子为7.466。该期刊致力于发表计算机与信息系统交叉领域的前沿原创研究,关注理论、方法或在一系列领域的应用研究。
论文1:Listen carefully to experts when you classify data: A generic data classification ontology encoded from regulations
大数据技术的迅猛发展导致数据安全事件频繁发生。数据分类分级作为解决这一问题基础支撑和前置条件,将数据按不同的属性特征等进行分类,区分不同类别级别的保护措施,已经成为近年来国家、行业、地方政府的关注重点,并相继出台数据安全和分类分级相关的法律法规和政策标准,这些政策法规中包含了大量有价值的信息可以指导数据安全从业人员指导数据分类分级的实施。文章设计了一个分类分级信息抽取框架(GENONTO),该框架采用机器学习和自然语言处理技术解析非结构化文本和表格数据,从中国颁布的数据分类分级相关的政策法规中自动提取数据分类实践,构建数据分类分级领域知识库,以帮助数据从业者快速地从政策法规中学习专家经验。在中国颁布的38个与数据分类分级相关的政策法规基础上开展丰富的数据实验,实验结果表明提出的信息抽取框架有效性优于基线方法。
论文2:Laws and Regulations tell how to classify your data: a case study on higher education
《中华人民共和国数据安全法》第二十一条明确规定要对数据进行分类分级保护。数据分类作为实现数据安全的支撑,其重要性被提到了前所未有的高度,如何选择合适的分类维度和分类算法以实现数据保护的目标成为满足合规性的关键问题。文章提出一种基于安全合规驱动的数据分类方案(Gen-DT),该方案具有通用性和可扩展性。以颁布的法律法规等外部知识库为参考,将数据分为“regulated data”和“non-regulated data”,对存储公民数据的行业来说,可以快速识别受法律法规保护的数据,便于采取适当的安全措施,以满足合规要求;同时,行业可依据实际情况将两类数据进一步细分,为细粒度数据保护提供支撑。在两所高等教育学校的实验结果表明,Gen-DT各项性能指标优于传统的分类算法。
论文引用方式及链接:
Yang M, Chen X, Tan L, et al. Listen carefully to experts when you classify data: A generic data classification ontology encoded from regulations[J]. Information Processing & Management, 2023, 60(2): 103186.(https://www.sciencedirect.com/science/article/pii/S0306457322002874)
Yang M, Tan L, Chen X, et al. Laws and regulations tell how to classify your data: A case study on higher education[J]. Information Processing & Management, 2023, 60(3): 103240. (https://www.sciencedirect.com/science/article/pii/S0306457322003417)