您的位置: 李二秃谈游戏 > 公益

高校如何利用大数据技术构建网络敏感信息监管机制?

2019-07-04来源:李二秃谈游戏

 近几年来,高校对于网络信息安全的监管越来越重视。一方面是进入了信息化时代,人们有了维护敏感信息权益的意识,另一方面,也是随着技术能力的提升,加剧了信息泄露的风险,而高校不慎泄露了敏感数据,将造成无法挽回的损失。

 在笔者看来,保证网络信息的安全对于高校来说有一定难度。因为敏感信息泄露事件一旦发生,影响较为重大,所以高校若想保证信息安全,需要对网络信息进行24小时不间断的监管。又因其是小概率事件,高校需要长期坚持才能看到效果,所以很大程度上即使学校花费大量人力物力,得到的效果也不会理想。 所以打破传统的监管模式,引进大数据技术,采用智能化管理模式,由机器代替人力应该算是高校最明智的选择了。

 所以高校若想快速建立网络信息安全的监管机制,笔者建议采购一套“敏感信息”监管系统。日常的审核工作交由系统负责,只有当系统识别出问题时,再由负责人进行处理。这样能够很大程度上降低人力成本,并提升敏感信息审核的精准度。

 在此笔者选取3个市面上的相关产品,来向大家展示当前敏感信息审核技术的能力。

 产品分别是阿里云的文本审核工具、源易的“句易网”、和卓智的“内容脱敏工具”,前两个产品是专注互联网行业的,后一个产品是专注高校的。这三款产品均运用较为成熟的NLP自然语言处理技术,并各自构建了强大的语言词库,对于文本信息的审查结果较为精准,是在各自行业内比较优秀的产品。

 我们来进行测试,看看这类产品的技术能力是否过关。



一、通用场景测试



测试文本

“只要一部手机!何时何地时间自由都可以赚钱!我可以为你推荐好几种工作噢!淘宝好评师也可以!给自己买点喜欢的东西吧!想了解的咨询我噢!”


       网络上经常会出现这类广告信息,为了增加测试难度笔者特意挑选了一段没有明显广告词汇的文本,产品若想通过测试,就需要有能够结合前后文本信息进行语义判断的能力。这是对于技术要求计较严格。

阿里云测试结果


(图-阿里云检测成功)

  阿里云一直有着安全、可靠的计算和数据处理能力,对于词法分析、语义相似度分析、语言建模等方面有着深入研究,并准确的识别出广告信息。

句易网的测试结果

(图-句易网检测成功)

 “句易网”是一款在线文本审核软件,包含一万多个敏感词汇与一千多个新广告法违禁词汇,已经覆盖了日常文本的审核维度。但实际测试中仅识别出关键词“自由”并未给出结论。


内容脱敏工具的测试结果

(图-内容脱敏工具测试成功)

  内容脱敏工具是卓智专注高校语言环境研发的一套系统,测试中成功检测出敏感信息,并且识别出了广告性质的“赚钱”、“推荐”、“工作”、“淘宝”、“咨询”等词汇。作为一个为高校打造的敏感信息监管系统,同样对于词法分析、情感倾向分析、语义相似度分析、语言建模等方面有着深入研究。


 本次测试的三款产品均通过了测试,至少说明在自然语言处理技术上,三款产品已经达到了一定的水平。由于测试文本选取的是通用场景下的网络内容,所以笔者再选取一段高校场景下的文本信息,看看这三款产品是否同样适应场景化的高校的语言环境。



二、高校场景测试



测试样本

关于取消土木院王琦入学资格的情况

时间:[09-22] 来源:

王琦,男,汉族,2000年8月13日出生,湖南祁东县人,现为2018级土木工程学院学生。

2018年9月9日入学以来,多次在学生宿舍发表辱国言论,且不听同学劝阻,并对同室同学爱国言论冷嘲热讽。

鉴于王琦散布辱国等错误言论,影响极坏。根据《国家招生考试规定》及《湖南省2018年普通高校招生工作实施办法》有关条款,《普通高校学生管理规定》第三章第九条和《湖南城市学院学籍管理规定》,经校长办公会研究,决定取消王琦入学资格。



 笔者选取的这段文本,是某个高校真实的公告信息,其中详细写出了学生的姓名、民族、性别等内容,严重泄露了学生隐私。(注:为了保护学生信息安全,笔者修改了文本中学生的真实信息)


阿里云测试结果

(图-阿里云测试失败)

 阿里云检测结果正常。通过分析,阿里云是互联网产品,更多关注的是互联网行业的敏感规则,对于黄赌毒信息、涉政信息与广告灌水等信息较为敏感。但对于校园场景化的数据无法识别。

句易网的测试结果

(图-句易网检测失败)

    句易网测试结果正常,分析原因与阿里云相同。两个互联网行业产品相继无法识别校园敏感信息,我们再来看看专为校园敏感信息识别定制的产品“内容脱敏工具”的检测结果。

内容脱敏工具的测试结果

(图-内容脱敏工具检测成功)

 内容脱敏工具,成功检测出文本中存在学生的敏感信息,并且明确标识出了涉敏内容-“王琦”、“男”、“汉族”等词汇。这是由于内容脱敏工具适应高校的语言环境,更了解高校对于网络信息安全的真实需求。


 通过本次测试可以看出高校场景下,即使产品的技术水平相似,但专注高校场景的产品更能精准判别高校敏感信息。


 而专注高校场景的意义在于,机器在文本审核时,能够辨别高校严禁发布的信息,能够正确理解高校环境下特殊词汇的含义,能够满足高校对于信息安全的检测需求,从而贴合高校的使用场景,快速精准解决高校实际问题。


所以,技术落地场景才能发挥根本价值!


本文由李二秃谈游戏整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。