2021-2022-1学期 20212417《网络空间安全专业导论》第十二周学习总结
目录
第五章 内容安全基础
5.1 信息内容安全概述
伴随社会信息化和网络化的发展,当前全球数据正在呈现爆炸式增长,数据内容成为互联网的中心关注点。
互联网上各种不良信息流传以及不规范行为的产生原因可归结为两类:
- 由于在互联网爆炸性发展过程中,相关方面的规范和管理措施未能同步发展。
- 互联网在为人们提供便利获取与发布信息的同时,也制造了前所未有的思想碰撞场所,因而在互联网中更容易出现一些另类、新奇、不易理解或不符合规范的行为。
一方面,人们不应该因噎废食,因为互联网上存在的一些不良现象而畏惧或排斥新技术、新事物;另一方面,应当通过法律与技术等多方面措施限制与消除这些不良现象,让互联网更好地为人民服务,发挥更大的效用,使得人人都能更高效、更自由地使用互联网进行信息沟通。
信息内容安全是研究利用计算机从包含海量信息并且迅速变化的网络中对特定安全主题相关信息进行自动获取、识别和分析的技术。
5.2 信息内容安全威胁
在分析内容安全的问题之前,首先要搞清楚对安全的威胁来自何方:
- 内容安全面临的威胁有泄露、欺骗、破坏和篡夺等。
- 一些恶意用户产生并传播的恶意内容也是网络空间面临的潜在安全威胁。
其他路由攻击则表现为在传输过程中未经授权地访问和更改内容。
5.3 网络信息内容获取
5.3.1 网络信息内容获取技术
与面向特定点的网络通信技术获取不同,网络媒体信息获取环节的工作范围理论上可以是整个国际互联网。
网络媒体信息获取环节循环开展待获取队列中的网络地址发布信息获取、以获取信息主体内容提取、判重与信息存储,以及已获取信息内嵌按网络地址提取并存入待获取地址队列操作,直至遍历所需的互联网络范围。
理想的网络媒体信息获取流程主要由初始URL集合——信息“种子”集合,等待获取的URL队列,信息获取、解析、判重模块,与网络媒体信息库共同组成。
理论上只要掌握网络通信协议的信息交互过程,就可以通过网络交互重构实现对应协议发布信息获取。
正是由于通过网络交互过程编程重构机制,在实现媒体信息获取环节存在相当程度的技术局限性,在Web网站自动化功能/性能测试的启发下,浏览器模拟技术在网络媒体信息获取环节正得到越来越广泛的应用。
5.3.2 信息内容获取的典型工具
网络爬虫是在互联网上实施信息内容获取的主要工具。网络爬虫是一种按照一定的规则,自动抓取互联网信息的程序或者脚本。
针对不同的服务对象和行为,网络爬虫大体分为两类:
-
服务于搜索引擎等搜索类应用的爬虫
信息抓取规则是尽可能地覆盖更多的互联网网站,单一网站内的搜索深度要求不高。 -
服务于针对性进行信息收集的应用的网络爬虫
- 具有高搜索深度的爬虫被称为路径追溯爬虫,该类爬虫深入地尽可能抓取给定网站的全部资源。
- 具有主题选择能力的爬虫被称为主题爬虫,该类爬虫会判断抓取的资源是否属于用户指定的主题,并持续对有关给定主题的网页进行搜索和抓取。
网络爬虫通常采用分布式机制来保证信息获取的全面性和时效性。
网络爬虫还需要避免过于频繁获取信息而被媒体网站判为“恶意”。解决方法:
- 适当选择周期遍历时间间隔
- 通过定期修改用于内容获取的网络客户端信息请求内容(内容协商行为)
5.3.3 信息内容特征抽取与选择
文本信息内容的特征抽取与选择
文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。
特征选取的方式:
- 用映射或变换的方法把原始特征变换为较少的新特征。
- 从原始特征中挑选出一些最具代表性的特征。
- 根据专家的知识挑选最有影响的特征。
- 用数学的方法进行选取,找出最具分类信息的特征。
音频信息内容的特征抽取与选择
对于音频信息内容,充分地分析和提取其物理特征、听觉特征和语义特征,有效地实现音频信息的内容分类和检索至关重要。
根据检索对象和检索方法的不同,国内外在音频检索方面的研究大致分为语音检索、音乐内容检索和音乐例子检索几类。
特征抽取所采用的特征包括:
-
基于帧的音频特征:
- MFCC
- 频域能量
- 子带能量比
- 过零率
- 基音频率
-
基于片段的音频特征:
- 静音频率
- 高过零率帧率
- 低能量帧率
- 谱通量
- 和谐度
图像信息的特征抽取与选择
相比文本信息而言,数字图像具有信息量大、像素点之间的关联性强等特点。
图像的特征抽取和选择主要包含以下几个方面:
- 图像颜色特征提取(常见的颜色特征:颜色直方图、颜色聚合向量、颜色矩等)
- 图像纹理特征提取(常见的纹理特征:灰度共生矩阵、Gabor小波特征、Tamura纹理特征等)
- 边缘特征
- 轮廓特征
......
5.4 信息内容分析与处理
5.4.1 信息内容分类
分类算法的主要功能:分析不同图像类别的图像特征之间存在的差异,将其按内容分成若干类别。
任何分类器构建都可以抽象为一个学习的过程,而学习又分为:
- 监督学习(存在一个已标定的训练集)
- 无监督学习(不存在训练集)
线性分类器
线性分类器通过训练集构造一个线性判别函数,在运行过程中根据该判别函数的输出,确定数据类别。
最近邻分类法
最近邻分类法是图像分类和识别领域比较常用的分类方法,相比其他分类器(如线性分类器、支持向量机等),没有发杂的学习过程,其分类结果仅仅取决于测试样本与各类训练训练样本点之间的距离。
支持向量机
支持向量机(SVM)是一种监督学习的方法,它广泛应用于统计分类以及回归分析中。
支持向量机属于一般化线性分类器,能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。
对于线性可分的数据来说,支持向量机可被归类为一种线性分类器。
5.4.2 信息内容过滤
信息过滤通常是在输入数据流中移除数据,而不是在输入数据流中找到数据。
实际上,在内容安全领域,信息过滤是提供信息的有效流动,消除或者减少信息过量、信息混乱、信息滥用造成的危害,但在目前的研究阶段看,仍然处于较为初级的研究阶段,为用户剔除不合适的信息是当前内容安全领域信息过滤的主要任务之一。
信息过滤技术的分类方法:
- 按主动性分:主动信息过滤、被动信息过滤
- 按过滤器所在位置分:在信息的源头、在服务器和在客户端过滤
- 按过滤方法分:基于内容的过滤、基于用户兴趣的过滤和协同过滤
- 按获得知识的方法分:显式的方式、隐含的方式
- 按过滤的目的分:以用户兴趣为出发点、以网络内容安全为出发点
信息内容过滤最常见的应用:
- Internet搜索结果的过滤
- 用户电子邮件过滤
- 服务器/新闻组过滤
- 浏览器过滤
- 专为未成年人的过滤
- 为客户的过滤
5.5 网络舆情内容检测与预警
5.5.1 网络舆情系统的背景与应用范围
网络舆情预警监测系统主要完成互联网海量信息资源的综合分析,提取支持政府部门决策所需的有效信息。
网络舆情监测技术的发展趋势可以归结为以下几个方面:
- 针对信息源的深入信息采集
- 异构信息的融合分析
- 非结构信息的结构化表达
在互联网全面渗透人民生活各个环节的关键时机,及时启动网络舆情监测与预警系统的建设,具有相当的迫切性和必要性。
网络舆情系统的功能分解
高仿真网络信息(论坛、聊天室)深度提取技术
在针对互联网的信息提取中,对于动态。实时、分布式发布信息的准确与深度采集有很高的要求。
研究和模拟人机交互技术,实现对于操作人浏览网络媒体行为的全面高仿真的网络信息(论坛、聊天室)深度提取技术是网络舆情监测预警系统成功建设的基础核心内容。
高仿真网络信息(论坛、聊天室)深度提取技术重点研究智能化、高效率的远程网络互动式动态信息的全面提取,并形成功能齐全、性能稳定的动态信息提取系统。
基于语义的海量媒体内容特征快速提取与分类技术
为确保互联网中海量的非结构化、异构化和多样的信息资源,必须研究自主知识产权的基于语义的海量媒体内容特征快速提取与分类技术,才能在信息采集系统的基础上实现进一步的信息特征提取和结构化转变功能,为进一步实现舆情的分析、监测与预警完成必需的信息转化。
基于语义的海量文本特征快速提取与分类技术重点研究针对网络文本媒体,特别是中文媒体的基于语义的特征快速提取,并在此基础上形成适合网络舆情预警监测系统需要的基于语义的海量文本特征快速提取与分类系统。该系统将成为网络舆情监测与预警系统中重要的信息分析功能模块。
非结构信息自组织聚合表达技术
非结构信息自组织聚合表达重点研究的是针对海量非结构化信息库——互联网舆情信息作业信息库,实现无主题的聚合分析。
5.5.3 互联网舆情内容分析
基于互联网媒体发布内容主动获取、分析挖掘与表达呈现等系列技术开展互联网论坛监测工作,首先需要保证相关检测产品对于目标站点发布数据的提取比率,即检测产品信息提取部分的具体性能。
关于获取信息分析挖掘与表达呈现方面,针对异构的互联网媒体发布内容,网络信息监管工作在要求获取内容统一存储的同时,对于在海量的互联网媒体信息中实现热点自动发现的需求明确。
互联网舆情信息监控系统充分应用网络协商与人机对话模拟等先进技术,基于专项研发的“定点网站深入挖掘”机制,实现针对系统目标站点发布内容的全面获取。
另一方面,监控系统借助获取内容主题信息提取操作,开放热点数据报告定制功能。
5.6 内容中心网络及安全
5.6.1 内容中心网络架构
内容中心网络(CCN)设计的基本原理是摒弃以IP地址为中心的传输架构,采用与内容名称为中心的传输架构。
内容信息对象
信息对象是指内容本身,它是CCN的关注焦点。存储在计算机中并通过计算机访问的所有类型的对象都可以看做内容信息对象。
命名
内容的命名是信息对象的标识,具有全局性和唯一性,其地位与TCP/IP架构的IP地址相似。
CCN中的命名方案主要有:
-
分层命名
拥有与当前的URL类似的结构,其名称由多个分层组件构成。
层次结构命名与发布者的前缀为根,可实现路由信息的聚合,从而提高路由系统的可拓展性。 -
扁平命名
也称自我认证命名,该命名方式可以验证对象的名称-数据完整性,而无需公钥基础设施(PKI)或其他第三方
除了具有唯一性和持久性外,自我认证命名还具有不限于任何组织、易于完整性检查的优点。
路由
在CCN中,内容信息分发依赖于内容发布与订阅的异步机制。
CCN使用基于名称的路由。
缓存
缓存是CCN服务不可或缺的一部分,CCN中的网内缓存实现了以下原则:
- 统一的(应用于任何协议提供的所有内容)
- 民主的(由任何内容提供者发布的)
- 普遍存在的(即可用于所有网络节点)
CCN支持路径上缓存,每个CCN节点维护缓存表(CS),用于缓存CCN路由器接受的内容信息对象(对请求的响应),以便可以从该缓存中响应后继续接收到的对相同对象的请求。
应用程序编程接口
源/生产者将内容信息对象发布到网络,以使内容对象可供网络中的其他用户使用。客户/消费者发送其感兴趣的内容的订阅消息,以获取相关内容对象。
5.6.2 面向内容中心网络的分类攻击
命名相关攻击
在与命名相关的攻击中,攻击者试图通过组织内容的传递和/或通过检测谁请求此内容来阻止特定内容的分发。
命名攻击可分为:
- 监视列表攻击:攻击者具有预定义的想要过滤或删除的内容名称列表,攻击者监视网络链接以执行实时过滤。
- 嗅探攻击:攻击者监视网络以检查数据是否应该被标记以便过滤或消除它。
路由相关攻击
可分为:
- 分布式拒绝服务(资源耗尽和时间攻击)
- 欺骗攻击(阻塞攻击、劫持攻击、拦截攻击)
以分布式拒绝服务攻击造成的危害影响最大。
缓存相关攻击
常见的缓存攻击情形下,攻击者不断发送随机或不流行的请求到内容中心网络中,通过更改内容流行度来破坏内容中心网络的缓存。
其他攻击
攻击者试图获取受限访问内容等。
浙公网安备 33010602011771号