回顾2003年网络防火墙中的AI

信息化观察网
编译
过度依赖并且错误使用人工智能和机器学习会产生不必要的风险。 网络安全产业的弊端在于,会将某种方法看做是问题的解决方案,而不是考虑如何让这些方法发挥作用。人工智能和机器学习方面就出现了这种现象,这件事...

过度依赖并且错误使用人工智能和机器学习会产生不必要的风险。

网络安全产业的弊端在于,会将某种方法看做是问题的解决方案,而不是考虑如何让这些方法发挥作用。人工智能和机器学习方面就出现了这种现象,这件事让笔者回想起关于2003年网络防火墙的一些讨论。

在2003年,模式匹配是威胁检测的主要方法,因为它可以在硬件之间进行模式匹配,硬件驱动的解决方案(如防火墙)和基于软件的解决方案——如入侵检测系统——之间的联系越来越小。

在这次的技术演变中,我们都忽略了一个事实,即入侵检测系统要优于模式匹配,并且该系统也包括了各种方法,包括异常检测和事件关联,但是在防火墙中从来没有使用过这些方法。因此,基于防火墙的模式匹配成为了威胁检测的默认解决方案,而不是将模式匹配看做是整体解决方案中的一个重要的部分。

这段历史很重要,因为AI(实际上ML)只是工具演变过程中出现的另一种方法,而这些工具能够专门解决信息安全工作流程方面的问题。

在安全领域寻找AI和ML的价值

人工智能的定义是让机器在没有人工指导的情况下独自、智能地完成任务;机器学习是机器从人类提供的数据中“学习”的行为。鉴于这些定义,人工智能实际上并不真正存在于信息安全中;即使存在,不会长期存在。

同现有的方法相比,机器学习能够更加高效地解决确定性的安全问题。

大多数的情况下,营销材料中提到的AI / ML大多说的是启发式算法,而不是计算统计算法。虽然启发式算法比人工智能简单得多,但它在各种安全活动中表现良好,而计算密集程度远远低于基于数据科学的方法。

ML只是众多工具中的一种,能够用于识别不良活动,并且有效地解决了良性有界(well-bounded)和理解问题。

在写安全方面AI/ML的批评文章之前,笔者回想起当他还是Cylance的第一批员工的时候,他目睹了ML在恶意软件检测问题方面的惊人成就。然而,技术成功的关键在于研究以及解决问题及其局限性,具体如下:

结构限制:数据和结构类型要么多年不变,要么发展缓慢。在这种情况下,文件格式就决定了数据结构;

行为限制:一个很好的ML用例是,被建模的数据仅作为有限的动作结果出现,从而能够让数据点预测性地将这一结果映射到ML能够理解的程度;

颠覆性影响:这是最重要的因素,并且只会在信息安全中出现。网络黑客会去寻找和利用ML模型中的漏洞,这样看来,对文件进行充分地更改是非常困难的,因为这些文件会使统计分析数据不明确。

恶意软件分析和端点检测与响应是信息安全挑战的例证,并且也满足上述三个限制因素,这就是为什么机器学习在这个领域非常有效的原因。

将相同的思维过程应用在网络上是不安全的,因为网络数据在结构上或行为上并不受限制,并且攻击者可以在网络上发送0和1的任何序列。这是否意味着AI和ML是分析网络数据的死胡同?

如果解决方法仅仅是使用这些强大的技术来发现每个用户或设备的基线偏差,那么我们必将失败。这种“智能”方法产生的误报(false positives)和漏报(false negative)要求人在执行前对结果进行分析。

注释:

FP——False Positive (假正, FP)是指某(些)个负样本被模型预测为正;此种情况可以称作判断为真的错误情况,或称为误报;

FN——False Negative(假负 , FN)是指某(些)个正样本被模型预测为负;此种情况可以称作判断为假的错误情况,或称为漏报。

例如,基于网络异常发出警报的流量分析可能会告诉用户,来自这一IP地址的流量过大,但是之前从未出现过这样的情况。通常,这个问题在于用户正在进行新的备份。

相反,如果我们使用AI和ML,通过比较整个环境,特别是比较实体行为与类似的行为来确定技术好与坏的话,又会怎么样?这能够让系统自动学习诸如新备份过程之类的更改。

从技术或者哲学的角度来说,并非所有的信息安全的ML用例都是平等的。与2003年的防火墙一样,机器学习确实有一些搭配得当的使用案例,这些用例正在推动企业保护向最新技术水平方向发展。

然而,过度依赖机器学习来处理不匹配的用例会给企业带来不必要的额外风险和费用,同时会导致其它持续的负面影响,例如弥补ML漏洞方法的减少。

原文作者:Gary Golomb

THEEND