新无监督学习模型可发现系统中潜行的黑客

来源:腾讯

2018-11-19

一种新的无监督学习模型，可以发现侵入系统的黑客，并在其作出攻击行为前迅速作出反应，发出警报。

2013 年，一群英国情报人员发现大多数的安全工作都致力于阻止黑客入侵，但几乎没有人反过来思考这个问题:阻止已经入侵的黑客泄露信息。基于这个想法，这些人成立了一家新的名为 Darktrace 的网络安全公司，并与剑桥大学的数学家合作，开发了一种利用机器学习模型捕捉内部漏洞的工具。

研究人员没有用黑客攻击的历史实例训练算法，相反，他们需要一种新方法让系统能够识别异常行为。于是，研究人员转向无监督学习模型，这是一种并不常见的基于机器学习算法的技术，其中一个很大的特点在于，它不需要人类指定具体的搜寻目标。

图丨Darktrace 在感染病毒的设备上显示锁定了一个异常行为（来源：DARKTRACE）

Darktrace 联合首席执行官 Nicole Eagan 说：“这个系统很像人体自身的免疫系统，能识别哪些是自己的，哪些是外来的。并在发现外来入侵后，能够做出非常精确而快速的反应。”

绝大多数机器学习应用程序依赖于监督学习。监督学习需要研究人员给机器输入大量经过仔细标记的数据，来训练它识别具体事物的能力。例如，如果你想让机器能识别金毛犬。你需要给它输入成百上千的金毛犬图片和其他非金毛犬图片，同时明确地告诉它哪些是，哪些不是。然后它才能很好的地进行识别。

在网络安全领域，监督学习模型非常有效。用系统以前遇到的各种威胁来对机器进行训练，机器就能掌握隔离这些威胁的能力。

但是监督学习模型有两个主要问题。首先，它只适用于已知的威胁，对未知对威胁束手无策。另一方面，监督学习算法在平衡的数据库下才能很好地运行。换句话说，即对于机器来说，需要特别注意的目标和可忽略的目标在数量上是相当的。然而，网络安全数据是高度不平衡的，比如有少数情况是海量的正常行为中混入了少数的威胁行为。

图丨一个特定子网络中的所有可视化连接（来源：DARKTRACE）

这种情况下，监督学习的效果并不令人满意，而非监督学习就可以派上用场了。非监督学习可以查看大量未标记的数据，并找到不复合典型模式的部分。因此，它可能会识别出系统以前从未见过的威胁，并且只需要很少的异常数据点就能做到这一点。

Darktrace 部署软件时，它在客户的网络周围设置了物理和数字传感器观测网络活动。这些原始数据将导入到超过 60 种不同的无监督学习算法中，让这些算法相互竞争以发现异常行为。

然后，再将这些算法的输出结果传送到另一个主算法中，主算法使用各种统计方法来决定这 60 个算法中哪些行为要注意，哪些行为可以忽略。所有这些复杂的操作都打包成最终的可视化连接，允许操作人员快速查看并对可能的入侵作出反应。而在操作人员得出解决方案之前，系统会隔离这个漏洞，直到它被解决为止。例如，系统会切断所有受感染设备的外部通讯。

当然，无监督学习并不是无懈可击。随着黑客的攻击越来越复杂，无论研究人员使用的是哪种机器学习方式，他们都可能骗过机器。加州大学伯克利分校的网络安全和机器学习专家 Dawn Song 表示:“在这种猫鼠游戏中，攻击者可以改变自己的游戏规则。”

她说，为了应对黑客的改变，网络安全界转向了积极主动的方式，通过建立更好的安全架构和原则，使系统更安全。但要彻底根除所有违规和欺诈行为，还有很长的路要走。“毕竟，整个系统最薄弱的环节就是安全。” Dawn Song 说。

责任编辑：焦旭

新无监督学习模型可发现系统中潜行的黑客

专题

最新发布