阿凡达

由Martin Rehak和Blake Anderson代表认知与ETA团队写

导 言

数名工程师用加密交通查找恶意软件以思科为例 机器学习团队核心加密流量分析约50名工程师、安全研究人员和AI研究人员分布在欧洲和美国目标简单描述,但难实现sco客户将受到保护避免恶意软件,尽管网络流量大都加密,恶意流量大都使用TLS、Tor或其它加密协议

答案基础是ETA遥测技术 由范围不断扩大的思科路由器和开关生成ETA遥测概念性非常简单除正常净流导出器、开关或路由器生成额外数据字段,为具体处理目标使用案例增加信息初始数据包包含从头包单向流取有效载荷TLS客户端和服务器内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内存内分包长度和时间序列包含连接初始包的大小和时间信息信息允许我们区分TLS通道内的不同通信类别,例如Web浏览、email下载、文件上传和下载以及其他多项Netfl和ETA信息元素由预置处理隐形监视程序故障发现是在思科云中完成

引擎PowerETA

如何获取无法解密并检查内容级的东西答案基础是现代机器学习和自动化通信分析组合ETA恶意检测并非从零开始构建,而是基于认知威胁分析CTA基于云行为检测引擎

CTA引擎接收并处理Cisco客户行为数据并发回疑似持续感染设备清单,并估计风险、恶意行为属性和对调查至关重要的其他信息以输入方式处理超过100亿网络流记录和代理日志,同时处理来自更多渠道的信息所有流源和请求归结为特定客户, 引擎处理大都面向客户允许我们避免信息泄漏 信息泄漏可能隐含产生 如果我们处理行为数据 跨多客户

认知威胁分析

第一阶段处理工作基于行为异常检测滤波不基于单一异常检测算法由大约70种不同的算法组成,这些算法建模行为方方面面与单个主机、全公司模式和内部主机与外部服务机间交互关系[3]举例说,一些模型模拟个体设备白天的活动,而其他模型则专注于周周期或较长周期创建了其他模型估计每个主机使用的具体活动并识别意外差错

最高级行为模型中有一些是ETA客户专用ETA数据专用模型依赖TLS元数据资料和SPLT字段构建软件对特定主机或由特定服务器选择能力使用密码原语模型ETA信息使与ETA相容元素生成净流类似于网络代理提供的活动日志,从而增强行为模型,这些模型本可仅用于代理日志而非纯Netfll信息可与HTTP、DNS、FTP等信息元素导出的额外应用层协议进一步相关

从ETA提取的信息 特别帮助我们构建非常详细行为模型 服务端通信与基线行为模型不同,互联网服务器行为模型使用思科所有全局信息预测特定服务器当前或未来是否用于恶意软件生态系统这不是名声游戏并评估未来可能开发误用良性服务器的风险。服务器模型构建(并自动验证)全局性这一事实使它们对规避尝试不敏感

行为建模层的全部点是过滤输入数据低异常分数输入流都可丢弃后再加处理 。 值此点, 系统查看剩余异常流并尝试解释其存在和异常原因广告、用户跟踪和一些媒体传输往往在统计上异常化,允许识别并删除这些类别数以百计分类器对剩余流归为恶意或可疑

第一类流可立即识别为恶意决策分类程序要么训练识别泛攻技术(例如使用生成域或僵尸命令控制),要么训练辨别恶意软件类别特有的交通模式(例如adware、密码挖掘、绑定软件)。另一类分类器识别系统过去发现的个人威胁行为主体所特有的模式泛泛地说, 万一异常流点到这些分类器中任何一个, 足够证据供系统提醒

ETA数据至关重要,因为它允许加强现有分类器并允许我们设计更多分类器,专门针对恶意软件使用密码技术分类器合并ETA数据、流数据、主机行为数据以及服务器信息其中一个基础原ETA概念验证器[1],而其他则扩展CTA内当前分类器集

SPLT和服务器行为

最重要的问题仍然存在如何分类流非恶意或正当性类别比恶意流大得多正确分类至关重要,因为它包含奇异但完全合法行为组合,并伴之以新和前不为人知恶意行为一般来说,单流或短期观察很少足以判定这类恶意软件有罪。因此,我们使用串行技术,归并活动(bags)[2]每项活动逐项分类相关主机上发生的所有活动都被视为一组活动,CTA系统决定是否积累了足够证据触发报警观察时间可大相径庭 — — 其中一些事件在分钟内触发,而另一些事件则可能需要时数至周数。延迟显然取决于恶意软件精度和网络活动量

不同类别分类者组合是有意的专用分类器允许系统在已知易检测攻击时短检测时间对大多数特定分类器而言,它们还用风险评估、威胁信息并预测受感染宿主文件以及其他系统损坏来说明发现另一方面,通用长期分类器使系统有能力查找新恶意软件,将其与已知攻击区分开来并开始构建行为模型,下文讨论

全局可见度

下一步处理不再面向客户CTA系统整合所有客户识别事件,允许某些事件归结为已知恶意行为方基于此信息 行为模型代表这些角色的技巧 策略和资源 更新事件行为不能归结为已知行为主体,然后交叉引用Cisco安全产品的信息,如AMP和DrewGride初步模型可确认创建新恶意行为方模型之后这些模型转换成额外分类器,应用到分类阶段的数据中

CTA利用Cisco提供的若干产品收集的全球情报特别是上述端点安全产品数据相关性AMP威胁Grid网络安全产品数据允许思科实时跟踪恶意运动和服务器分组

监控网络行为已知和公认的端点合法应用似似冗余,但实际上对系统有效性至关紧要CTA知道这些应用在任何时间点常使用的合法服务器同时,我们创建行为模型 服务器和应用程序服务器模型和应用行为模型随后都用于ETA分类器,以便提高精度并减少假阳性

跟踪网络已知恶意行为家庭允许我们创建恶意行为行为模型立即观察恶意家庭行为突变并更新行为模型少留空格逃避检测正因如此,这能提高分类器召回率

结论

在全球范围,我们的系统基于两个主要原则建成由数以百计分类器组成级联,逐步分析数据并丢弃发现正常物允许我们解决基流问题(恶意软件只占流量的一小部分)同时保持系统发现新恶意软件的能力另一项原理是反馈复杂分类器和子系统生成的知识深入漏核用于源源不断生成更新分类器和参数更新分类器后生成更佳数据资讯并启动自改善周期

查找加密交通中的恶意软件(或甚至非加密交通)并非易事,这不是魔术所实现的一切都是热诚团队辛勤工作的结果工程师每周发布5或6新版软件,确保平台可持续接收、处理并销毁大量输入数据研究者常设计新算法 查找甚至内存恶意软件安全研究人员每日对攻击者展开智战,以确保结果尽可能完整和可操作性

[1]Blake Anderson、David McGrew机器加密 Maware流量分类计数脱机kdd,2017

KBartosMSOFKAV优化网络流量不变表示检测不可见马拉威变换物;USENIX安全专题讨论会,2016年

MGRYTPVNY学习异常检测器组合安全域名;107,2016



作者类

阿凡达

Martin Rehak

首席工程师

认知威胁分析