使用 Astraea 进行大数据分析
Astraea 技术构成了 Kaspersky Security Network (KSN) - Kaspersky 新一代多层保护的另一要素 - 关键的“云网络大脑”。该系统实时汇总了全球范围内收集到的有关可疑活动和威胁的统计信息和元信息,并针对恶意对象生成检测决策。然后,该信息将立即通过 Kaspersky Security Network 提供给所有用户。
每天有超过 8000 万用户通过使用 KSN 云服务受益。Kaspersky 的产品请求并接收有关所请求对象的信誉的信息,并参与分享与可疑对象有关的统计信息及元信息。这使得每天会传输数亿次通知和数百 GB 的数据。
所有这些数据都被转发到名为 Astraea 的专业过滤和检测系统。系统会验证传入数据的一致性,以防止任何数据操纵尝试(哪怕是假设性的)。然后,数据将存储到包含文件、URL 等对象的大数据型数据库中,并具有相应的元信息和相互之间的链接。
例如,产品可以发送有关可疑对象的信息,比如:
- 对象 0xc9e13b88a6f745096f7cf4b232aad4d41054b32d464c5bed95aa7de216bc22a0
- 对象的名称为“revised invoice and packing list.docx.exe”
- 该对象位于存档“revised invoice and packing list.docx.zip”中
- 该对象是从文件路径 c:\windows\temp 启动的
- 该对象未签名
- 等等。
汇总输入的信息后,可以生成如下知识:
- 特定文件在世界范围内变为已知的时间
- URL 的完整列表(从中下载该文件,或向其发出请求)
- 磁盘上曾经存储过该文件的路径的完整列表
- 针对文件的检测的完整列表(如果发生检测)
- 启动文件的进程的完整列表
- 文件的普遍性及其随时间的变化
根据由专家和专业系统创建的庞大指标列表来验证每个对象。例如,必须检查以下内容:
- 文件在运行时是否具有双扩展名(“MyPhotos.jpg.exe”)
- 文件是否位于文件夹 C:\Windows\System32 中,但是已打包并且文件属性为“隐藏”
- 文件是否具有过时的扩展名之一(例如,“.com”、“.pif”等)
- 文件名是否与受信任的系统文件非常相似,但只有一处不同(例如,“svcnost.exe”)
- 文件是否是由已知恶意对象下载的
- 等等。
通过规则列表,每个对象都会获得一个计算出的对象风险评分,Astraea 会使用该评分来做出专家决策,以判定该对象是否是恶意对象,因此,收集到的有关对象的信息越多,自动得出的结论就越精确 。显然,在某些情况下,有关对象的信息可能仍不足以做出裁定。如果是这种情况,则在收集到更多信息之后,将稍后重新计算评分。
一旦 Astraea 为对象做出裁定,它将把裁定转移到 Kaspersky Security Network 云服务,从而使它可以立即提供给全世界的用户。
需要注意的是,系统逻辑不是静态的 - 该系统会一直进行自我训练。在如今的世界中,恶意软件编写者会始终对代码进行验证,以防止其被安全解决方案检测到,并通过新技术来增强代码的杀伤力,因此,指标系统可能变得不实用,并且容易导致检测效率下降,误报率上升。这意味着,应该测试指标个体和指标列表整体的效率,并根据从 Kaspersky 数据库中收集的信息和专家知识,动态更新指标。
自 2012 年开始以来,到 2016 年底,Astraea 创建的检测量占新检测总量的百分比从 7.53% 增加到 40.5%(每天 323,000 次新检测),共检测到 10 亿个唯一恶意文件。