跳到主体内容
TECHNOLOGY

使用 Astraea 进行大数据分析

该专业系统可实时汇总全球范围内有关可疑对象的所有统计信息和元数据,并通过 Kaspersky Security Network 云为所有用户立即提供检测决策。

Astraea 技术构成了 Kaspersky Security Network (KSN) - Kaspersky 新一代多层保护的另一要素 - 关键的“云网络大脑”。该系统实时汇总了全球范围内收集到的有关可疑活动和威胁的统计信息和元信息,并针对恶意对象生成检测决策。然后,该信息将立即通过 Kaspersky Security Network 提供给所有用户。

每天有超过 8000 万用户通过使用 KSN 云服务受益。Kaspersky 的产品请求并接收有关所请求对象的信誉的信息,并参与分享与可疑对象有关的统计信息及元信息。这使得每天会传输数亿次通知和数百 GB 的数据。

所有这些数据都被转发到名为 Astraea 的专业过滤和检测系统。系统会验证传入数据的一致性,以防止任何数据操纵尝试(哪怕是假设性的)。然后,数据将存储到包含文件、URL 等对象的大数据型数据库中,并具有相应的元信息和相互之间的链接。

例如,产品可以发送有关可疑对象的信息,比如:

  • 对象 0xc9e13b88​a6f74509​6f7cf4b2​32aad4d4​1054b32d​464c5bed​95aa7de2​16bc22a0
  • 对象的名称为“revised invoice and packing list.docx.exe”
  • 该对象位于存档“revised invoice and packing list.docx.zip”中
  • 该对象是从文件路径 c:\windows\temp 启动的
  • 该对象未签名
  • 等等。

汇总输入的信息后,可以生成如下知识:

  • 特定文件在世界范围内变为已知的时间
  • URL 的完整列表(从中下载该文件,或向其发出请求)
  • 磁盘上曾经存储过该文件的路径的完整列表
  • 针对文件的检测的完整列表(如果发生检测)
  • 启动文件的进程的完整列表
  • 文件的普遍性及其随时间的变化

根据由专家和专业系统创建的庞大指标列表来验证每个对象。例如,必须检查以下内容:

  • 文件在运行时是否具有双扩展名(“MyPhotos.jpg.exe”)
  • 文件是否位于文件夹 C:\Windows\System32 中,但是已打包并且文件属性为“隐藏”
  • 文件是否具有过时的扩展名之一(例如,“.com”、“.pif”等)
  • 文件名是否与受信任的系统文件非常相似,但只有一处不同(例如,“svcnost.exe”)
  • 文件是否是由已知恶意对象下载的
  • 等等。

通过规则列表,每个对象都会获得一个计算出的对象风险评分,Astraea 会使用该评分来做出专家决策,以判定该对象是否是恶意对象,因此,收集到的有关对象的信息越多,自动得出的结论就越精确 。显然,在某些情况下,有关对象的信息可能仍不足以做出裁定。如果是这种情况,则在收集到更多信息之后,将稍后重新计算评分。

一旦 Astraea 为对象做出裁定,它将把裁定转移到 Kaspersky Security Network 云服务,从而使它可以立即提供给全世界的用户。

需要注意的是,系统逻辑不是静态的 - 该系统会一直进行自我训练。在如今的世界中,恶意软件编写者会始终对代码进行验证,以防止其被安全解决方案检测到,并通过新技术来增强代码的杀伤力,因此,指标系统可能变得不实用,并且容易导致检测效率下降,误报率上升。这意味着,应该测试指标个体和指标列表整体的效率,并根据从 Kaspersky 数据库中收集的信息和专家知识,动态更新指标。

自 2012 年开始以来,到 2016 年底,Astraea 创建的检测量占新检测总量的百分比从 7.53% 增加到 40.5%(每天 323,000 次新检测),共检测到 10 亿个唯一恶意文件。

相关产品

WHITEPAPER

Whitepaper Kaspersky Security Network Big Data-powered Security


Finding the Needle in the Haystack Introducing Astraea.

Year 2016 One Billion Items of Malware Held in Kaspersky Labs Cloud Database

奖项

相关技术

云威胁情报:Kaspersky Security Network (KSN)

复杂的云基础架构从全球数百万自愿参与者那里收集并分析与网络安全相关的数据,以通过使用大数据分析、机器学习和人类专业知识对新威胁做出最快的反应。

网络安全中的机器学习

决策树组合、位置敏感型哈希、行为模型或传入流群集 - 我们的所有机器学习 (ML) 方法都旨在满足现实世界的安全要求:低误报率、可解释性和针对潜在对手的稳健应对。

多层安全方法

真正的网络安全应基于各种保护技术的协同作用,从经典的 AV 记录,到具有深度学习模型的、基于行为的检测。