2017 AVAR反病毒大会 瑞星已全面应用人工智能技术
2017-12-08
2017年12月8日,AVAR 2017第二十届亚洲反病毒大会在北京召开,大会主题为“不忘初心——对抗日益严重的网络犯罪”。来自全球20+国家和地区的100+全球知名安全企业的200+专家学者共议反病毒前沿技术及发展趋势。
2017年12月8日,AVAR 2017第二十届亚洲反病毒大会在北京召开,大会主题为“不忘初心——对抗日益严重的网络犯罪”。来自全球20+国家和地区的100+全球知名安全企业的200+专家学者共议反病毒前沿技术及发展趋势。瑞星作为优秀的安全厂商和AVAR理事单位受邀出席,瑞星安全研究院院长叶超在会上全程用英文发表了“机器学习在反恶意软件中的应用实践”的主题演讲。
近年来,网络攻击手段变化多端,从勒索软件到物联网僵尸,从利用网络漏洞攻击到APT攻击,从恶意广告到钓鱼欺诈,网络犯罪愈发严重。在此背景下,反病毒行业不断通过机器学习、主动防御、联动防御、信息共享等技术手段来应对这些网络犯罪行为,多措并举,但仍面临严峻挑战。
瑞星安全研究院院长叶超表示,瑞星一直以来都致力于AI技术的研究与落地,早在2012年瑞星就开始探索机器学习在反病毒中的应用,基于指令流的Malware-Crypter识别、PDF Exploits识别,同年,瑞星又尝试了基于决策树的恶意软件识别方案。
2016年,瑞星根据之前几年应用机器学习获得的经验,研发了高维度、大规模的基于随机森林的Windows恶意软件识别引擎-RDM+。高维度特征提取自文件结构、内容以及分析,训练样本达数千万(囊括了1亿以上的文件)。
坊间常说,“数据和特征决定了机器学习的上限。模型和算法只是逼近这个上限而已”。瑞星在研发RDM+时,主要的工作放在了特征工程上,设定了4778维的特征向量,这些特征来自文件基本指标、编译器分析、异常节表分析、PE结构各指标、关键数据熵、指令流及指令流分析以及代码数据分析。
模型设计上,RDM+采用“降维模型+预测模型”的双随机森林组合的方式,在实际预测过程中,降维模型负责高维度向量转换成低维度向量,并将该输出作为预测模型的输入,最终以预测模型的输出作为结果。这种方式一是解决了“在大规模、高维度样本集合上训练模型较为耗时”的问题,二是实现了“高频迭代的小规模样本近增量训练”的需求。
另外,误报是人工智能在恶意软件检测领域应用的最大障碍。即使模型的错误率是1%,这也是无法接受的。为此,在RDM+设计的初期就设定了一个原则:“宁可不报,也不误报”。
RDM+的运行表现目前来看达到了设计之初的要求,“降维模型”更新后的一星期之内,对训练集外的恶意软件检出率可以达到80~90%,误报率小于0.2%(部分灰色软件),对新产生的勒索软件的检出率可达92%以上。三个月之后整体检出率衰减约20%,误报率降至0.1%以下,但在勒索软件/Malware-crypter等特殊家族上并无明显衰减。
除了RDM+,瑞星正逐渐在传统的检测技术上全面叠加人工智能检测技术,首先是将人工智能应用到最重要的APT攻击检测领域上,对于主要的APT攻击投递载体,例如:Flash文件,PDF文件,MSOffice文件,都在进行对应的特征工程以及方案验证。
瑞星安全研究院院长叶超就人工智能在恶意软件检测领域的应用总结四点:
第一,人工智能可在恶意软件工业化处理的各个环节应用,并提高生产效率。
第二,应用机器学习时对最终目标的定位非常重要,瑞星的目标是让人工智能更多地去解决零日恶意软件的问题,而不是取代现有的检测技术。
第三,目前来看特征工程直接影响预测效果,更多地观察恶意软件演变的规律,选取针对性的特征,是让模型更准确的一个途径。
第四,误报依然是人工智能在恶意软件检测领域应用的主要阻碍,“误报控制”应该贯穿于整个设计、实施和应用过程。
虽然人工智能在恶意软件检测领域目前还不成熟,以“人工智能”为核心的“下一代”反病毒引擎目前也经常遭人诟病,但在全球恶意软件爆炸式增长、持续变化、高速迭代的今天,以纯粹的人工、简单的哈希或模糊哈希等方式来响应,是无法在持续的“猫鼠游戏”中获得优势的,因为攻击者总是走在防御者之前那么一点点。
而人工智能,恰恰可以让我们有机会走在攻击者前面那么一点点,同时让人从持续的“猫鼠游戏”消耗中解脱出来,将智慧发挥到更需要的领域。
目前,瑞星AI反病毒引擎已在瑞星全线产品中应用,产品防毒能力大幅提升,赛可达2017杀毒软件查杀能力报告显示,瑞星杀毒软件在“静态扫描”和“动态测试”两类中均取得第一,充分说明了瑞星的杀毒能力,接下来,瑞星还将继续更多的尝试,一是技术落地,逐步完成人工智能检测技术对传统检测技术的全面叠加,二是持续探索,尝试更多不同角度的特征工程和学习方案。