基于随机森林的恶意代码分类研究开题报告

2022-01-14 20:28:15

全文总字数：4208字

1. 研究目的与意义及国内外研究现状

目的：恶意代码问题，不仅使企业和用户蒙受了巨大的经济损失，而且使国家的安全面临着严重威胁。而目前传统的两种恶意代码分析技术——静态分析及动态分析，或不能检测出新变种，或所耗时间较长，或准确率不高，都不足以满足如今的需求。本论文在恶意代码灰度图像以及opcode n-gram模型的基础上提取特征，用该特征训练随机森林，对样本进行分类。本文旨在能够在短时间内分析处理超大数据量的恶意代码，并且提高分类准确率。
意义：恶意代码是一个庞大的家族，囊括了病毒、蠕虫、特洛伊木马等十几种大类别。自1988年第一例蠕虫给美国政府造成近亿美元的损失之后，恶意代码被越来越多地利用在经济、政治、军事上，成为一种信息战、经济战中的重要手段。而且随着黑客技术的发展，恶意代码在传播的过程中会不断发生变形来躲避相关软件的查杀，所以，同一种恶意代码的数量急剧攀升。恶意代码的多样性、隐蔽性以及快速传播性常常打得检测系统措手不及，因而造成无法预估的损失。而随机森林正能帮助技术人员逃离这种窘境，相比于传统分析方法，它不仅提高了检测效率，而且能够及时、高效且准确地对大量恶意代码样本进行检测，使计算机或技术人员能够及时发现恶意代码，避免造成损失。

国内外研究现状

随着大数据分析的发展，人们发现机器学习对于恶意代码的检测有着很好的效果。而其中之一的随机森林不仅训练速度快、容易实现，而且泛化能力强。基于随机森林的恶意代码分析技术正一步步走入大家的视线。

2004年，tony等人在他们的论文中提出将n-gram应用于恶意代码的识别分类。他们介绍了一个框架，该框架使用基于bytecode的n-gram方法来检测恶意代码。实验结果显示，在n取3，选取全体出现频次最高的1500个3-gram作为特征时，在测试集上的准确率是最高的，高达98%。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本论文采用基于随机森林的恶意代码分析技术，采用该方法最大的优势就是可以准确、快速地对恶意代码进行识别分类，并且可以发现部分新变种。本文对kaggle上提供的恶意代码样本的利用ida反汇编工具生成的.asm文件进行两种特征提取：

(1).asm文件灰度图像特征。恶意代码的灰度图像概念最早由nataraj等人于2011年在他们的论文[3]中提出来的。他们提出将恶意代码的二进制文件每读取8位为一个无符号整型向量，然后组织成一个二维数组，最后把它转化为一个灰度图像。本文将恶意代码.asm文件样本转化为一个十六进制文件，然后组织成一个二维数组（数组元素对应文件中的每一个字节），最后把它转化为一个灰度图像。使用某种标准提取灰度图像中的特征。

(2)opcode n-gram特征。n-gram是自然语言处理领域的概念，早期的语音识别技术和统计语言模型与它密不可分。将n-gram应用于恶意代码识别的想法最早由tony等人在2004年的论文n-gram-baseddetection of new malicious code 中提出，不过他们的方法是基于bytecode的。2008年moskovitch等人的论文[2]中提出利用opcode代替bytecode更加科学。本文基于opcode n-gram模型，提取总体频次最高的k个n-gram作为特征。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 实施方案、进度安排及预期效果

实施方案：本论文使用python对恶意代码样本的.asm文件进行特征提取实现。对于在.asm文件上生成的图像，选取前3000个像素值作为特征。对于opcode n-gram特征，本论文将总体出现频数最大的k个n-gram（n分别选取2,3,4，k分别取500,700,900,1100,1300,1500）作为特征，选择分类效果最好的一组n，k值进行下一步实验。分别对于单种特征训练随机森林模型，再对两种特征相结合的情况训练随机森林。

进度安排：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

[1] kang b j , yerima s y , sezer s , et al. n-gramopcode analysis for android malware detection[j]. ijcsa, 2016.

[2] moskovitch r , feher c , tzachar n , et al. unknownmalcode detection using opcode representation[j]. 2008.

[3] l. nataraj, s. karthikeyan, g. jacob, and b. s.manjunath. malware images: visualization and automatic classication. inproceedings of the 8th international symposium on visualization for cybersecurity, vizsec ’11, pages 4:1–4:7, new york, ny, usa, 2011. acm.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码