UMVD-FSL Unseen Malware Variants Detection Using Few-Shot Learning

摘要

作为发起网络攻击的工具，不断增加的恶意软件变体对互联网络社区构成了重大威胁。基于传统机器学习技术的检测方法需要大量的样本来进行训练。然而，在现实世界中，如在新攻击出现的早期阶段，只能获得少量的恶意样本。在上述场景中应用数据密集型的传统方法会导致严重的过拟合问题。因此，需要进行少样本检测。在论文中，提出了UMVD-FSL，一个基于少样本学习的框架，用小的数据检测不可见的恶意软件变体。我们从由恶意软件变体和良性应用程序生成的网络流量数据开始，然后将它们转换为灰度图像。基于原型的少样本学习模型以灰度图像作为输入，利用元训练来推广元学习器，以适应新的任务。当出现一个新的样本时，该模型通过计算到每个类的原型表示的距离来执行分类。

论文贡献

提出了一种基于少样本学习的方法，在不断变化的网络环境中检测看不见的恶意软件变体。方法结合了网络流量数据的图形表示和基于原型的少样本学习框架。据作者所知，这是通过分析不同恶意软件的网络流量数据，来解决在新的恶意软件出现的初始阶段缺乏训练样本的问题的第一个解决方案
所提出的方法不使用与内容相关的信息，因此它不仅适用于未加密的流量分析场景，而且可以满足当前日益增长的对加密流量分析的需求。同时，它满足了网络安全领域的一个典型和实际案例的要求，即当难以或不可能获得足够的带有监督信息的例子时，需要避免模型的过拟合问题。
该方法在所有子任务上的性能最好。当用于检测来自同一网络环境的恶意软件变异时，每个类只有5个训练样本，该方法可以达到高达97.68%的准确率和97.10%的f1值。当用于检测来自不同网络环境的恶意软件变异时，我们的方法的最高精度和相应的f1值分别为97.65%和96.95%。

特征主要有灰度图像特征、字节/熵直方图，传统特征工程。使用三种深度学习子模型来接受这三种模式的特征，并使用另一个深度学习子模型来学习和预测上述三个子模型的输出。换句话说，整体的深度学习模型实际上包含了四个具有不同功能的深度学习模块，可以单独或同时执行。

方法模型

总结

该文采用了一种基于少样本学习的方法，UMVD-FSL，用于在给定有限数量的恶意样本时进行看不见的恶意软件变异检测。我们将由恶意软件变体和良性应用程序生成的网络流量数据的图形表示与一个基于原型的少样本学习框架相结合。我们首先使用数据预处理，将原始流量数据转换为灰度图像，作为我们的少样本学习模型的输入。之后，该模型采用元学习作为训练策略。接下来，它使用神经网络自动从灰度图像中提取特征，并将嵌入空间中来自同一类的样本的平均值作为相应类的原型。

论文认为认为一个新的样本属于对应类的原型与样本之间距离最小的类。为了验证测框架和比较方法的普遍性和鲁棒性，传统互联网和机器人移动平台等两个典型场景的真实数据集上进行了一系列实验。