原文标题:Subverting Website Fingerprinting Defenses with Robust Traffic Representation
原文作者:Meng Shen, Kexin Ji, Zhenbo Gao, Qi Li, Liehuang Zhu and Ke Xu
原文链接:https://www.usenix.org/conference/usenixsecurity23/presentation/shen-meng
视频链接:https://youtu.be/trMLnwZAqEM
发表会议:USENIX Security '23
笔记作者:孙汉林@安全学术圈
主编:黄诚@安全学术圈
1、引言
本文提出了一种高鲁棒网站指纹攻击方法——Robust Fingerprinting(RF),能够在多种防御方法下保持较高的识别准确率。RF攻击引入了一种新的流量表示方法——流量汇聚矩阵(TAM),结合了数据包的方向和时序特征,使用卷积神经网络(CNN)学习TAM中的关键特征。实验结果表明,相比目前最先进的Tik-Tok攻击方法,RF在平均准确率上提高了8.9%。此外,本文还提出了一种基于数据包填充和延迟策略的防御方法,能有效降低RF的识别准确率。
2、威胁模型
攻击者采用被动攻击的方式,于客户端本地嗅探和记录数据包,但无法修改、延迟、丢弃或解密数据包。攻击者利用抓取到的流量镜像,从多个网站流量中提取特征并训练监督分类器。当发起攻击时,攻击者捕获目标客户端与Tor网络通信的流量,提取特征并预测客户端访问的网站。
客户端可以部署不同的WF防御方法(如WTF-PAD、Front、Walkie-Talkie、Blanket等),且攻击者知道客户端部署的具体防御方法。
3、高鲁棒流量表示
流量表示是网络轨迹的抽象,WF分类器可以从中学习到不同的特征进行分类。现有的流量表示主要分为两类,统计特征和逐包特征序列。
统计特征从整个流量中提取统计信息,如数据包大小和间隔时间的最大值、最小值等,粒度较粗。 逐包特征序列是针对每个数据包提取特征,如方向、大小、时间戳等,粒度较细。
本文以3种经典的防御方法WTF-PAD、Front、Walkie-Talkie为例,使用信息泄露[1]分析技术,对防御后的流量特征进行分析,提取未被防御方法掩盖的鲁棒特征。
由上图可知,粗粒度的统计特征和细粒度的逐包特征,在不同防御方法下的信息泄露值差异很大,均不具备较强的鲁棒性。而Packet-Per-Second在WTF-PAD和Front上的信息泄露值与未防御的基本一致,具有一定鲁棒性。
基于以上观察,本文提出了一种高鲁棒流量表示方法,流量汇聚矩阵(TAM)。TAM将流量数据按固定长度的时间片划分,统计每个时间片内上行和下行的数据包个数,并将其被转化为一个2×N矩阵,如下图所示。
数据包填充和延迟是常见的防御策略,但它们对流量汇聚矩阵(TAM)来说并不完全有效。数据包填充改变包序列的统计或逐包特征,而TAM通过汇聚每个时间片的包数量,能容忍多次填充带来的变化;数据包延迟改变包序列的时间特征,但由于延迟通常较小,对同一时间片内包数量不会有明显影响。
4、WF分类器
WF分类器使用的是卷积神经网络(CNN) 模型。模型由以下三个主要组件构成:
2D卷积块:用于从TAM的行和列中提取局部特征。例如,同一列的元素表示在同一时间片中进出的包数量,反映了客户端和服务器之间的交互;而同一行的相邻元素表示在连续时间片内同一方向的数据包数量,反映了流量的波动情况。
1D卷积块:在经过两个2D卷积块后,TAM会被转换为1D特征图(通过2×2最大池化层)。1D卷积块的作用是从这些1D特征图中提取出更复杂的、更高层次的特征,从而帮助模型学习更抽象的特征。
全局平均池化(GAP)层:GAP层通过计算每个特征图的平均值来替代全连接层,从而减少参数数量,避免过拟合。
模型具体构成如下图所示:
5、实验评估
为了验证RF对网站指纹防御方法的攻击效果,作者利用2种公开数据集[2][3]在9种防御方法上进行了封闭世界场景的评估,实验结果显示,RF在所有防御方法上的攻击效果均优于现有方法。
除此之外,作者进一步评估了开放世界场景中RF攻击的鲁棒性,在开放世界场景中,客户端不仅可以访问被监控的网站,还可访问未被监控的网站。攻击者推断客户端是否访问了被监控的网站,如果访问了,则推断访问了哪些被监控的网站。本文将未被监控的网站看作一类,通过一次多分类任务识别具体的被监控网站和未被监控的网站。
6、应对措施
除了RF攻击方法,本文还提出了一种基于扰动流量(Disturbing Traffic)的WF防御方法。该方法通过向原始流量中注入冗余数据包和延迟真实数据包,改变流量模式,以迷惑WF分类器。
防御的核心思想是从历史流量数据中提取关键特征序列,然后通过数据包填充和延迟操作,使原始流量在时间特征和包序列上模仿其他网站的流量模式。为了识别对RF攻击具有重要影响的特征区域,本文采用Class Activation Mapping (CAM)[4]方法来提取TAM(流量特征矩阵)中的关键信息区域。通过调整每个时间片内的发包数,使其更接近目标特征区域的模式。这种防御方法有效降低了RF攻击的识别准确率。
References
[1] Li, Shuai, Huajun Guo, and Nicholas Hopper. "Measuring information leakage in website fingerprinting attacks and defenses." Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. 2018.
[2] Sirinam, Payap, et al. "Deep fingerprinting: Undermining website fingerprinting defenses with deep learning." Proceedings of the 2018 ACM SIGSAC conference on computer and communications security. 2018.
[3] Rahman, Mohammad Saidur, et al. "Tik-tok: The utility of packet timing in website fingerprinting attacks." arXiv preprint arXiv:1902.06421 (2019).
[4] Zhou, Bolei, et al. "Learning deep features for discriminative localization." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com