Predicting Impending Exposure to Malicious Content from User Behavior

xiaoxiao2023-10-20 167

Predicting Impending Exposure to Malicious Content from User Behavior

摘要知识点研究点的提出论文内容相关工作数据集HTTP 流量HTTP 日志处理在线调查实验内容恶意暴露self-reportSession为单位下的暴露预测创新点困难点

CCS 2018 关键词： malicious content on the web、HTTP流量

摘要

许多计算机安全防御都是被动的 - 它们仅在发生安全事件时或之后立即运行。最近的努力已经尝试在安全事件发生之前对其进行预测，以使防御者能够主动保护他们的设备和网络。这些努力主要集中在长期预测上。我们提出了一种系统，可以在单个浏览会话级别实现主动防御。通过观察用户行为，它可以预测他们是否会在暴露之前几秒钟暴露于网络上的恶意内容，从而为主动防御打开机会之窗。我们使用2017年大型蜂窝网络提供商的20,645名用户生成的三个月的HTTP流量来评估我们的系统，并表明它可以提供帮助，即使只有非常低的误报率可以接受，并且尽管制作困难“即时”预测。我们还通过调查询问人口统计和安全相关问题，直接与用户联系，评估自我报告数据用于预测恶意内容暴露的效用。我们发现自我报告的数据可以帮助预测长时间的暴露风险。然而，即使是长期的，自我报告的数据也不像准确预测暴露的行为测量那么重要。

知识点

http refer：HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器籍此可以获得一些信息用于处理。比如从我主页上链接到一个朋友那里，他的服务器就能够从HTTP Referer中统计出每天有多少用户点击我主页上的链接访问他的网站。

研究点的提出

打开恶意网站带来的安全隐患

传统：blacklists、nti-wiruses

论文内容

根据用户行为来预测在接下来的时间是否会导致安全隐患发生

来自20600用户三个月的数据，我们记录了移动用户在线恶意暴露的程度（例如，恶意软件），表明至少有11％的用户在某些时候暴露在外在我们的收集间隔声明webpage黑名单的局限性我们的测量表明暴露在恶意网页及没有暴露的浏览模式千差万别logistic regression估计自我报告数据在多大程度上可以提供有意义的风险暴露指标计了一个长期预测分类器，使用基于过去行为的特征，确定给定用户在一个月内暴露于恶意的风险将我们从所有这些实验中积累的知识结合起来，设计一个短期分类器，该分类器是根据可实时轻松计算的特征构建的，可以在30秒左右的时间内以合理的准确度预测恶意页面的暴露；使用不同的数据源来说明假阳性会转为真阳性

数据集

GSB：google safe browsing v3 VirusTotal：combines blacklist i-Filter filtering system

KDDI：日本移动互联网提供商

HTTP流量用户调查 self-report

HTTP 流量

2017.4.1 - 2017.6.30 HTTP log：HTTP request时间戳、URL、HTTP refered、upload和download 字节数、UA、用户ID局限性：没有HTTP内容(POST中send的内容)或HTTP requests，只包括http requests content-type：text/html；蜂窝网络，没有wifi流量企业网络使用“中间人”方式收集HTTPS流量

HTTP 日志处理

browsing session：由同一用户进行的临时连续的HTTP请求集 - 相关的用户代理改变（表示用户交换的浏览器） - 用户空闲 - 即不参与后续的HTTP请求 - 超过20分钟 - session关闭

在测量期间每天下载GSB快照（GSB：phishing、walware URL）

GSB：钓鱼 & 恶意urls：导致用户下载恶意软件或扩展程序，广告和点击欺诈页面

Virus-Total：黑名单，继续核对GSB中的分类

将HTTP请求分类（i-Filter filtering system ）

在线调查

验证用户个人报道是否能预测他们的行为

邀请600000人收到23419回复总结分布特点：性别、年龄、操作系统提出几个个人问题

实验内容

恶意暴露

基于HTTP logs 问题：

确定移动用户暴露于恶意内容的程度：11%暴露，2172中1995钓鱼网站、153恶意网站。证明在页面被列入黑名单之前有不法分子危害设备的“机会之窗”，并记录该窗口合理的大小： - 方法：通过追溯检查遥测数据中恶意软件签名的证据，可以追溯到反病毒公司知道这些签名之前的时间 - 检查日志中在GSB数据集记录之前的 url - 评估网页被GSB包含的时间 - 结论：有证据表明，在某些页面被GSB标记为恶意的情况下，可能存在数天或数周的不可忽视的延迟。

3个月，负x表示网页没有包括在GSB数据集中，正表示包括

探索暴露和未暴露用户之间多个维度的行为差异 - 识别恶意：无法准确了解用户何时被曝光。我们知道用户何时请求给定页面，并且我们知道该页面何时被GSB标记为恶意页面；考虑用户在时间t向URL u发出HTTP请求。如果它在任何时间t’出现在GSB数据库中，则t被认为是恶意的，因此t≤t’<t +τ。 τ-malicious页面是目前可能被标记为良性的网页，但是（在τ内）将被标记为恶意网页。 τ越小，危险性越高，因为页面实际上已经恶意的概率随着τ→0而增加。 - 结论：预测分类器不能完全依赖于先前的曝光，因为我们的用户语料库的很大一部分显示缺乏“重复”曝光。

用户暴露恶意网页 request、session数量根据τ的值，在三分之一到一半的暴露用户之间只能访问一个被视为恶意的页面; 对于τ的正值，超过四分之一的用户对恶意页面发出三个或更多请求。图2表明，对于τ的正值，一半到三分之二的暴露用户根据为τ选择的值在单个会话内执行所有暴露的请求; 其余部分显示了长尾分布。如图所示，这种行为通常对于我们选择的τ值的变化是稳健的，尽管与图1一致，τ= 0似乎过于保守。

计算出过去访问过至少x次恶意页面的暴露用户将来访问恶意页面的概率

无论为τ选择的值如何，未暴露的用户通常每天要求的页数远远少于暴露的用户。我们观察到会话的类似趋势 - 未曝光用户参与的会话数量远远少于暴露用户

Exposed users are more active than unexposed users— they make more HTTP requests, and engage in more, longer, browsing sessions.

Exposed users tend to browse the Internet more frequently at night and outside of working hours.

Certain categories of content may be indicative of higher risk exposure.

self-report

Q：我们能否根据调查回复对用户的风险敞口建立有意义的见解？

建立logits 回归模型利用report中的问题和是否暴露进行建模

（1）性别; （2）用户设备上存在防病毒; （3）用户是否从非官方市场下载应用程序; （4）用户是否继续浏览浏览器的警告; （5）用户是否报告遭受妥协; （6）RSeBIS主动意识得分（通过总结用户对李克特量表问题的反应并归一化到[0,1]范围）。

Session为单位下的暴露预测

特征：

session 长度/sHTTP request请求数字节传输数量HTTP requests to 非Alexa 100000的数量是否在周末24小时（24个特征）操作系统（6个）：安卓 or IOS、Chrome or Safari、其他OS、其他浏览器DNN

发现GSB在数据收集期间未标记的许多URL最终（即数周或数月之后）被GSB或VirusTotal [15]使用的其他列表标记为可能是恶意的

创新点

根据用户行为对用户是否会被暴露在恶意网页而进行预测深入理解暴露/非暴露用户之间的行为差异

困难点

实验复现困难虽然自我报告的数据有助于预测长期暴露风险，但仅依靠自我报告的数据只能得出中等准确的预测蜂窝数据 & 隐私保护要求减少用户的训练数量

最新回复(0)