CCS 2018 关键词: malicious content on the web、HTTP流量
许多计算机安全防御都是被动的 - 它们仅在发生安全事件时或之后立即运行。最近的努力已经尝试在安全事件发生之前对其进行预测,以使防御者能够主动保护他们的设备和网络。这些努力主要集中在长期预测上。我们提出了一种系统,可以在单个浏览会话级别实现主动防御。通过观察用户行为,它可以预测他们是否会在暴露之前几秒钟暴露于网络上的恶意内容,从而为主动防御打开机会之窗。我们使用2017年大型蜂窝网络提供商的20,645名用户生成的三个月的HTTP流量来评估我们的系统,并表明它可以提供帮助,即使只有非常低的误报率可以接受,并且尽管制作困难“即时”预测。我们还通过调查询问人口统计和安全相关问题,直接与用户联系,评估自我报告数据用于预测恶意内容暴露的效用。我们发现自我报告的数据可以帮助预测长时间的暴露风险。然而,即使是长期的,自我报告的数据也不像准确预测暴露的行为测量那么重要。
打开恶意网站带来的安全隐患
传统:blacklists、nti-wiruses根据用户行为来预测在接下来的时间是否会导致安全隐患发生
来自20600用户三个月的数据,我们记录了移动用户在线恶意暴露的程度(例如,恶意软件),表明至少有11%的用户在某些时候暴露在外在我们的收集间隔声明webpage黑名单的局限性我们的测量表明暴露在恶意网页及没有暴露的浏览模式千差万别logistic regression估计自我报告数据在多大程度上可以提供有意义的风险暴露指标计了一个长期预测分类器,使用基于过去行为的特征,确定给定用户在一个月内暴露于恶意的风险将我们从所有这些实验中积累的知识结合起来,设计一个短期分类器,该分类器是根据可实时轻松计算的特征构建的,可以在30秒左右的时间内以合理的准确度预测恶意页面的暴露;使用不同的数据源来说明假阳性会转为真阳性移动恶意软件在多大程度上构成实际威胁
移动恶意软件的流行程度系统和网络的保护:先前提出的替代方案仅在暴露时间或之后不久进行干预。 相反,我们建议预测可能导致感染和数据泄露的事件预测安全事件发生:短时间内预测暴露几率用户行为影响安全GSB:google safe browsing v3 VirusTotal:combines blacklist i-Filter filtering system
KDDI: 日本移动互联网提供商
HTTP流量用户调查 self-reportbrowsing session:由同一用户进行的临时连续的HTTP请求集 - 相关的用户代理改变(表示用户交换的浏览器) - 用户空闲 - 即不参与后续的HTTP请求 - 超过20分钟 - session关闭
在测量期间每天下载GSB快照(GSB:phishing、walware URL)
GSB:钓鱼 & 恶意urls:导致用户下载恶意软件或扩展程序,广告和点击欺诈页面
Virus-Total:黑名单,继续核对GSB中的分类
将HTTP请求分类(i-Filter filtering system )
验证用户个人报道是否能预测他们的行为
邀请600000人收到23419回复总结分布特点:性别、年龄、操作系统提出几个个人问题基于HTTP logs 问题:
确定移动用户暴露于恶意内容的程度:11%暴露,2172中1995钓鱼网站、153恶意网站。证明在页面被列入黑名单之前有不法分子危害设备的“机会之窗”,并记录该窗口合理的大小: - 方法:通过追溯检查遥测数据中恶意软件签名的证据,可以追溯到反病毒公司知道这些签名之前的时间 - 检查日志中在GSB数据集记录之前的 url - 评估网页被GSB包含的时间 - 结论:有证据表明,在某些页面被GSB标记为恶意的情况下,可能存在数天或数周的不可忽视的延迟。3个月,负x表示网页没有包括在GSB数据集中,正表示包括
探索暴露和未暴露用户之间多个维度的行为差异 - 识别恶意:无法准确了解用户何时被曝光。 我们知道用户何时请求给定页面,并且我们知道该页面何时被GSB标记为恶意页面;考虑用户在时间t向URL u发出HTTP请求。如果它在任何时间t’出现在GSB数据库中,则t被认为是恶意的,因此t≤t’<t +τ。 τ-malicious页面是目前可能被标记为良性的网页,但是(在τ内)将被标记为恶意网页。 τ越小,危险性越高,因为页面实际上已经恶意的概率随着τ→0而增加。 - 结论:预测分类器不能完全依赖于先前的曝光,因为我们的用户语料库的很大一部分显示缺乏“重复”曝光。用户暴露恶意网页 request、session数量 根据τ的值,在三分之一到一半的暴露用户之间只能访问一个被视为恶意的页面; 对于τ的正值,超过四分之一的用户对恶意页面发出三个或更多请求。 图2表明,对于τ的正值,一半到三分之二的暴露用户根据为τ选择的值在单个会话内执行所有暴露的请求; 其余部分显示了长尾分布。 如图所示,这种行为通常对于我们选择的τ值的变化是稳健的,尽管与图1一致,τ= 0似乎过于保守。
计算出过去访问过至少x次恶意页面的暴露用户将来访问恶意页面的概率
无论为τ选择的值如何,未暴露的用户通常每天要求的页数远远少于暴露的用户。 我们观察到会话的类似趋势 - 未曝光用户参与的会话数量远远少于暴露用户
Exposed users are more active than unexposed users— they make more HTTP requests, and engage in more, longer, browsing sessions.
Exposed users tend to browse the Internet more frequently at night and outside of working hours.
Certain categories of content may be indicative of higher risk exposure.
Q:我们能否根据调查回复对用户的风险敞口建立有意义的见解?
建立logits 回归模型利用report中的问题和是否暴露进行建模
(1)性别; (2)用户设备上存在防病毒; (3)用户是否从非官方市场下载应用程序; (4)用户是否继续浏览浏览器的警告; (5)用户是否报告遭受妥协; (6)RSeBIS主动意识得分(通过总结用户对李克特量表问题的反应并归一化到[0,1]范围)。
特征:
session 长度/sHTTP request请求数字节传输数量HTTP requests to 非Alexa 100000的数量是否在周末24小时(24个特征)操作系统(6个):安卓 or IOS、Chrome or Safari、其他OS、 其他浏览器DNN发现GSB在数据收集期间未标记的许多URL最终(即数周或数月之后)被GSB或VirusTotal [15]使用的其他列表标记为可能是恶意的
