清华论坛实录|刘瑞宝:洞见数据内涵,提升公共安全研判能力

    xiaoxiao2024-03-28  10

    刘瑞宝:感谢主持人,也感谢清华RONG论坛。刚才大家听了李老师和赵老师讲的,比较高大上,我从高的地方往下跳,讲一些屌丝的东西。为什么我讲屌丝的东西呢?因为我认为大数据本身在于落地,我们今天就是从具体的大数据落地案例去给大家分享一下。

    首先看第一个,谁杀死的本拉登。美国突击队?其实是大数据杀死了本拉登,在这个事件中,美国的一家公司叫Palantir,服务于CIA、FBI、五角大楼、美国政府,他从一些蛛丝马迹中挖掘出了本拉登的位置。美国政府也很有意思,他们击毙本拉登以后对外的宣传照片里面,奥巴马坐在最角落的位置上,如果在中国,把国家领导人放在最角落的位置上,这个摄影师有问题。为什么他们用这张照片对外宣传?这其实是大数据分析的结果,通过在Twitter、Facebook上的调查,在乌尔都语地区,对这个事件持否定态度,情感分析,乌尔都语地区就是巴基斯坦、印度这些土著,这一块儿他用这个宣传照片。

    还看美国的另外一个事情,美国孟菲斯地区曾经做了这么一件事情,把公共电话亭从室外迁到室内,做了这么一个改变,通过大数据分析发现,孟菲斯地区的强奸案下降了30%,这就是数据在公共安全领域所做的改变。

    当然这样的案例有很多,通过大数据挖掘是不是解决所有了呢?也不是,波士顿爆炸案以后,美国也在找嫌疑人,有一天警察敲门了,他们家三口人,他爸爸查了一个背包,因为他愿意旅行,妈妈查了一个高压锅,儿子喜欢打游戏,查了炸弹,结果是高压锅、背包、炸弹,刚好是波士顿恐怖袭击的主要用法。有时候大数据分析可以给我们带来参考,这就是这家公司最后发现本拉登,通过人物关系去挖掘的。当然全球都面临恐怖威胁,包括我们国家的昆明、巴黎、布鲁塞尔。刚才赵老师也讲了,我们如何能够提前发现,而不是事后补救。这一块儿针对于我们在公共安全领域做的一些案例,跟大家分享。我们的分享就是把宽的放窄一点,针对于公安,怎么去打击犯罪。

    针对于公共安全领域,其实我们的数据量是很大的,但是苦于这么几个,首先是数据种类很多,比如说互联网上,比如每个人去各个窗口办事,这些数据都可以留下一些痕迹。这些数据的种类各不相同。

    二是我们的设备,处理这些数据的时候,存在一个性能问题,运行速度慢。

    三是我们缺少一个很好用的工具。数据在那里,你没有发现它的价值,数据就没有作用。

    四是我们的数据摆在那里,零乱地存放。有一次有一个政府的官员跟我们交流,说你跟我们交流一下大数据吧,我说交流什么大数据,他说我们那儿有多少T的数据,看看怎么处理,我去看了以后,确实有一两个T的数据,是以前所有文档的扫描件。这个利用价值是很低的,而且那个数据是散落在这些图象里面,变成了一种无序的数据,他的利用价值变低。如何让无序变成有序。

    五是我们的数据没有协同。比如某一个人,犯罪分子,犯罪嫌疑人,我们得到他的一些信息以后,其他的相关信息没有协同过来,比如说他有车,他的车辆信息在哪儿,行驶路径,针对这些都没有有效地协同。

    对于公共安全大数据整体处理的理解,我们要以多元异构数据资源为基础,刚好跟融是吻合的。最早领导跟我们讲,大数据要首先讲数据整合,现在领导不这么讲了,为什么呢?我们跟他们说,大数据阶段,先讲数据整合是不恰当的,不是说整合没有意义,先讲什么呢?应该先讲数据融合,融合跟整合不一样吗?融合跟整合的内涵还是不一样的,融就是我把各种数据放到一起组成一种新的数据价值,这是融合,而不是要拼命把别人的数据整到我这个系统里面。这一块儿我们就建立一些智能化、场景化、立体化和个性化的服务。这种服务也可以跨地区,跨业务部门。

    针对公共安全领域特别窄的一个就是打击犯罪,要考虑什么呢?针对打击犯罪要考虑这些事情。比如说犯罪的预测,我们能不能找到哪些人可能会有犯罪的倾向,以前犯罪的人员再犯罪的可能性有多大,甚至暴恐。比如说针对某一类人,我们会对他打分,不是你分高一定是犯罪嫌疑人,就是有这种倾向。

    二是情报研判,一会儿我们会分享一个案例,为什么现在我们讲情报研判呢?在公共安全领域,以前都是通过审讯去交代你的事情,现在我们的做法,审讯当然也是必要的,我们首先是通过系统的挖掘,把脉络理清以后,再跟你去交流。再有一个是网络的空间对抗,社会治安风险,数据的比对和研判,反恐等等。在这些数据的使用过程中,很重要的一个方向,就是针对于数据使用的安全。前一段我们出现了内部数据泄露的风险。比如说比较流行的几个事件,优衣库事件,这个人的身份被挖掘出来,就是内部系统把这个人的身份泄露出来的。针对这些情况,我们就有安全审计。现在我们的系统在使用过程中是相对安全,为什么呢?首先你使用这个系统要做人脸识别,你是谁,在什么时间,在哪台机器上使用的这个系统。在使用过程中,所有的操作都被保留痕迹,这一块儿是这个系统大概的应用领域。

    我们认为这种应用领域要掌握这么四个技术环节,作为技术公司,我们今天并不偏重于宏观,偏重于屌丝一层的技术。采集、管理、展现和管理这四个环节都要去处理。比如说现在采集的时候用了各种开源的工具,因为我们自己也做了一些。管理我们用很多架构统一的去管理,包括挖掘,NLP的技术也在这里面去实现、展现,我们用大量的可视化。这里面的四个环节,包括清洗、检索、比对、共享等技术,在这个系统里面得到了广泛的应用。我们推出了一个智能化、可视化、档案化的系统,这个系统最早的要求是什么呢?

    要求有几类,第一类是大数据的支撑,这个系统要求他的数据来源有公安的,检察院的,法院的,甚至有一些公开的和政府的。这些数据就是刚才我们说的,如何首先要把它融合到一起,这种融合不是简单的数据的罗列,而是要找到他们之间的关联关系,找到他们的厚数据。

    第二个环节是如何去挖掘和关联,在这里检索就是基础,通过检索去建模。前一段领导要求我们建这样的模型,所有的出入境数据,这是公安能够拿到的,所有的出入境数据放在那儿自我碰撞,如果某一个人连续两次出境,中间没有入境,或者连续两次入境,没有出境,这样的人要报警,什么概念呢?数据就在那里,这么一挖掘,就挖掘出了很多有问题的人。如果他乘飞机从北京去了昆明,乘其他交通工具又回了北京,这样多次,这样的人要报警,为什么报警,大家去想。

    展示一定是可视化的。当然,这个系统的安全是最重要的。再有一个,要求可视化,因为数据量很大,都把数据罗列出来,是没有意义的,包括了数据的安全,隐私保护,数据的外泄,抗攻击,为了防攻击是不跟外网连的,是绝对内网。

    我们分别看一下大数据的支撑要求,我们提出了几个层面,第一个就是数据的融合能力,第二个就是我们针对于数据量的支撑,现在要求热数据参与关联挖掘的数据达到几百亿,甚至上千亿。要求实时分析,比如说有一个犯罪嫌疑人,在这里面有一个异动,或者是等待抓捕人员,在系统里有一个异动,马上要实时地挖掘出来。再有一个是数据建模,在这个过程中,大量使用了新技术,包括NLP、关联分析等等。

    这张图就是针对关联挖掘里面NLP部分的展示,首先把一些文本的非结构化数据能够自动结构化,正文中出现了我们感兴趣的事情,人名、地名自动结构化,出现了一些关键点自动结构化。这个有什么好处呢?把原来的薄数据变成了厚数据,比如说这里面出现了某一个人名,这个人名以前有没有相应的活动,他会自动关联。这种关联甚至可以做各种形态的关联。

    第三是对这个做了可视化,这种可视化包括多层面的,包括关系图,包括统计图,包括时间轴,包括综合分析,这种分析我们在可视化里面,针对人员建立的各种档案,比如说一个犯罪嫌疑人,大家放心,如果你是很平常的人员,没人这么去分析你。如果你是犯罪嫌疑人,他就从各个维度上刻画,这就是人物刻画,甚至他在办案过程中,一些干警把一些办案里面的信息放进来跟这个结合,交互的挖掘和分析。比如说这里面有一个审讯记录,在这里面去挖掘和分析。

    第四,最重要的是安全,因为他的数据来源于一部分是外部,他上的是内网,我们要找一个安全的传输,单向的导入设备,同时有一个监控设备,这个监控设备一定任何人对他不能去修改的。

    具体到案例去分析一下,这张图是针对于大数据挖掘某一个嫌疑人他的一个活动轨迹范围,根据他的活动轨迹找他的团伙,看他在什么地方跟谁有什么交集,这就是针对于案件的侦破起了很好的作用。

    刚才这张图大家也看到了,针对于嫌疑人的各个维度的刻画,时间维度,关系人维度,资金链维度,综合关系维度都可以进行刻画,并且可视化展现出来。

    同时利用这些维度的刻画去挖掘某一个犯罪嫌疑人,他是不是有团伙作案,在团伙作案的过程中,哪个人是关键人物。他还可以通过旧有的数据去分析,在某一类案件中,哪些地区可能会出现高发。

    我们针对于某一个地区我们可以看某一个省,他的某一个市,哪个地区高发。某一个市里面的某一个区,哪儿高发,这些都是我们通过大数据挖掘去协助他们破案。当然,因为我们这个平台不好跟大家讲,只是我们做了多类数据的融合,160多类的数据,包括结构化、半结构化、非结构化的数据统一。

    快速高效,数据实时更新的,在百亿级的数据碰撞和检索里面能达到秒级,基本上热数据是500到600亿。

    搜索是基础,我们最大的问题就是数据量太大了,找不到有用的数据,搜索是我们的基础。

    关联挖掘使数据价值提升,最重要的是要分析和预测,这种分析和预测是通过一种可视化的模式去呈现出来的。

    这个是我们开发的一个新系统,刚才是针对数据用的,我们还有一个针对分析师用的,叫“水晶球”,考虑到它怎么去预测。这个系统包括什么呢?随便一个文章,可以自动拖进来分析,分析过程中可以人为标记,因为有标记了,对以前的数据就会自动建立关联和联系,从你这一条数据产生以前数据的关联。

    然后你可以多维度的展现这个数据和数据的关联,同时还可以结合地理信息系统去看到这些数据跟地理信息系统的结合,我们可以圈定某一个区域,这个区域在这个里面有什么样的表象。当然我们的目的是洞见一切可以感知的,挖掘其中的内涵,这就是我们系统的截图。这是针对于某一个系统,看看网络攻击状况的截图,其实背景是地球。

    因为时间关系,分享另外一个案例,12月7号,有一个很重要的事件,国家公布x租宝涉嫌非法集资,为什么在12月7号去把它公布了?这一块儿是我们起了很多的作用,我们建立了这样一个平台,通过大数据打击非法集资。这个数据来源于哪儿呢?这个最大量的数据来源于公开性的,只有很少一部分是第三方数据和国家给我们的,让我们一块儿去碰撞的数据。这个公开数据在哪儿呢?就在互联网,因为你只要做非法集资,一定要在网上做广告,所以我们就把这些公开的数据都拿下来。

    针对于涉众型经济犯罪,高智能化、网络化、区域化,潜伏期长的特点开发了这样一个系统,利用这些公开的资源,能够预测、研判。解决了原来面临的一些问题,比如说原来的情报来源单一,情报获取滞后等等。这些全是公开的数据吗?如果全是公开的数据也不可以,我们少量的跟政府有一个接口,比如说针对于某一个企业,要分析他的时候,政府会把这个企业的信息提供过来,包括法院、检察院,相关的一些信息会提供过来。

    这么几类信息,分成表征信息,行为信息,状态信息和利益信息,建立了这么一个平台。

    这个平台主要做的是实时、动态、大规模的线上线下的碰撞比对,因为互联网的数据是实时更新的,这里面就用到了一个机器学习的模型,机器学习的过程,首先我们是进行数据准备,什么叫数据准备呢?把以前非法集资的所有数据进行了一些分析,进行量化,看看在以前这些企业有什么特征,而且我们发现,这些企业随着时间的维度,特征会变化。比如某一段时间,他跟农产品有关,比如某一段时间,他跟石油期货有关,比如某一段时间,他跟贵金属有关。我们把这些关联关系通过旧的数据去挖掘,让机器去学习,建立了这一个模型,建立什么模型呢?建立了特征指标模型。这个特征指标来源于几个方面呢?

    主要的方面来源于五个维度,包括合规性、传播力、民众对他的情绪,这里面有大量的情感判断,收益偏移率,特征词等等。

    通过这几个维度得到一个量化的数值,我们叫“冒烟指数”,任何事情都有着火点,我们一定在没着火,冒烟的时候就预知预感他,并且对“冒烟指数”建立了这样一个等级。10分是蓝色,基本上是正常,从30分开始,黄色预警,60分开始橙色预警,80分基本上就爆发了。

    同时我们跟政府,国家的公共安全部门去合作,按照我们的数值汇报去打击,未来我们不仅仅为政府可以进行服务,未来我们认为,面向于金融消费者和金融投资者,我们可以建立防欺诈平台,这个就是我们系统真正的截图,北京这个用户登陆进来以后,首先看到北京地区,他在哪个地区风险最高,朝阳区、海淀区的风险最高。风险最高怎么来的?每个季度是什么样的,怎么去变化的,我们会自动生成Word和PDF的文件。针对于某一个事件,某一个企业,可以生成这样的文件。

    比如在20014年的时候,网金宝,他曾经达到了85分,这是红色预警了,在这个过程中是怎么变化的?每一个变化点是怎么改变的分值,我们都有模型去预报。网金宝这个平台从“冒烟指数”的变化就可以看出来,2014年5月份风险就已经很高了,6月份是直线上升的,必须在这个上面打击了,不仅仅报了这个指标,还要把他的投资关系,企业主体,关联公司,可能的人员有没有其他的关系,甚至于资金链断裂以后造成多大的经济影响,都有报告分析,包括企业家谱。

    去年的这个案例就是x租宝,最早的时候它相当光鲜,很多人一提P2P,x租宝还不错啊,为什么大家这么说呢?这些都是国家的主流媒体宣传,新闻网,甚至在央视新闻网,地铁站大量的广告,铺天盖地。但是我们在这里面一直去挖掘和分析他,包括企业的关联关系,企业法人之间的关系,我们得出了这样的结论。

    通过网上的P2P为幌子参与的非法集资。并且我们针对于网上的一些数据,预测他在2015年12月,借款金额总计达到700多亿,这都是通过他自己网站上的公开数据分析出来,他每天需要还款额,针对于这个系统我们整体的监控还是在我们的控制之中,包括整体分值达到70的时候,我们就已经给国家一个预警,最终他的分值达到了89分,不仅仅是x租宝,包括去年的大大,我们也进行了挖掘和分析。

    分析企业之间的关联关系图,从这两个案例中可以看出来,大数据针对公共安全是多个方面的,也许公共安全就在我们旁边。为什么x租宝这个事件也属于公共安全呢?因为它涉及的民众比较广,涉及的面比较大。在这个里面,我们分析的结果,就是要找到这些关联。

    我查询一下x租宝,把所有的信息罗列出来,这个平台是我们实时的截图,可以针对于各种应用去分析现有的数据,在现有的数据进行可视化的关联和展现,并且给出一定的结论,这个就是我们要分享的内容,针对金融监管平台,他的功能还很多,我们在这里面给出各种的报表,各种的分析实践,各种的图,针对某一个事件。时间的关系,在这里不做一一的赘述。

    这个系统我们认为是一种创新的社会治理的模式,通过大数据保证公众的钱袋子安全,通过大数据打击非法集资,通过这么多年数据的积累,业务的理解等等一些方面,建立了这样的平台,在这里欢迎各位老师和领导,到我们公司去参观指导,我们的公司叫拓尔思,英文就是TRS,欢迎大家访问我们公司的网站,谢谢大家!

    原文发布时间为:2016-05-18

    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

    相关资源:瑞宝P30写频软件
    最新回复(0)