学术明星Michael Jordan解读：思维层与数据科学革命的关系

xiaoxiao2022-05-18 330

联合编译：Blake、高斐

编者注：Michael I. Jordan教授是加州大学伯克利分校（University of California, Berkeley）电子工程系、计算机科学系以及统计系的杰出教授。他在亚利桑那州立大学（Arizona State University）获得了数学硕士学位，并且在1985年从加利福尼亚大学圣地亚哥分校（University of California, San Diego）获得了认知科学博士学位。自1988年到1998年，Michael I. Jordan在麻省理工学院（MIT）任教授，他的研究方向包括了计算学、统计学、认知及生物科学，最近几年集中在贝叶斯非参数分析、概率图模型，谱方法、分布式计算系统中内核机及其应用问题、自然语言处理、信号处理和统计遗传学等问题上（几乎涵盖了大部分机器学习中的内容）。

Michael I. Jordan教授是美国科学院院士（National Academyof Sciences）、美国工程院（National Academy of Engineering）院士和美国艺术和科学学院（American Academy of Arts and Sciences）院士。他被数理统计研究所任命为Neyman Lecturer 和Medallion Lecturer。在2016年，他获得了IJCAI卓越研究奖。之前的2015年，他获得了David E. Rumelhart奖；在2009年，他获得了ACM/AAAI的Allen Newell奖。同时，他是AAAI、ACM、ASA、CSS、IEEE、IMS、ISBA和SIAM的成员。

曾在Michael I. Jordan教授学习过的不少学生已有不少成长为领域中的大牛，包括深度学习中的大神、蒙特利尔大学教授Yoshua Bengio，现任百度美国研究员首席科学家、斯坦福大学教授Andrew Ng（吴恩达），还有学界大牛斯坦福大学教授Percy Liang等人。本文是Michael I. Jordan教授在UC Berkeley有关计算思维、推理思维还有数据科学的演讲内容整理。

论计算思维、推理思维和“数据科学”

Michael I Jordan

加州大学伯克利分校（University of California, Berkeley）

举例：一份工作描述（大约在2016年）

如果你是一名来自伯克利的毕业生，当你毕业之后去硅谷可能会遇到的需求。

老板：“我需要一个大数据系统，使用个性化的服务来替换原来的经典服务。”

“这个系统对于任何一个人来说都要良好运行，我可以接受一点点错误但是不能有那些会让我们尴尬的愚蠢错误。”

Michael I Jordan：这意味着要将你的错误率降到特别低的程度，如果正确率有99%，那另外1%的用户遇到那些错误也是相当庞大的一个数字。

“它应该和原来的经典服务运行的一样快。”

Michael I Jordan：不能比原来的服务慢，而且还要在适当的预算中。

“当我们收集到更多的数据时它只能变快，特别是不能变慢。”

Michael I Jordan：当数据量增加时，错误率也会相应的增大，不一定数据越多速度会越快。

“在这个方面会有很多人关注严隐私层面的问题，这些人里面包含很多不同的客户。”

观念上的挑战

数据科学十分要求计算思维和推理思维的完全融合（推理思维出现才300年左右，已经开始拥抱各种思想，可以互相融合）

计算思维意味着什么

抽象、模块化、可扩展性、鲁棒性等

推理思维意味着什么

在数据背后考虑真实世界的现象问题

考虑到产生数据的采样模式

开发程序将从数据“向后”反推到底层现象

这些挑战令人畏惧

计算科学与统计中的核心理论是分别发展的，存在一个油与水的问题(互不相容的因素)

核心统计理论中没有运行时间和其它计算资源的位置

核心计算理论中没有统计风险的位置

警告：前方需要大量数学知识

第一部分——推理与隐私

隐私和数据分析

人们一般不愿意他们的个人数据在不受控制的情形下被使用，同时会担心他们的隐私将会损失多少。

“隐私损失”能够进行量化

我们想要将隐私损失与我们能从“数据分析”中所得的价值进行交易

问题就变成了将这些价值进行量化并将其与隐私损失并列在一起

隐私

疑问——数据库——私人数据库

计算思维，但不是推理思维（举例：数据给出的是人们的年纪、身高、体重以及血压，是否应该他们药物治疗，他们还能活多久？）

推理思维

将两者融合起来

隐私碰上推理问题

私人数据分析极大极小论

让n来表示数据点的量，d来表示参数空间的维度，a表示不同的隐私参数

原理：如果我们将n替换成有效地样本大小，隐私意识极大极小风险与经典的极大极小风险相同

简介：隐私均值估计

举例：患者上医院的估计原因

药物滥用入院治疗的患者

对引发患病率不同的物质预估

简介：均值估计

优化机制？

非隐私观察：人们有时不想分享一些隐私数据，对此，我们应当通过什么办法进行隐私数据分析？

观点1：增加重尾噪音，以独立噪音（例如，拉普拉斯机制）为例，通过这种途径，便能够获得一手数据

优化机制

从集合{0,1}中统一提取随机向量v

统一从集合{0,1}中提取v

当概率为时，其中α为微分隐私参数，选择接近X的v和1-v

否则，选择远离X的v和1-v

实证证据

额外数据为绿色曲线，对应对数刻度的蓝色曲线反映了该优化机制。绿色曲线和蓝色曲线的走势显示出额外数据与优化数据之间明显的差异。

估计由于不同原因进出急诊室的比例

数据源：滥用药物预警网络

第二部分：推理与压缩

沟通约束

大数据现象使分布式存储数据具有必要性（因而，Michael在数据分析系统中对数据添加一定的限制，即压缩(compression)）。

独立数据收集（例如，医院）

隐私

设置：每一个m智能体的样本数量为n

信息传输到融合中心

问题：沟通与统计效用之间的权衡？

何为大数据现象？

验证模式的科学（例如，粒子物理学）

推理问题：存在大量干扰性变量

解释模式的科学（例如，天文学，基因组学）

推理问题：存在大量的假说

衡量人类活动，尤其是在线活动，将产生大型数据集，这些数据集可用于个性化或用于开拓市场

推理问题：许多不为人知的取样框架（具有多样性），复合式损失函数

存在计算方面的问题

最为显著的是，计算方面的问题与推理方面的问题相互影响。

极大极小沟通理论(Duchi, Jordan, Wainwright & Zhang, 2015)

将be 限制在B比特范围内

B约束范围内沟通的最大最小风险如上图所示。

简介：均值估计

在正态局部集θ中计算平均估计值

原理：当每一个智能体的样本数量为n时，最大最小率如上图所示。

原理：当每一个智能体的样本数量为n时，B约束范围内沟通的最大最小率如上图所示。

讨论

在处理数据科学问题中出现了许多概念和数学上的挑战

面临这些挑战要求在“计算思维”和“推理思维”中建立良好的联系

在计算和推理领域的基础层面建立联系

专利

最新回复(0)