《大数据原理:复杂信息的准备、共享和分析》一一0.2 大数据VS小数据

    xiaoxiao2021-04-17  198

    0.2 大数据VS小数据大数据不是已经膨胀到一个电子表格无法装下的小数据,也不是碰巧变得非常大的数据库。然而,一些习惯于处理小数据集的专业人士认为他们的电子表格和数据库技巧也适用于大数据资源,不需要掌握新的技巧或使用新的分析范式。从他们的角度,当数据变得越来越大时,只需要计算机去适应(计算速度更快、信息获取更多、存储容量更大等),大数据并没有摆出一些特殊难题以致于一台超级计算机都无法解决。这种看待大数据的态度在数据库管理员、程序员和统计学家中普遍存在,但这是反生产力的。长此以往,将导致软件缓慢甚至无效,高投入低回报,数据分析能力不佳,甚至产生无用且不可逆的大数据资源缺陷。让我们来看几个一般性差异,这些可以帮助我们区分大数据和小数据。1.目标小数据―常用来回答某个特定问题或服务于某个特定目标。大数据―通常在思想上围绕一个目标而设计,但这个目标是可变的,摆出的问题也是千变万化的。这里有一个简短的、虚构的大数据资助基金,其目标是把来自渔业、海岸警卫队、商业航运、沿海管理机构的持续增长的数据收集起来,以支持下半岛的各种政府和商业管理的学习研究。在这个虚构的事件中,有一个模糊的目标,但这个目标显然没有办法指明大数据资源具体包含哪些内容,也无法完全解释大数据资源中的那些多种多样的数据以何种组织形式存在,如何与其他数据资源发生联系以及如何利用其进行数据分析。无论是谁都不能详述大数据的最终命运,通常来讲,大数据总是给我们带来惊喜。2.地点小数据―通常,小数据属于某个机构,常常存储在某台电脑中,有时也会存储在某个文件夹中。大数据―通常通过电子空间传输,被分配到多个网络服务器上,存在于地球的任何地方。3.数据结构和内容小数据―通常包含高度结构化的数据,数据域被限制在某个单一的学科或分支学科之内。这些数据通常来自一个顺序电子表格,其记录格式是统一的。大数据―必须有吸收非结构化数据的能力(如自由文本、图像、视频、音频、实体对象等)。数据源的内容也许跨多个学科,而其中每个独立的数据对象又有可能与其他大数据资源的数据相关联。4.数据准备小数据―在很多情况下,数据使用者从其个人的目的出发准备数据。大数据―数据来自众多多样化的数据源,并由很多人来准备。数据的使用者很少是该数据的准备者。5.寿命小数据―当数据项目结束时,小数据保存的时间有限(很少超过研究数据的传统学术寿命,即大概7年),然后被擦除。大数据―大数据项目使用的数据通常需要永久保存。理想情况下,当原始资源寿命结束时,存储在大数据资源中的数据将被吸收到另一个资源池中。很多大数据项目累积的数据会延伸到未来和过去(例如遗留数据)。6.测量小数据―通常小数据使用一个实验协议来进行测量,且该数据可由某个标准单元集描述。大数据―众多不同类型的数据以多种不同的电子格式传输着。当数据可测量时,测量结果可通过多种协议获取。对数据管理者而言,确定大数据的质量是最困难的任务之一。7.再现性小数据―小数据项目通常情况下是重复的。如果有关于数据质量的问题,或对数据再现性、从数据中得到的结论的正确性有疑问,那么整个项目可被重现,并产生新的数据集。大数据―通常复制大数据几乎是不可行的。在多数情况下,人们希望能够在大数据资源中发现坏数据并进行标记等。8.风险小数据―小数据项目的开销是有限的,实验室和研究机构往往能够从偶然的小数据失败中恢复过来。大数据―大数据项目会非常昂贵。一个大数据项目的失败会导致公司破产、机构崩塌、大规模解雇员工以及存储在资源中的所有数据的瞬间瓦解。举个例子,NIH大数据项目,全称为“NCI cancer Biomedical Informatics Grid”,即“癌症生物医学信息网格”(见术语表,Grid),该项目从2004年到2010年花费了至少3.5亿美元。审查资源的一个专设委员会发现尽管项目组投入了数百名癌症研究人员和信息专家的努力,但项目基本没有完成且资金投入巨大,最终该项目被废止3。自那以后,这些数据资源很快被终止了4。虽然以金钱、时间和工作量来衡量该项目,其开销无疑是巨大的,但大数据的失败也许仍有一些可取的价值,毕竟失败是成功之母。9.内省小数据―独立的数据点由它们在数据表或数据库中的行和列的位置识别(见术语表,Data point)。如果知道行和列的表头,那么就可以找到和列举其中包含的全部数据。大数据―除非大数据资源可以如预期的那样设计良好,否则即便是数据管理员也难以理解大数据资源的内容和组织形式(见术语表,Data manager)。要获取数据、掌握数据价值信息和数据组织信息,需通过内省技术才能达成(见术语表,Introspection)。10.分析小数据―大多数情况下,项目中的所有数据可同时进行全部分析。大数据―无论是在超级计算机中还是在多个计算机中并行进行的大数据分析几乎都需要一步步递增式完成(见术语表,Parallel computing,MapReduce)。这些数据需经过多种方法进行提取、查看、删减、标准化、转换、可视化、释义和再分析等操作。


    最新回复(0)