《大数据原理:复杂信息的准备、共享和分析》一一1.1 背景

    xiaoxiao2021-04-16  215

    1.1 背景在计算早期,数据总是高度结构化的。所有数据都被划分成多个字段,字段有固定长度,存入字段的数据限定在一个由允许值组成的、预先设定的集合之内。数据记录在穿孔卡中,其行列位置是预先设定的。穿孔卡使用广泛,因而为了解释二进制数据、十进制数据、固定大小的文本、编程指令等(见术语表,Binary data),出现了各种各样的输入和输出方法。键盘穿孔机操作人员制造出成堆的穿孔卡,依靠穿孔卡分类机,卡片编码数据集甚至不需要计算机的协助就可以完成很多分析工作。如果你希望筛选出所有超过18岁、高中毕业且通过了体能测试的所有男性,分类机就需要进行4次操作。分类机首先会筛选出所有男性卡片,接着在这些卡片中选择年龄满18岁的那部分卡片,然后再选出满足下一标准的卡片……在20世纪60年代,我还是一名高中生,非常喜欢玩卡片分类机。回到那时,所有数据都是结构化数据,从我的角度来看,那时的一台穿孔卡分类机是进行大数据集分析的必备工具。当然,现在看来我完全错了。如今,人们输入的很多数据是自由文本格式,是非结构化的。自由文本来自于电子邮件信息、微博、文献等。结构化数据并没有消失,但被非结构化文本这座大山所掩盖。现在,自由文本读起来比穿孔卡更有趣,但在穿孔卡繁盛时期,与其后代自由文本相比,穿孔卡更容易进行分析。为了从自由文本中获取极大的信息价值,就需要给文本强加“结构”,这就涉及:将文本翻译成首选语言,将文本解析为语句,提取和规范语句中的概念性词组,将词组映射到标准术语集(见术语表,Nomenclature,Thesaurus),对词组进行注释(注释代码来自一个或多个标准术语集),提取和归一化文本的数据值,给分类系统中的特定数据类别指派数值,将分类后的数据指派到某个存储器或某个检索系统(如数据库),并制定该系统中数据的索引。这些操作很难在小规模数据集上实施,在大规模数据集上也几乎无法完成。然而,每个使用非结构化数据的大数据项目都必须处理这些任务,以从可用资源中获得最好的结果。


    最新回复(0)