《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.2 第1阶段:发现...

    xiaoxiao2024-05-10  5

    本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第2章,第2.2节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

    2.2 第1阶段:发现

    数据分析生命周期的第1个阶段(见图2.3)在于发现。在这个阶段,数据科学团队需要学习和研究问题、构建问题的语境和理解、了解项目所需的和可以获得的数据源。此外,团队还需要制定后续可使用数据来测试的初步假设。

    2.2.1 学习业务领域

    理解问题的领域非常的重要。在很多情况下,数据科学家需要拥有深厚的能被广泛应用的计算和定量知识,例如拥有应用数学或者统计学的高级学位。

    这些数据科学家熟练掌握用于各种业务和概念问题的方法、技术和手段。其他人员可能对业务领域和定量专业知识有深入理解,比如生命科学领域的博士对海洋学、生物学或者遗传学等研究领域有深入理解,而且具有一定深度的定量知识。

    在该阶段,为了开发第3和第4阶段涉及的模型,团队需要确定数据科学家需要多少业务或者领域知识。团队应该尽早进行此项评估,来决定项目团队需要的资源,并确保团队拥有均衡的业务领域知识和技术技能。

    2.2.2 资源

    作为发现阶段的一部分,团队需要评估项目的可用资源。在这里,资源包括技术、工具、系统、数据和人。

    在评估时,需考虑团队将会使用的工具和技术,以及后期阶段实施模型需要的系统类型。此外,要试着在组织机构内评估分析的复杂程度和可能存在的工具、技术和技能等方面的差距。例如,为了让正在开发的模型能在组织机构内长期使用,要考虑会用到哪些类型的现如今尚不具备的技能和角色。为了项目能够长期成功,对于模型使用者来说,还需要哪些类型的技能和角色?所需要的专业知识在当下的组织内是否已经具备,还是需要培养?这些问题的答案将会影响团队的技术选型,以及数据分析生命周期后续阶段的实现方式。

    除了技能和计算资源外,盘点项目团队可用的数据种类是明智的。要考虑现有的数据是否足以支持实现项目的目标。团队将需要考虑是否必须收集更多的数据,或者从外部购买数据,还是转换现有数据。通常情况下,项目开始时只着眼可用数据。当数据少于预期时,该项目的规模和范围将根据现有数据相应地缩小。

    另一种方法是考虑这类项目的长期目标,而不只局限于当前数据。团队则可以考虑哪些数据是达到长期目标所需的,哪些目标可以在现有数据的基础上达成。兼顾长期目标和短期目标使得团队可以进行更有抱负的项目,可以把一个项目作为战略举措的第一步而非独立个体对待。将项目作为长远考虑的一部分非常关键,尤其是当项目执行所在的组织机构对数据科学知之甚少,且目前为止可能还没有最佳的数据集来支持健壮的分析。

    在项目团队中,需要拥有领域专家、客户、分析人才,也需要有效的项目管理。此外,还要评估项目需要多长时间,以及团队拥有的技能是否兼具广度和深度。

    在盘点完工具、技术、数据和人这些因素后,需要考虑团队是否有足够的资源来成功完成这个项目,或者是否还需要额外的资源。在项目开始阶段协商资源,同时界定目的、目标和可行性,比在项目过程中规划这些事情更有用,同时也确保留有足够的时间来完成目标。项目经理和关键利益相关者在这个阶段更容易协商好所需资源,而不是等到项目进行时。

    2.2.3 设定问题

    恰当地设定问题是项目成功的关键。设定(framing)指的是陈述待解决问题的过程。最好的方法是记下问题陈述,然后与关键利益相关者进行沟通。每位团队成员理解的需求和问题可能都稍有不同,对可能的解决方案也有不同的看法。因此,陈述分析问题本身,以及陈述问题为何重要以及对谁重要,非常关键。从本质上讲,团队需要清楚地了解当前的形势和面临的主要挑战。

    作为这项活动的一部分,识别项目的主要目标,明确哪些业务需求需要实现,以及确定需要做哪些工作才能满足这些需求,都非常重要。此外,还应该考虑项目的目标和项目成功的标准。通过这个项目需要实现哪些目标,以及哪些指标能够帮助判断项目是成功的呢?把这些指标记录下来,并分享给项目团队成员和关键利益相关者。最好的办法是将目标声明和成功的标准分享给团队,并和项目发起人确认是否符合他们的期望。

    制定项目失败的标准同样重要。大部分人只会为项目制定成功的标准和对项目参与者的奖赏。但这几乎是仅考虑最理想的情况,假设所有事情都按照预先计划进行,项目团队将顺利实现预订目标。然而,无论多么周全的计划,都不可能预料到项目中所有的突发情况。失败标准可以让团队清楚什么时候应该停止尝试,或满足于已经收集到的数据结果。许多时候,即使从收集的数据中不再能够挖掘出有价值的信息,人们仍会继续执行分析。建立成功标准和失败标准可以让团队在与项目发起人保持一致的前提下少做无用功。

    2.2.4 确定关键利益相关者

    另一个重要步骤是确认项目关键利益相关者和他们对项目的兴趣所在。在讨论中,团队可以确定成功的标准、主要的风险和利益相关者,其中利益相关者应该包括任何会从项目中受益或者受项目显著影响的人。在与利益相关者交流时,需要了解业务领域和类似分析项目的相关历史。比如,团队可以确认每个利益相关者对项目结果的期望,及其判断项目成败的标准。

    任何项目的发起都是有原因的。团队必须尽可能弄清项目亟待解决的痛点,并知晓在分析过程中哪些领域该深入、哪些领域该规避。取决于项目利益相关者和参与者的数量,团队可以考虑大致弄清每个人期望的参与项目的方式。这样做能明确项目参与者的预期,并避免可能由此导致的项目进度的拖延。比如,一方面团队可能因为觉得需要某人的批复而等待,另一方面此人则可能视自己为项目顾问而不去审批项目。

    2.2.5 采访分析发起人

    团队需要与利益相关者合作来明确和设定需要分析的问题。在开始阶段,项目发起人可能已经有一个预先确定的解决方案,但是这个解决方案不一定能够实现所期望的结果。在这种情况下,团队必须利用自己的知识和专长找到真正的问题和合适的解决方案。

    例如,假设在一个项目的初期阶段,团队被要求创建一个推荐系统用于业务,做法是与三个人沟通并将推荐系统集成到现有的企业系统中。虽然这可能是一种有效的方法,但是检验问题的假设和建立清晰的理解非常重要。利益相关者可能会建议问题的解决方案,但是数据科学团队往往对问题有更客观的理解。因此,团队需要更多了解背景和业务,以便更清楚地界定问题,并为问题找到可行的解决方案。从本质上看,数据科学团队能够采取更客观的方法,因为利益相关者可能已经因为自己的经验而形成偏见。而且,过去正确的事情现在可能不再正确。避免出现这种问题的一种可能方法是,项目发起人把重心放到需求定义上,而其他团队成员专注于寻找实现这些需求的方法。

    当与主要的利益相关者交流时,团队需要花时间和项目发起人进行深入的沟通,因为项目赞助者往往是项目的出资者,或者是提出抽象需求的人。项目发起人清楚需要解决的问题,通常也对潜在的解决方案有一定想法。在团队启动项目时,彻底理解项目发起人的想法非常关键。下面是与项目发起人交流的一些技巧。

    为交流做准备,列出相关问题,并和同事一同审议。尽量使用开放式提问,避免提诱导性问题。深究细节,并深入提问。避免过度提问,让对方有足够思考的时间。在项目发起人表达自己的想法后,做澄清式提问,比如“为什么?是这样的吗?这个想法切题吗?还有什么需要补充的吗?”耐心倾听,复述或者重新组织获得的信息,以确保理解无误。尽量避免表达带有倾向性的团队观点,专注于倾听。注意交流双方的肢体语言,适当地使用眼神交流,保持注意力。尽量避免干扰。记录获取的信息,并与项目发起人一同审议。下面是在发现阶段与项目发起人交流时常用问题的简要列表。项目发起人反馈的信息可以帮助明确项目范围、制定项目目标和任务。

    团队需要解决哪些业务问题?项目的预期结果是什么?有哪些数据源可用?哪些行业问题可能影响到分析?项目时间节点上有何考虑?谁可能会为项目提供洞见?谁对项目有最终决策权?如果下列的特定维度发生了改变,问题的重点和范围将如何改变?时间:分析1年还是10年的数据?人物:评估人力资源变化对项目进度的影响。风险:保守到积极。资源:从极度匮乏到无尽(工具、技术、系统)。数据大小和属性:包含内部和外部数据源。

    2.2.6 形成初始假设

    形成一系列初始假设是发现阶段的一个重要方面。这涉及团队形成能用数据检验的想法。一般情况下,最好先提出几个主要的假设进行测试,然后再想更多的。这些初始假设是团队在后续阶段进行的分析测试的原型,并为第5阶段的发现奠定基础。第3章将从统计角度详细讨论假设检验。

    通过这种方式,团队可以将自己的假设与实验或测试结果进行比较,以生成更多的潜在解决方案。最终,团队将拥有更加丰富的发现,能为项目最有影响力的结论提供更多的佐证。

    这个过程还涉及从利益相关者和领域专家那里收集和评估假设。这些利益相关者和领域专家对于问题本身、问题的解决方案,以及如何得到解决方案,都可能有自己的见解。他们熟悉业务领域,可以为团队形成初始假设提供想法。团队收集到的许多想法可能反映了这些人的营运假设。这些想法也可以帮助团队有意义地扩大项目范围,或者贴合利益相关者最重要的兴趣设计实验。在假设形成时,可以获取和探索一些初始数据,以便与利益相关者一起讨论。

    2.2.7 明确潜在数据源

    在发现阶段,团队需要确认用来解决问题的数据,并考虑用于检验假设的数据的体量、类型和时间跨度。要确保团队可以访问的数据不局限于简单的聚合数据。在大多数情况下,团队需要原始数据以避免后期分析时的偏差。要依据第1章中介绍的大数据的特征,从体量、种类和速度的变化方面评估数据的主要特征。数据状况的诊断情况会影响到数据分析生命周期第2阶段到第4阶段使用的工具和技术。此外,在此阶段进行数据探索将帮助团队确定所需要的数据量,例如,从现有系统中获取的历史数据量和数据结构。要对项目中需要的数据的范围有所认知,并与领域专家一起确认。

    在发现阶段,团队需要进行5项主要的活动。

    识别数据源:列出团队在本阶段测试初始假设所需要的候选数据源清单。盘点当前可用的数据集和可购买到的数据集。捕获汇总数据源:汇总数据能提供数据的预览和高层次的理解。它使团队可以快速浏览数据,并进一步探索特定领域的数据。它也帮助团队识别感兴趣的数据。查看原始数据:从最初的数据源获取初步数据。理解数据属性之间的相互依赖关系,并熟悉数据的内容、质量和局限性。评估数据结构和所需工具:数据的类型和结构决定了团队需要使用哪些工具来分析数据。此评估可以帮助团队思考适合项目的技术,以及如何开始获得这些工具。界定问题所需的数据基础设施:除了所需的工具外,数据还会影响需要的基础设施,比如磁盘存储和网络带宽。在许多传统的“关卡”式的项目流程中,团队只能在特定条件满足时才能继续前进。与此不同的是,数据分析生命周期中融入了更多的模糊性,更真实地反映出现实中数据科学项目的运行方式。在数据分析生命周期的每个阶段,建议通过特定检查点来衡量团队是否可以进入下一个阶段。

    在本发现阶段,当团队有足够的信息来起草一个分析计划,并将其交给同行评审时,就可以进入生命周期的下一阶段了。由同行来评审分析计划不是必须的,但是创建计划本身可以测试团队对业务问题的理解情况和解决问题的方法。创建分析计划也需要对业务领域、要解决的问题和要使用的数据源的范围有一个清晰的了解。在项目的早期阶段制定成功的标准可以明确问题的定义,并帮助团队选择后续阶段使用的分析方法。

    最新回复(0)