本书是从理论到实践的全面且细致的企业数据驱动指南,完整还原作者在百度大数据工作从零到一构建百度用户行为大数据处理平台的经历。详解大数据本质、理念与现状,围绕数据驱动四环节—采集、建模、分析、指标,深入浅出地讲述企业如何将数据驱动方案落地,并指出数据驱动的价值在于“数据驱动决策”、“数据驱动产品智能”。最后通过互联网金额、电子商务、企业服务、零售四大行业实践,从需求梳理、事件指标设计、数据接入阶段、实际应用四大阶段介绍数据驱动在不同领域的商业价值,全面展示大数据在各个领域内的应用情况与趋势展望。
(1)数据驱动的价值
驱动决策驱动产品智能(2)企业内部数据驱动现状
初创企业无法拿到更多的数据,需要凭直觉来决策“做一款什么样的产品”。当一家企业的产品开始被市场接纳,而实际工作中,企业在实现数据驱动的道路上,依旧困难重重。(1)数据采集能力增强 (2)数据处理能力增强 (3)数据意识的提升
(1)数据采集现状
困惑:如何采、采哪些、用什么手段
由于数据采集不完整,无法实现深度分析。
统计不准。
云模式的数据分析平台让不少企业有安全顾虑,不愿意将核心数据放到第三方平台上。
痛苦:埋点混乱,常现埋错、漏埋
无奈:数据团队和业务工程团队配合困难 (2)数据采集遵循法则
大:强调的是宏观的大。不只需要海量数据,还要从系统的角度考虑。
全:强调多种数据源。
细:要求把不同维度都采集下来。
时:强调时效性。
(3)科学的数据采集和埋点方式
可视化/全埋点(无埋点):只要在页面上嵌入SDK,就可以采集页面上所有的点击行为,优势是: 可视化展示宏观指标,满足基本数据分析需求。技术门槛低,使用与部署较简单。用户友好性强。 无埋点(全埋点)缺陷 只能采用到用户交互数据,且适合标准化的采集,自定义属性的采集需要代码埋点来辅助。无埋点兼容性有限。不同工程师可能会给APP界面中相同的Button起不同的名称ID。无埋点是前端数据采集方式之一,因此具有前端埋点的天然缺陷,如数据采集不全面、传输时效性较差、数据可靠性无法保障等问题。 代码埋点分为前端代码埋点和后端代码埋点。 前端代码埋点类似于全埋点,都是前端嵌入SDK的方式,不同的是对于每一个关键行为,都需要调用SDK代码,将必要的事件名、属性字段等写入代码。后端代码埋点则将相关的事件、属性等通过后端模块调用SDK的方式发送给后台服务器。 全埋点VS代码埋点:如果仅仅为了看宏观数据,并没有精细化分析需求,并且是对客户端做分析,这时候全埋点是一种比较省事的选择。一旦企业有复杂的分析需求,就必须进行代码埋点,否则数据无法进行灵活下钻。前端埋点VS后端埋点: 产品运营初期,产品功能比较简单,可以采用前端埋点。有些行为没有和后端进行交互操作,如离线运行,就比较适合前端埋点。为保证核心数据的准确性,更推荐后端埋点。总的来说,“后端代码埋点”或“后端代码埋点+全埋点”适合有深度数据分析需求的企业。(4)数据准确性
数据不准确的情况 网络异常统计口径不同代码质量问题无效请求 提升数据准确性的策略 采集关键行为,推荐后端埋点进行事件设计和明确统计口径需要具有完善的元数据管理和埋点管理通过多维分析能力快速定位异常(1)多维数据模型
数据立方体是多维数据模型的通俗叫法,主要由“维度”和“指标”两部分组成将用户数据按照时间细粒度汇聚,根据不同维度进行组合查询,所有报表需求都产生在这个基础上。(2)多维事件模型
访问量模型:在传统Web时代,通常使用PV来衡量和分析一个产品的好坏。多维事件模型分成Event实体和User实体Event实体:描述了一个用户在某个时间点、某个地点以某种方式完成某个具体的事情User实体:每个user实体对应一个真实的用户,用distinct_id进行标识,描述用户的长期属性,并且通过distinct_id与这个用户所从事的行为,即Event进行关联。(1)行为事件分析
用来研究行为事件的发生对企业组织价值的影响以及影响程度。追踪或记录用户行为或业务过程,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。行为事件分析涉及事件、维度和指标三个概念。在分析过程中,一般期望数据是实时采集并能够实时分析,而事件、维度和指标是可以灵活自定义的。行为分析法一般经过事件定义与选择、多维度下钻分析、解释与结论 事件定义与选择:事件描述一个用户在某时间点、某地点、以某种方式完成某个具体的事情。多维分析下钻分析:要支持下钻分析和精细化条件筛选,为企业回答变化趋势、维度对比等细分问题。解释与结论:对结果进行合理的理论解释,判断数据分析结果是否符合预期相符,如判断产品的细节优化是否提升了触发了用户数。(2)漏斗分析
漏斗分析是反映用户的行为状态及从起点到终点各个阶段用户转化率情况的重要分析模型。被广泛应用于渠道来源分析、用户激活转化等日常数据运营中。特点和价值 监控用户在各个层级的转化情况多维度切分与呈现用户转化情况,成单瓶颈无处遁形不同属性的用户群体漏斗比较,从差异角度窥视优化思路(3)留存分析
留存分析是一种用来分析用户参与情况和活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。为什么要做留存分析 不能直接使用用户活跃百分比来代替留存分析,新老用户的活跃程度不一样,按初始行为时间分组的留存分析可以消除用户增长对用户参与数据带来的影响。可以将用户按注册时间分段查看,可以对比APP改版前后的留存率来效果。 特点与价值 留存率是判断产品价值最重要的标准,揭示了产品保留用户的能力。宏观把握用户生命周期长度及定位产品可改善之处。 场景:游戏行业提升活跃、留存 游戏的生命周期的时长差异和玩家的游戏黏度提现游戏的竞争力和盈利能力,玩家对游戏的直观感受、游戏难度曲线、游戏节奏的松弛、游戏福利等因素都能导致玩家流失,正确找到玩家流失的原因,是促进玩家活跃、挽留玩家的第一步。可以通过不同等级的用户在首次登陆后每周的留存分析来定位导致玩家流失的关键因素,并对流失严重的等级对应的用户的每个环节、具体场景进行深入追踪与分析。 对留存下来的用户的一些详细的基础信息,如对借款次数、借款金额、年龄等,通过接口次数和金额评估用户质量,通过年龄可以分析金融平台吸引的群体用户的年龄分布。(4)分布分析
分布分析时用户在特定指标下的频次、总额等的归类展现,可以展示出单用户对产品的依赖程度。 分析客户在不同地区、不同时段购买的不同类型的产品数量、购买频次等,帮助运营人员了解当前的客户状态,以及客户的运转情况。如订单金额(100以下区间、100-20区间、200以上区间等)用户的分布情况。 特点与价值 挖掘用户分布规律,优化产品策略运营并持续产品生命力,增加客户回访率快速识别核心用户群体,资源配置有的放矢 电商行业常见的分布分析应用 电商用户的忠诚度如何、客单价情况如何等问题都可以通过分布分析快速诊断,如重复购买次数、客单价分布等均是常用的衡量忠诚度的指标。从用户行为日期查看的分析结论有如:用户每个月购买频次基本稳定在1~3次之间,3月份有波动。从用户不同性别、不同渠道、不同区域等分布查看是否有偏好(5)点击分析
点击分析是应用一种特殊高亮的颜色形式,显示页面或页面组(结构相同的页面,如商品详情)区域中不同元素点击密度的图示。包括元素被点击的次数、占比、发生点击的用户列表、按钮当前与历史内容等因素。点击图是点击分析方法的效果呈现,呈现访客热衷的区域。特点与价值 精准评估用户与网站交互背后的深层关系。实现网页内跳转点击分析,抽丝剥茧般完成网页深层次的点击分析。与其他分析模型融合,以全面视觉探索数据价值,能够深度感知用户体验。 应用场景 企业官网改版,筛选细分访客,页面优化有的放矢电商界面优化与改进,配合实时多维分析,验证科学与否(6)用户路径
用户行为路径是用户在APP或网站中的访问行为路径,用户路径分析结果通常以桑基图形式展现,以目标事件为起点或终点,查看后续或前置路径,可以详细查看某个节点事件的流向。价值 可视化用户流,全量了解用户整体行为路径。定位影响转化的主次因素,产品设计的优化与改进有的放矢。 应用场景:启动APP后,为什么只有30%客户交易成功 用户登录APP后,约有40%客户会点击Banner,约30%客户会直接商品搜索,约10%用户会浏览商品列表,约5%用户直接退出APP。直接搜索商品的用户提交订单比例最高,超过90%;点击banner的用户在浏览商品列表后仅30%的用户提交订单,说明banner内容布局有比较差的用户体验,因此成为首选改进方向。(7)用户分群
群体特征不同,行为会有很大差别,因此可以根据历史数据将用户进行划分,进而再次观察该群体的具体行为。用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。用户分群通常被分为普通分群和预测分群 普通分群:根据用户的属性特征和行为特征将用户群体进行分类预测分群:根据用户以往的行为属性特征,运用机器学习算法来预测他们未来发生某类事件的概率 用户分群价值 帮助企业打破数据孤岛并真实了解用户:行为特点有哪些?偏好是什么?潜在需求和行为喜好是什么?定位营销目标群体,帮助企业实现精准、高效营销。 应用场景 场景1:直播行业,高黏性与高频消费用户行为观察。通过事件分析来观察这部分用户群体近期的行为表现,看用户群体的人均观察时长与其他用户是否存在明显差别。场景2:唤醒沉睡用户的精准推送与效果评估。向2017年1月注册且浏览过征信页面(经过分析,用户浏览征信页面后,后期留存率较高),但未进行投资的用户推送“贺岁理财,预期年化收益率高达9.5%”的信息。并通过ABTest来判断效果。(8)属性分析
属性分析根据用户自身属性对用户进行分类与统计分析,比如查看用户数量在注册时间上的变化趋势、查看用户按省份的分布情况。用户属性:姓名、年龄、家庭、婚姻状况、性别、最高教育程度等自然信息,用户常驻省市、用户等级、用户首次访问渠道来源等产品相关属性。价值 主要价值体现在丰富用户画像类别属性可以将“去重数”作为分析指标数值类型属性可以将“总和”、“均值”、“最大值”、“最小值”作为分析指标数字类型可以自定义区间 应用场景 场景1:按省份查看用户数,了解产品用户具体分布在哪些城市,是否为发达城市场景2:查看一个月未发生购买的用户,预警客户流失(1)第一关键指标法
即在企业发展的每个阶段,都有一个当前阶段高于一切、需要集中全部精力注意的一个数据。随着业务的发展,这个指标会发生变化。第一关键指标可以外延出更多指标。如第一指标是销售额,而销售额能够衍生访问量、转化率、客单价等多指标。运营人员可以通过对衍生指标的优化来促进第一关键指标的增长。企业发展阶段大致可分为MVP、增长和营收三个阶段。 MVP(最小可用产品)阶段:这阶段数据分析价值较小,企业需求定性分析,如通过大量用户访谈来确定产品的满足情况,此阶段不需要在数据分析方面投入大量工作。增长阶段:此阶段有了成型的产品以及固定的用户群,有丰富的数据可以进行数据分析,可细分为关注留存指标和关注引荐指标两个阶段。 留存分析直接放映用户的活跃度。产品经过不断优化和迭代,企业应该关注引荐指标(类似邀请,关注病毒系数和病毒周期等)。 营收阶段:此阶段产品形态相对成熟,企业关注点聚焦在如何规模化,并实现快速盈利,关键指标主要是LTV(Life Time Value,生命周期总价值)、CAC(Customer Acquisition cost,获客成本)、渠道分成比例、渠道用户盈利周期等。(2)海盗指标法
第一关键指标法简单有效,但对于实际产品运营来说,我们需要用海盗指标法全方位做出监测。第一关键指标法定位了企业当前发展阶段的最重要问题,它关注全企业层面的运转健康。