数据分析开篇！三个核心：More、Messy、Correlation

xiaoxiao2021-07-11 367

这篇来自 FreeS 的 Ben Li 同学对中国互联网投融资数据的一个分析报告，以抛砖引玉的形式放出来，希望能给各位喜欢数据分析的朋友一些启发。当然我们更加希望能和各位做数据分析的一起，在下面的评论里讨论后续相关的关于创投圈这一块可能的数据分析的方法和方向。

Ben Li 同学是我们FreeS的数据分析大牛，来自美国南部哈佛 Emory University，地点在亚特兰大，佐治亚州。他的知乎ID是： https://www. zhihu.com/people/bigben-48

　　言归正传：下面来自于他的文字：

Viktor Mayer-Sch nberger在《大数据时代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)一书中提出了关于大数据的 3 个特征(原则)：1: more, 2: messy, 3: correlation. 在中译本中被详细的阐释为“不是随机样本而是全体数据”;“不是精确性，而是混杂性”;“不是因果关系而是相关关系”。这 3 个原则引起了相对大的质疑与争议。本文无意去讨论这几个原则的是是非非，但我们认为这三个特征很好地概括了相当一部分数据科学话题所处理数据的特征。因而本文以这三个特征为文眼，引出我们对公开的初创企业投融资数据的第一批分析结果。

1. More

我们抓取了IT桔子上截止2016年3月的全部数据。如下图所示，2010年之后，融资开始进入上升通道， 2014开始爆炸式增长。

融资越来越多，数据也越来越多。但是在进一步做各种各样的分析，画出各种各样fancy的图表之前，我们需要来看看我们所获取的数据是否足够的“More”，多到能很好的刻画出总体(population)数据的特征。如果不能确保这一点，之后所有的分析结果很可能都是靠不住的。

按照36Kr的数据( http:// 36kr.com/p/5044404.html )，2015年共完成5853笔融资。这里我们在2015年共有4844笔融资数据，占(82.76%)。即使考虑到数据缺失等因素，我们所分析的数据也应该能超过整体数据的三分之二，因此我们认为我们的数据是能够在一定意义上代表总体的。当然我们的数据很可能存在严重的sampling bias。即我们的数据会包含更多更准的互联网企业数据，而更偏传统或者线下的企业的数据则可能更少、误差更大。我们暂时不去深究潜在的selection bias，用我们手里的数据来一窥整体的特征。

比如，融资和月份的关系

我们先来看一看融资和月份的关系，这里主要是显示一点基础的数据关系，并不是为了解释。如下图所示，2011到2013年具有非常鲜明的“两头大，中间小”的特征。一月份时融资笔数达到一年的最高峰，二月因为过年等原因跌到一年的最低值，之后一整年都在较低位置徘徊，直到年底(12月份)融资笔数开始回升。

2014年：除了“两头大，中间小”的基本特征外，8,9月份也出现了一个小峰值，并且在14年12月出现了最近几年里最红火的一个“12月”(14年当时的融资情景最为火爆)。这种红火的趋势在15年一月继续推高。

2015年：在“资本寒冬”警告不断的2015年，在年初按照规律出现“峰值一月”和“谷值二月”之后，年终的融资笔数不断走高，直到7月达到了整个2015年的最高值(大约是资本寒冬的警告让更多的创业者宁愿做出降低估值等让步也要迅速完成融资?)。下半年，融资数据一路走低，直到12月也没有出现习惯性的回升。然而单独看2015年的数据，在这“寒冬”的2015年全年融资笔数仍然比2014年多了56%。下半年的疲软很难说是年中的提前透支还是“Winter is coming”。

2016年：我们继续看2016年的前三个月数据，确实让人感受到了凛冬的寒风，2016年前三个月的数据已经跌落到2014年初的水准。

　　2. Messy

所谓“Messy”，更多指的是在大批量获得数据时，被迫牺牲的精确性。又多又好(精准)的数据当然是最完美的。但是当我们批量获取数据时，往往不可避免的会引入一些不精准或是缺失的甚至是错误的数据。而庞大的数据量又使得人工逐个确认成为不太现实的选项。

而“Messy”恰恰是我们所获取数据的一个典型特征。我们仅考虑2011年到2015年间的D轮前(不包括D轮)的融资数据。在10128笔交易中，融资额度未透露或模糊化处理的高达6461笔(63.79%) 。详见下表所示：

即使不考虑这些模糊的融资额度，融资额里的“水分”也足够让这些融资额的数据messy到没有任何价值。但所谓“大数据”之“大”，有一个好处就是当这些messy的数据足够多，并且messy的有一定规律时，我们仍然能够从中找到一些规律性的特征。进一步地，如果我们用部分公司的“招股说明书”的数据反过来修正，也有可能获得融资额度更好地估计(本文暂不涉及这一部分)。为避免不同时间汇率换算带来的影响，我们暂时只考虑所有人民币交易。并且我们把数千万，数百万均转换成对应的最小值，即一千万，一百万等。下图给出每一年按月份融资总额的分布：

我们可以看到总融资和融资笔数(前一张图)的趋势是基本一致的(这里的“一致”具体指融资笔数越多，总融资额越大，整体表现出较强的线性关系)。这就启发我们直接比较对应的平均融资额：在下图的平均融资额上我们可以看出，不同年份不同月份的值是比较稳定的。在这个意义上我们可以下结论，11年到15年的融资额“水分”并没有明显增加。虽然我们暂时无法估计这个“水分”的比重(业界一般说来是乘三或者乘以五)，但只要水分的比例是比较稳定的，融资额之间的相对关系保持稳定，我们就能够进行进一步的数据分析。当然我们看到2015年最后两个月的平均融资额相对比较异常(红色圈内数据)，有可能是融资额的“水分”突然增加了。而黄色圈内的三个数据点是孤立出现的峰值，除了在这短暂的一个月内融资额”泡沫“激增之外，更大的可能是这几个月内有一笔或多笔融资额极大的离散点(outlier),推高了平均值。当然，这些“可疑点”的具体成因还需要具体分析。但这些“可疑点”的存在并不影响整体上平均融资额较为稳定的结论。

　　3. Correlation

我们最终关心的是因果关系。虽然Causal inference(因果推断)已经发展了很多年，但是在实际中，我们往往很难去判别事务间是否具有因果关系，或者具有怎样的因果关系。而数据中的相关关系很容易判别，所以实际运用中人们往往退而求次的先去找到相关关系。用相关关系作为起始点进一步去探求因果关系。甚至在很多应用中，相关关系已经足够能够帮助到最终目标的实现或提升。因而作为数据分析的起点，我们也先识别出几组相关关系。

在进入具体的定量分析(假设检验，回归分析)之前，我们先简单的画几张图来看看行业和融资数目，融资金额之间的关系。看看所谓的“风口”效应在数据上有没有体现。我们将所有交易分为了16大类：

1. 广告营销(Advertising and Marketing)

2. 汽车交通(Automobile Traffic)

3. 电子商务(E-commerce)

4. 教育(Education)

5. 企业服务(Enterprise services)

6. 金融(Finance)

7. 游戏(Games)

8. 硬件(Hardware)

9. 医疗健康(Healthcare)

10. 本地生活(Local Life Services)

11. 移动互联网(Mobile Internet)

12. 房产服务(Real Estate Services)

13. SNS社交网络(SNS)

14. 文化娱乐体育(Sports Entertainment)

15. 工具软件(Tool Software)

16. 旅游(Tourism)

下面第一张图分年份画出了各行业内融资笔数。我们可以注意到一些有趣的现象：

如上图：2015年整体融资数目大幅增加，但是移动互联网的融资笔数却下降了超过50%;而旅游这个门类更是降为2014年的约四分之一。

如上图：每个年份各行业融资百分比，通过百分比的调整，能够对五年的趋势进行更直观的对比。比如我们可以看到，文化娱乐产业从11年，12年约13%的比例降到了13,14年的4%左右，但是在2015年又回升到了10%以上。相比2014年，电子商务，金融，本地生活类的融资笔数都有显著增加。未来我们还将结合新闻媒体报道，百度指数等，进一步探究媒体口中的“风口”和融资中的“风口”的联系与区别。

最后，我们展示一下我们用雷达图(八卦图)来比较基金的一个小尝试。我们使用了IDG资本，红杉资本中国，经纬中国，真格基金四家基金在2011年到2015年间被IT桔子收录的D轮之前的投资。下面两张图分别使用绝对投资笔数和投资笔数占基金总投资笔数的百分比来刻画了四家基金在16个领域内的投资情况。我们可以看到IDG在电子商务，广告营销等领域进行了很多投资，然而在工具软件以及健康医疗领域内几乎没有投入，在教育上也投入不多。与之对应的是，红杉资本在健康医疗领域，真格基金在教育以及工具软件上都进行了大量的投资。

　　4. To be continued

关于以上这些图的解读还有很多。我们在这不再一一赘述。这些图表自身的解读还可以有很多。同时每张图也都可以有很多不同的变形和扩展。当“早期投资数据量很小，水分很大，准确性很低”成为很多人的共识，从早期投资数据中挖掘出金矿甚至铁矿都好像成为了天方夜谭。这篇文章的目的更多是来抛砖引玉，希望能从这里开始，一步步从这有限的数据中挖掘出有价值和意义的内容。如果您有任何建议或者想要挖掘某些特定信息的需求，欢迎评论。

本文转自d1net（转载）

相关资源：七夕情人节表白HTML源码(两款)

专利

最新回复(0)