在开始学习python大数据之前,先要搞清楚人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思。
人工智能大家族包含着丰富的内容,分清楚了每一项都是做什么的,才能选对路线。
人工智能分为强人工智能和弱人工智能。
强人工智能是通过计算机来构造复杂的、拥有与人类智慧同样本质特性的机器,它有着我们所有的感知(甚至比人更多),我们所有的理性,可以像我们一样思考,也就是电影里面的机器人。
弱人工智能 (ANI) 是指擅长于单个方面的人工智能。垃圾邮件的自动识别,iPhone的助手siri,Pinterest上的图像分类,Facebook的人脸识别都属于弱人工智能,也就是我们现在大多是在从事的领域。
人工智能的研究领域在不断扩大,各个分支主要包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。
如果你想要系统地学习人工智能,那么推荐你去看床长人工智能教程。非常棒的大神之作,教程不仅通俗易懂,而且很风趣幽默。点击这里可以查看教程。
那么如何实现这种人工智能的智慧呢,这就需要机器学习了。机器学习是一种实现人工智能的方法。
机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。类似人类在接触过很多事物、经历后获得的“经验”和“规定”一样。例如有经验的老师在教书多年以后知道如何因材施教(经验),例如我们在看到STOP以后知道这是停止的意思(规定)。
传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。
传统的机器学习算法虽然在指纹识别、人脸检测、机器视觉等领域的应用基本达到了商业化的要求或者特定场景的商业化水平,但每前进一步都异常艰难,直到深度学习算法的出现。
机器学习应用十分广泛,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、语音、手写识别和机器人运用上都有应用。
我们知道要想具有好的智慧,除了有具有大量的数据以外还要有好的经验总结方法。深度学习就是一种实现机器学习的优秀技术。深度学习本身是神经网络算法的衍生。
深度学习本来并不是一种独立的学习方法,其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛,一些特有的学习手段相继被提出(如残差网络),因此越来越多的人将其单独看作一种学习的方法。
最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念,可大致理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果,人们对神经元的连接方法和激活函数等方面做出相应的调整。其实有不少想法早年间也曾有过,但由于当时训练数据量不足、计算能力落后,因此最终的效果不尽如人意。
深度学习摧枯拉朽般地实现了各种任务,使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车,预防性医疗保健,甚至是更好的电影推荐,都近在眼前,或者即将实现。
当前,业界有一种错误的较为普遍的意识,即“深度学习最终可能会淘汰掉其他所有机器学习算法”。这种意识的产生主要是因为,当下深度学习在计算机视觉、自然语言处理领域的应用远超过传统的机器学习方法,并且媒体对深度学习进行了大肆夸大的报道。
深度学习,作为目前最热的机器学习方法,但并不意味着是机器学习的终点。起码目前存在以下问题:
1. 深度学习模型需要大量的训练数据,才能展现出神奇的效果,但现实生活中往往会遇到小样本问题,此时深度学习方法无法入手,传统的机器学习方法就可以处理;
2. 有些领域,采用传统的简单的机器学习方法,可以很好地解决了,没必要非得用复杂的深度学习方法;
3. 深度学习的思想,来源于人脑的启发,但绝不是人脑的模拟,人脑不需要大量的数据训练支持,我们只要看过一张猫的图就认识了猫,而机器必须经过几百万张猫的图才能“认识”猫。
数据挖掘利用各种技术与统计方法,将大量的历史数据,进行整理分析,归纳与整合,是从海量数据中“挖掘”隐藏信息,如趋势、特征及相关的一种过程。工作BI(商业智能)、数据分析、市场运营都可以做这个工作。
之所以经常和机器学习合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的。例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。
我们可以把数据挖掘理解为一种类型的工作,或工作中的某种成分,机器学习是帮助完成这个工作的方法。
统计学、数据库和人工智能共同构造了数据挖掘技术的三大支柱,许多成熟的统计方法构成了数据挖掘的核心内容。
数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的“更上一楼”。
数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
举个例子:你有50块钱,去买菜,经过一一问价,你知道了50块钱能买多少蔬菜,能买多少肉,能吃多少天,心里得出一组信息,这就是数据分析。根据自己的偏好,营养价值,用餐时间计划,最有性价比的组合确定了一个购买方案,这就是数据挖掘。
人工智能企业可以在应用层、技术层、基础上进行区分。
在应用层的中国人工智能公司按照领域划分包括:
机器人:Geek+、 Rokid、图灵机器人、优必选。
自动驾驶:百度、天瞳威视、地平线机器人、驭势科技。
无人机:大疆、亿航、Hover Camera、零度智控。
语音助手:百度、出门问问。
商业智能:永洪科技、Data KM。
消费者服务:AiKF。
产业应用:碳云智能、Maxent、今日头条、学霸君。
在技术层的中国人工智能公司按照领域划分包括:
语音识别&自然语言处理:
思必驰、百度、科大讯飞、出门问问、捷通华生、腾讯、三角兽、云知声。
机器学习&深度学习:深鉴科技、中科视拓。
人工智能平台:达闼科技、第四范式。
计算机视觉:依图科技、格灵深瞳、旷视科技、商汤科技。
在基础层的中国人工智能公司按照领域划分包括:
传感器:ICE DRINK、LeiShen、SLAMTEC、北醒光子。
AI 芯片:寒武纪科技、地平线机器人。
数据:DataDouDou、数据堂计算力:阿里巴巴、百度。