如今,我们生活在一个万物互联的世界,每天都在产生海量数据,不可能依靠人力去分析产生的所有数据并做出决策。人类的决策越来越多地被计算机辅助决策所取代,这也得益于数据科学的发展。数据科学已经深入到我们互联世界中的每个角落,市场对那些十分了解数据科学算法并且有能力用这些算法进行编程的人才需求是不断增长的。数据科学是多领域交叉的,简单列举几个:数据挖掘、机器学习、统计学等。这对那些渴望成为数据科学家以及已经从事这一领域的人们在各方面都倍感压力。把算法当成黑盒子应用到决策系统里,可能会适得其反。面对着无数的算法和数不清的问题,我们需要充分掌握潜在的算法理论,这样才能给每个指定的问题选择最好的算法。
作为一门编程语言,Python演变至今,已经成为数据科学家的首选之一。在快速原型构建方面,它能充分发挥了脚本语言的能力,对于成熟软件的开发,它精巧的语言结构也十分适合,再加上它在数值计算方面神奇的库,这些都使得它被众多数据科学家和一般的科学编程群体所推崇。不仅如此,由于Django和Flaskweb等Web框架的出现,Python 在Web开发人员中也很受欢迎。
本书通过精心编写的内容和精选的主题来满足读者的需求,无论是新手还是经验丰富的数据科学家都将从中获益。本书的内容涉及数据科学的不同方面,包括数据探索、数据分析与挖掘、机器学习、大规模机器学习等。每一章都经过精心编写,带领读者探索相关领域。本书为读者提供了足够的数学知识来理解不同深度的算法功能。只要你有需求,我们都能为好学的读者提供充分的指导,各个主题都十分便于读者学习和理解。
本书给读者带来了数据科学的艺术力和Python编程的力量,并帮助他们掌握数据科学的概念。了解Python语言并不是死板地跟随本书学习,非Python程序员可以从第1章开始阅读,里面涵盖了Python数据结构及函数编程等概念。
前几章涵盖了数据科学的基础知识,后面的章节则致力于高级数据科学算法。目前最先进的算法已经引领数据科学家在不同的行业实践中进行探索,这些算法包括集成方法、随机森林、正则化回归等,书中将会详细介绍。一些在学术界流行而仍未广泛引入到主流应用中的算法,例如旋转森林等在文中也有详细介绍。
目前市场上有许多个人撰写的数据科学方面的书籍,但我认为它们在将隐藏在数据科学算法背后的数学原理和一些实施中的细节相结合方面仍存在很大空缺,本书志在填补这一空白。每一个主题,恰如其分的数学知识讲解能引导读者理解算法工作原理。我相信读者可以在他们的应用中充分感受这些方法带来的效益。
这里有一个忠告,虽然我们尽可能用客观的语言给读者解释这些主题,但它们并没有作为成品在极端的条件下进行过严格测试。成品的数据科学代码必须符合严格的工程规范。
本书可以作为学习数据科学方法的指南和快速参考书。这是一本独立的、介绍数据科学给新手和一些有一点算法基础的人的书,帮助他们成为这个行业的专家。
[ 第1章 Python在数据科学中的应用1.1 简介](https://yq.aliyun.com/articles/90942/)1.2 使用字典对象1.2.1 准备工作1.2.2 操作方法1.2.3 工作原理1.2.4 更多内容1.2.5 参考资料1.3 使用字典的字典1.3.1 准备工作1.3.2 操作方法1.3.3 工作原理1.3.4 参考资料1.4 使用元组1.4.1 准备工作1.4.2 操作方法1.4.3 工作原理1.4.4 更多内容1.4.5 参考资料1.5 使用集合1.5.1 准备工作1.5.2 操作方法1.5.3 工作原理1.5.4 更多内容1.6 写一个列表1.6.1 准备工作1.6.2 操作方法1.6.3 工作原理1.6.4 更多内容1.7 从另一个列表创建列表——列表推导1.7.1 准备工作1.7.2 操作方法1.7.3 工作原理1.7.4 更多内容1.8 使用迭代器1.8.1 准备工作1.8.2 操作方法1.8.3 工作原理1.8.4 更多内容1.9 生成一个迭代器和生成器1.9.1 准备工作1.9.2 操作方法1.9.3 工作原理1.9.4 更多内容1.10 使用可迭代对象1.10.1 准备工作1.10.2 操作方法1.10.3 工作原理1.10.4 参考资料1.11 将函数作为变量传递1.11.1 准备工作1.11.2 操作方法1.11.3 工作原理1.12 在函数中嵌入函数1.12.1 准备工作1.12.2 操作方法1.12.3 工作原理1.13 将函数作为参数传递1.13.1 准备工作1.13.2 操作方法1.13.3 工作原理1.14 返回一个函数1.14.1 准备工作1.14.2 操作方法1.14.3 工作原理1.14.4 更多内容1.15 使用装饰器改变函数行为1.15.1 准备工作1.15.2 操作方法1.15.3 工作原理1.16 使用lambda创造匿名函数1.16.1 准备工作1.16.2 操作方法1.16.3 工作原理1.17 使用映射函数1.17.1 准备工作1.17.2 操作方法1.17.3 工作原理1.17.4 更多内容1.18 使用过滤器1.18.1 准备工作1.18.2 操作方法1.18.3 工作原理1.19 使用zip和izip函数1.19.1 准备工作1.19.2 操作方法1.19.3 工作原理1.19.4 更多内容1.19.5 参考资料1.20 从表格数据使用数组1.20.1 准备工作1.20.2 操作方法1.20.3 工作原理1.20.4 更多内容1.21 对列进行预处理1.21.1 准备工作1.21.2 操作方法1.21.3 工作原理1.21.4 更多内容1.22 列表排序1.22.1 准备工作1.22.2 操作方法1.22.3 工作原理1.22.4 更多内容1.23 采用键排序1.23.1 准备工作1.23.2 操作方法1.23.3 工作原理1.23.4 更多内容1.24 使用itertools1.24.1 准备工作1.24.2 操作方法1.24.3 工作原理[第2章 Python环境2.1 简介](https://yq.aliyun.com/articles/91121/)2.2 使用NumPy库2.2.1 准备工作2.2.2 操作方法2.2.3 工作原理2.2.4 更多内容2.2.5 参考资料2.3 使用matplotlib进行绘画2.3.1 准备工作2.3.2 操作方法2.3.3 工作原理2.3.4 更多内容2.4 使用scikit-learn进行机器学习2.4.1 准备工作2.4.2 操作方法2.4.3 工作原理2.4.4 更多内容2.4.5 参考资料第3章 数据分析——探索与争鸣第4章 数据分析——深入理解第5章 数据挖掘——海底捞针第6章 机器学习1第7章 机器学习2第8章 集成方法第9章 生长树第10章 大规模机器学习——在线学习
相关资源:敏捷开发V1.0.pptx