从代码设计到应用开发，入坑深度学习看这本书就够了

xiaoxiao2021-08-20 334

导读：深度学习（Deep Learning）是机器学习中一种基于对数据进行表征学习的方法。近年来，深度学习已经在科技界、工业界日益广泛地应用。随着全球各领域多样化数据的极速积累和计算资源的成熟化商业服务，深度学习已经成为人工智能领域最有效的方法。

目前，深度学习技术在语音识别、图像分类、商品推荐等各应用领域不断刷新着智能处理水平纪录。但是与此同时，深度学习模型难以解释，参数调优困难，参数规模大训练周期长等问题也困扰着研究和开发人员。

作者：高德荃，《深度学习实战》译者

当下介绍深度学习的书籍很多，但是《深度学习实战》一书视角不同，它重在实践，内容全面。《深度学习实战》英文版由O'REILLY出版社出版，中文版由机械工业出版社出版，作者Douwe Osinga曾供职于Google公司，是深度学习研究及实践方面的一位资深专家。

《深度学习实战》最大的特色就是系统化提供了面向文本数据、图形图像数据、语音数据的多个实例。

在书中，所有的例子都是用Python编写的，并且大部分代码的实现都依赖于优秀的Keras框架，每章的代码存放在一个notebook中，可以从网站下载学习。在实例章节，每章针对一种技术应用场景，从数据获取技巧开始，接着是几个完成本章目标的技巧和一个数据可视化的技巧。

01 文本处理领域

词嵌入是自然语言处理的基本方法，我们首先在第3章将使用预先训练好的词嵌入模型计算单词相似性，然后展示一些有趣的Word2vec数学特性，探索如何对高维空间进行可视化，接下来利用Word2vec等词嵌入的语义特性进行特定领域中的排名。

推荐系统在商业领域应用广泛，它基于先前收集到的用户评级数据进行训练。我们在第4章会使用新训练的嵌入来预测电影的评论分数，基于维基百科传出链接（outgoing link）构建一个简单的电影推荐系统。

循环神经网络是一类善于处理时间或序列的重要神经网络，在文本处理中应用广泛，我们在第5章使用RNN根据文本风格生成类似莎士比亚风格的文本，并对RNN的工作进行可视化。

智能客服会应用问答系统，其中关键一环是文本问题匹配，在第6章我们使用来自Stack Exchange网站的数据来构建整个问题的词嵌入，然后使用Pandas从这些嵌入来匹配查找类似的文档或问题。

在社交网络中人们会为给定的一小段文本来推荐适用的表情符号，在第7章我们使用Twitter API实现推文收集，用贝叶斯分类器来阐述基线性能，还介绍卷积模型以及组合模型及模型调优方法。

之后，在第8章我们将介绍序列神经网络来学习文本片段之间的转换，从古腾堡项目（Project Gutenberg）的19世纪小说中提取对话，并利用seq2seq工具包来训练聊天机器人。

02 图像处理领域

深度学习技术在图像识别和计算机视觉领域产生了比较深远的影响。在图像分类任务中，数十层（有时超过一百层）的神经网络已被证明十分有效，训练这样的网络需要极佳的处理能力和海量的训练图像。

在第9章我们将介绍如何加载预训练网络（该网络是Keras提供的五个预训练网络之一），研究图像输入网络之前所需要预处理过程，展示如何运行网络的推理模式。针对其他任务的新数据进行部分的重新训练也涵盖了迁移学习(transfer learning)概念。

在网络搜索中，可能有人会采取以图搜图模式。在第10章我们构建通过实例图片来搜索图的搜索引擎，我们研究如何查询维基数据（Wikidata），并从维基百科中获取适合的基础图片集开始着手。然后，我们将使用预训练网络为每个图片赋值，我们将研究主成分分析（principal components analysis，PCA）作为可视化展现图与图之间关系的一种方法。

在现实世界中，我们往往需要从一幅图像中检测提取多个目标对象的信息，这是图像处理中经典任务，也是一个十分活跃的研究领域，在Keras上的Python notebook中重现其中最先进的算法较为棘手。

在第11章我们使用Faster RCNN进行训练完成目标检测任务，Faster RCNN在用于训练图像分类器的同一个特征图上并行训练区域建议模型，而不是单独处理区域建议问题。

使用计算机来“魔术”渲染图像很有趣，在第12章我们将探讨一些用于可视化展现卷积网络进行图像分类时所见内容的技术。

然后，我们将介绍尺度（octaves）、深度梦想（deep dreaming）技术、格拉姆矩阵（gram matrices）等，之后，我们进一步将这种技术应用于现有图像，并采用文森特·梵高的名画《星空》的绘画风格渲染照片，使用两种样式的图像渲染同一张图片，从而获得一个两种风格之间的渲染结果。

基于实例生成图像是一个热门的研究领域，在该领域中每月都会涌现出新想法和新突破。

在第13章，我们将研究一个略有局限性的领域：手绘草图，从Google的Quick Draw数据集开始着手，建立一个能够学习“猫属性”的自编码器模型。我们还研究条件变分自编码器（conditional variational autoencoders），它在训练时会考虑图像标签，因此能够以随机样式再现特定类的图像。

在线搜索“免费图标”可以得到很多搜索结果。但是，这些结果并不是真正免费的（即没有任何使用限制的免费使用），大部分结果只是让用户感觉好像不需要花钱。此外，你还不能免费地重用这些图标，并且通常情况下网站会强烈建议你购买它们。

因此，在第14章，我们使用条件变分自编码器、生成式对抗网络（generative adversarial network，GAN）、RNN三种深度网络生成图标，从如何下载、提取，并将图标处理成可使用的标准格式。

03 音乐处理

语音识别和语音合成技术使得亚马逊Alexa和GoogleHome成为可能，然而，语音处理任务实际上是在亚马逊、Google或苹果的数据中心运行的，因此我们还不认为这些是真正的深度学习试验。尽管Mozilla的深度语音（Deep Speech）已取得了令人瞩目的进步，建立最先进的语音识别系统还是十分困难的。

第15章关注的重点是音乐，我们从训练音乐分类器模型开始，该模型可以告诉我们正在听的是什么音乐。然后，我们使用模型结果建立本地MP3索引，使用Spotfy API建立公开播放列表语料库，并用该库建立音乐推荐系统。

最后，该书在第16章介绍了在实际生产系统中使用模型的内容，让模型在真实的服务器或移动设备上运行。

近年，全球人工智能研究机构、研究院相继成立，深度学习成为人工智能的核心必备工具。对于深度学习研究人员，特别是应用开发工程师而言，如何摆脱深度学习模型的“黑盒”困境、如何让深度学习模型设计更加简洁高效、如何将深度学习快速地应用到具体的业务领域，该书进行了详细的介绍及代码示例，在每个实例场景，作者还提供具有重要价值的实践经验提点。读者如果想要进一步了解相关内容，可以参阅该书相关部分。

认真学完本书，读者将具备或提高两种能力：一是掌握深度学习的Python代码设计；二是能够自行开发深度学习具体应用。

专利

最新回复(0)