写给 iOS 的机器学习入门

books

字数统计: 2.4k阅读时长: 8 min

 2020/02/26 

最近买了 Ray Wenderlish 上面的《Machine Learning by Tutorials》一书看了看，对机器学习有了进一步的理解。

这本书前面几章特别适合 iOS 背景的同学，因为相关的实践都是直接在 Xcode 环境下做的。

以下是我的一些小结。

机器学习基础概念

首先我们需要理解一些非常基础的概念。

深度学习

虽然严格意义上的机器学习定义范围很广，但是这本书讲的其实是指深度学习（Deep Learning），这也是当前最火的机器学习研究领域。

深度学习其实是一项相对有些年头的研究成果了，它之所以最近 5 年才这么火，主要是因为人们发现了可以用 GPU 来加速其计算过程。原本需要算几年才能训练出来的模型，现在在 GPU 的帮助下可以在几天训练出来了。

这样，一项原本理论上完美但是实际上困难的技术终于落地了。Google 旗下的 DeepMind 研究出来的围棋 AI Alpha Zero，就是在 40 天的训练后，超过了世界围棋冠军以及它的前辈们。

深度学习之所以名字中带深度，是因为它的模型是分层的，这一层一层的模型与人类的大脑皮层类似，我们把它叫做神经网络（Neural Network）。

模型

模型代表的是训练（Training）出来的神经网络，训练的方式有三种：

监督学习（supervised learning）。在训练的时候告诉模型什么是对的，什么是错的，让模型学习。
非监督学习（unsupervised learning）。主要是通过 k-means 之类的算法，让模型自己从数据中找规律。
强化学习（reinforcement learning）。设立一些简单的规则，让模型通过正向奖励和负向惩罚来训练。

模型在训练的时候会抽取特征（feature），比如一个预测房价的模型，那么它的 feature 可能有房间数，面积，楼层，位置，朝向等。

大多数情况下，为了让模型训练出好的能力，都需要进行大量的训练。而很多大量的训练数据，都是通用人工标注来完成的。小猿搜题的拍照搜题算法就是基于深度学习的，为此我们长年维持着一个上百人的标注团队，用于提升模型的准确度。所以我们的同事戏称：

人工智能是有多少人工就有多少智能。

这也是我去年为什么重仓 Tesla 的原因，在相关法律法规还不完善的情况下，特斯拉的自动驾驶算法已经靠它全球几十万辆车收集了海量的数据。有一些甚至是自动驾驶算法的事故数据，而这些海量数据是自动驾驶技术的核心优势。除了 Google，没有第二家有这么海量的数据，特斯拉的自动驾驶算法就值 300 亿美金。

神经网络的工作原理

这本书用了一种很简单的方式解释了神经网络的工作原理。

我们首先定义任务：设计一个神经网络，从一堆图片中区分出猫和狗的图片。

其实任何数据，我们都可以把它看作一段输入的序列。比如一张图片，我们可以看成图片的点的序列，每个点我们又可以看成一个 RGB 值的序列，这样我们就可以把一张图片，变成一个序列。

假设所有图片长宽是 NxN 的，那么它就包含 NxN 个点，每个点有 R,G,B 三个值，这样就是 3xNxN 个值。我们知道，在二维的平面，所有点都是 [x,y] 两个值的。在三维空间，所有点都是 [x,y,z] 三个值的。所以我们当前任务的图片，如果长宽都一样，那么就都是 3xNxN 维空间上的一个点。

这一堆图片，其实就是 3xNxN 维空间上的一堆点。

而神经网络的任务，就是在这个空间中，找出一种方式，把这些点分成两堆，其中一堆全是猫，另一堆全是狗。

为了更形象地举例，书中拿 3 维空间举例，神经网络的任务就是找出一个平面，把下面的点分成两堆。