1. 问题提出

如果你想要预测房价,下图是一些收集的数据,横轴是房子的面积,纵轴是房子的价格。

如果你的朋友有一栋 750 平方英尺的房子,他要卖掉这栋房子,想知道能卖多少钱,怎么使用算法来预测价格?

如果在图中使用一条直线来拟合数据,如下图,这栋房子可以卖大约 15000 美元。

这不是最好的或者唯一的方法,除了使用直线,也可能使用二次函数能更好的拟合数据,那么我们接下来要讨论的问题是如何来选择拟合数据的方法。

2. 监督学习定义

  • 正确的答案已经给定。对于房价数据集中的每一个样本,都能给出正确的价格,算法的目的是给出更多争取的答案

3. 回归问题和分类问题

房价的预测可以被称为:回归问题,即预测连续的数值输出。

下图是另一个例子,通过肿瘤(Tumor)的大小,来预测肿瘤是否为恶性(Malignant)。

肿瘤恶性的预测输出值只能为 0(良性)和 1(恶性),这是另一种监督学习问题:分类问题,即预测离散的数值输出

分类问题可以有更多的输出,例如 0(良性)、 1(第一种癌症)、2(第二种癌症)等,还可以下图的方式来表示分类。其中,“o”代表良性,“×”代表恶性,与上图的表示一一对应。

下图是另一个例子,通过肿瘤(Tumor)的大小和年龄(Age)两个特征,来预测肿瘤是否为恶性(Malignant)。其中,“o”代表良性,“×”代表恶性。这时我们可以用如图所示的黑色直线来区分两种类型,位于直线下方为良性肿瘤,位于上方为恶性肿瘤。

预测肿瘤的分类还可以有其他特征,例如:

  • 肿块的厚度
  • 肿瘤细胞大小的均匀性
  • 肿瘤细胞形状的均匀性

算法不仅能处理两三四个特征,而是能处理无穷多数量的特征。支持向量机(SVM)就是一种允许计算机处理无穷多特征的方法。

4. 一个问题

你正在经营一家公司,并且你想开发学习算法来解决下面两个问题:

  • 问题1:你有很多相同的货物的库存要卖,你想预测在接下来的三个月里,这些货物能销售多少。
  • 问题2:你想要写一个软件来检查每一个客户的账户,是否被入侵或破坏

这两个 问题该被归为分类问题还是回归问题?

答案:问题1应该被看做回归问题,问题2应该被看做分类问题。