1. 问题提出
如果你想要预测房价,下图是一些收集的数据,横轴是房子的面积,纵轴是房子的价格。
如果你的朋友有一栋 750 平方英尺的房子,他要卖掉这栋房子,想知道能卖多少钱,怎么使用算法来预测价格?
如果在图中使用一条直线来拟合数据,如下图,这栋房子可以卖大约 15000 美元。
这不是最好的或者唯一的方法,除了使用直线,也可能使用二次函数能更好的拟合数据,那么我们接下来要讨论的问题是如何来选择拟合数据的方法。
2. 监督学习定义
- 正确的答案已经给定。对于房价数据集中的每一个样本,都能给出正确的价格,算法的目的是给出更多争取的答案
3. 回归问题和分类问题
房价的预测可以被称为:回归问题,即预测连续的数值输出。
下图是另一个例子,通过肿瘤(Tumor)的大小,来预测肿瘤是否为恶性(Malignant)。
肿瘤恶性的预测输出值只能为 0(良性)和 1(恶性),这是另一种监督学习问题:分类问题,即预测离散的数值输出。
分类问题可以有更多的输出,例如 0(良性)、 1(第一种癌症)、2(第二种癌症)等,还可以下图的方式来表示分类。其中,“o”代表良性,“×”代表恶性,与上图的表示一一对应。
下图是另一个例子,通过肿瘤(Tumor)的大小和年龄(Age)两个特征,来预测肿瘤是否为恶性(Malignant)。其中,“o”代表良性,“×”代表恶性。这时我们可以用如图所示的黑色直线来区分两种类型,位于直线下方为良性肿瘤,位于上方为恶性肿瘤。
预测肿瘤的分类还可以有其他特征,例如:
- 肿块的厚度
- 肿瘤细胞大小的均匀性
- 肿瘤细胞形状的均匀性
算法不仅能处理两三四个特征,而是能处理无穷多数量的特征。支持向量机(SVM)就是一种允许计算机处理无穷多特征的方法。
4. 一个问题
你正在经营一家公司,并且你想开发学习算法来解决下面两个问题:
- 问题1:你有很多相同的货物的库存要卖,你想预测在接下来的三个月里,这些货物能销售多少。
- 问题2:你想要写一个软件来检查每一个客户的账户,是否被入侵或破坏
这两个 问题该被归为分类问题还是回归问题?
答案:问题1应该被看做回归问题,问题2应该被看做分类问题。