本文首发微信公众号:全副武装的大师兄——一个分享阅读和技术的平台
机器学习是利用经验来提高性能或进行准确预测的计算方法。
经验一般是指可提供使用的过去信息,一般采用电子数据的形式收集和分析,这些信息可以是人工标记的训练集,或者与环境交互获得的其他类型信息。
样本是用于算法学习或算法评估的数据或数据实例。
例如,在垃圾电子邮件分类中,样本是用来让算法学习和测试的电子邮件集合。
特征是与样本关联的一组属性,通常用向量表示。
如表1所示,萼片长度,萼片宽度,花瓣长度,花瓣宽度就是特征,每一行就是一条数据,标签是品种类别。
表1 鸢尾花数据集部分
序号 萼片长度 萼片宽度 花瓣长度 花瓣宽度 品种类别
1 5.1 3.5 1.4 0.2 setosa
2 6.7 3.0 5.2 2.3 virginica
3 4.9 3.0 1.4 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 6.3 2.5 5.0 1.9 virginica
6 5.9 3.0 5.0 1.8 virginica
每一个样本对应的类别或者值叫做样本的标签。
在分类问题中,样本被分为特定的类别,如表1所示,萼片长度是5.1,萼片宽度3.5,花瓣长度1.4,花瓣宽度0.2是setosa类型的鸢尾花。在回归问题中,赋予样本标签一个具体的值。
一组(个)作为机器学习算法输入的,不需要通过算法确定的参数(与机器学习算法或深度学习算法进行梯度更新时的权重参数不同)。
例如,学习率,dropout等为超参数
训练样本是用于训练机器学习算法的样本。
例如,表1中所示,我们将第1、2、3条数据作为训练样本去训练机器学习算法。
验证样本是用于选择机器学习算法中超参数的样本。即,通过调整模型的参数来提高算法的性能。
例如,表1中所示,我们将第4、5条数据作为验证样本去评估算法不同超参数的性能,并选择性能最佳的参数或参数组合。
测试样本是用于评估机器学习算法的样本。测试样本与训练样本和验证样本分开,不在学习阶段提供。已经学习好的算法需要根据测试样本中的特征预测其标签,并将预测结果与该样本对应的标签进行比较,以衡量其性能。
例如,表1中所示,我们将第6条数据作为测试样本,假设我们已经训练好了机器学习算法,那么在测试阶段,算法根据第6条数据,即,5.9,3.0, 5.0, 1.8去预测这个样本是否为virginica品种的鸢尾花。
损失函数是用于衡量预测标签和真实标签差异的函数。
分类问题是根据数据的特征将其分配到一个类别。
例如,文档分类包括将每个文档分配到一个类别(情感、商业、体育或天气),而图像分类包括将每个图像分配到一个类别(猫、狗、牛、蛇)
回归问题是根据数据的特征预测实际值。
例如,预测股票的开盘价或某一地区平均工资的变化。
排序问题是根据给定的标准对数据进行排序。
例如,网页搜索返回与搜索查询相关的网页,是典型的排序问题。
聚类问题是将数据划分为不同子集。
例如,某付费视频网站把付费用户按照几个特定的维度,如利润贡献、用户年龄、续费次数等进行聚类划分,得到不同特征的群体。通过聚类还能探测、发现异常值,异常值是指相对于整体数据而言的少数数据。
降维是将数据的初始表示转换为较低维度表示,同时保留初始表示的某些属性。
监督学习是指机器学习算法使用带有标签的样本作为训练数据,并对所有未见过的数据进行预测。
无监督学习是指机器学习算法使用不带有标签的样本作为训练数据,并对所有未见过的数据进行预测。
半监督学习是指机器学习算法使用带标签和不带标签的样本作为训练数据,并对所有未见过的数据进行预测。
迁移学习是指将已经学习过的知识或经验应用到新的学习任务中,以提高学习效果的一种机器学习方法。
在线学习包含多轮学习和测试交替进行。在每一轮中,机器学习算法接收一个无标签的训练数据,进行预测,并与真实标签比较,产生损失。在线学习的目标是每轮都最小化累积损失。
在强化学习中,训练和测试阶段也是交替进行的。学习者主动与环境进行交互,通过执行动作来影响环境,并通过动作获得即时奖励。强化学习算法的目标是在一系列动作和迭代中最大化其回报。但是,环境不提供长期的奖励反馈,因此需要在与环境的交互中不断尝试和学习,并需要在探索未知操作以获取更多信息和利用已收集的信息之间做出选择。
机器学习算法通过自适应或交互式地收集训练样本,通常通过查询预测结果来请求新数据点的标签。主动学习的目标是在只有少量标记样本的情况下达到与监督学习相当的性能。主动学习通常在标签获取昂贵的应用中使用,例如计算生物学应用。
参考资料
[1]: Foundations of Machine Learning