机器学习记录 - 简介
为了迎合新时代的新技术发展,最近便开始了自学机器学习的艰难道路。从日常我们能够接触到的“垃圾邮件过滤”,“人脸识别”,“笔迹识别”和 “Google PageRank” 等,其实在互联网上到处都有机器学习的影子,这些也都是机器学习在日常应用中的体现。
一、什么是机器学习:
对于这个问题,我不想引用所谓“教程”里的古板术语。从字面意义上来看,“机器学习”就是让机器去学习。学习什么呢?当然是去学习人类的行为方式。比如人类可以在一群人中识别出哪些是自己的朋友,哪些是陌生人。我们同样也可以识别哪些图案是方形的,哪些是圆形的。其实这些简单的小事就是我们想要让机器去学习的东西。
人类在学习事物的过程中,也是通过不断的积累经验然后得到一个统一的规律,然后这些规律逐渐变成了定理,从而可以达到“一眼识别”的效果。其实对于机器来说也是一样的道理。通过给机器提供大量的“样本”案例,让机器在这些案例中自动的寻找规律,最后得到一连串的“特征”,而这些“特征”就是最后用来判断事务的“利器”。
二、机器学习分类:
在我们实际的机器学习应用中,其实可以分为两大类。第一类叫做“有监督学习的机器学习”,另一类叫做“无监督学习的机器学习”。怎么理解呢?所谓的“监督学习”,其实就是指在训练一个机器学习算法的时候,这个算法的学习过程有没有一个正确的指标作为“对照组”。如果机器是按照预先给定的一组我们事先已经确定其属性(比如已经确定这一组都是方形/圆形)的“对照组”来进行学习的,那么这个机器学习的过程就叫做“有监督学习”,机器会在这一组“对照组”中寻找特定的关系,比如“这一组圆形的物体都包含什么样的特征?”,通过大量的这种学习后,最后得出一个对应的机器学习算法,并在其他没有确定属性的“对照组”中进行检验。而“无监督学习的机器学习”正好相反,这种机器学习算法会自动在给定的、未知属性的“对照组”中自动的寻找特征并加以区分,最后得出一个相应的算法。
对于“监督学习”,我们又可以分为“分类学习”和“回归学习”。而对于“无监督学习”只对应于“聚类学习”。“分类学习”顾名思义,机器通过大量我们给定的已分类的样本集来进行学习,进而得出一个分类算法,最后将该算法在其他未知的测试样本集中进行检验测试该算法分类的准确性。“回归学习”一般用来进行预测,比如通过已给定的大量房屋售价与房屋面积和房屋使用时间的关系,机器可以通过这些给定的数据进行训练,进而得出一个算法,最后我们可以通过该算法来预测其他未给定房屋的房屋面积和使用时间来预测该房屋的可能出售价格。“聚类学习”不要与“分类学习”混淆,举个例子,我们给定一个测试样本集包含了大量的三角形、圆形和方形分别散落在不同区域,如果在该样本集上应用聚类算法,则该算法会自动将所有的三角形、圆形和方形分为三类(比如用三种颜色来表示)。而分类算法不仅会将所有的三角形、圆形和方形用三种不同颜色表示,而且还会标记出这三类分别是什么形状(因为分类算法是通过我们给定的样本集学习的)。这就是分类和聚类的不同。
三、其他机器学习算法:
强化学习、遗传算法。
评论 | Comments