机器学习中常用的十类算法

2024.04.11

    AI技术发展的三大支柱：“算法＋大数据＋计算能力”，算法是人工智能发展的核心关键之一，很多技术环节和系统功能的实现都依赖于算法的精准度，算法的优劣直接影响了人工智能的发展方向。那么我们当下感受到的人工智能生活服务，运用了哪些AI算法呢？跟随OFweek编辑一起来看看吧。
    1．人工神经网络
    人工神经网络（ANN）以大脑处理机制作为基础，开发用于建立复杂模式和预测问题的算法。该类型算法在语音、语义、视觉、各类游戏等任务中表现极好，但需要大量数据进行训练，且训练要求很高的硬件配置。
    ANN在图像和字符识别中起着重要的作用，手写字符识别在欺诈检测甚至国家安全评估中有很多应用。ANN 的研究为深层神经网络铺平了道路，是「深度学习」的基础，现已在计算机视觉、语音识别、自然语言处理等方向开创了一系列令人激动的创新。
    2．决策树
    在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。其采用一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
    决策树算法属于非参数型，较为容易解释，但其趋向过拟合；可能陷入局部最小值中；无法在线学习。决策树的生成主要分为两步：1．节点的分裂：当一个节点所代表的属性无法给出判断时，则选择将该节点分成2个子节点 2．阈值的确定：选择适当的阈值使得分类错误率最小。
    3．集成算法
    简单算法一般复杂度低、速度快、易展示结果，其中的模型可以单独进行训练，并且它们的预测能以某种方式结合起来去做出一个总体预测。每种算法好像一种专家，集成就是把简单的算法组织起来，即多个专家共同决定结果。
    集成算法比使用单个模型预测出来的结果要精确的多，但需要进行大量的维护工作。
    AdaBoost的实现是一个渐进的过程，从一个最基础的分类器开始，每次寻找一个最能解决当前错误样本的分类器。好处是自带了特征选择，只使用在训练集中发现有效的特征，这样就降低了分类时需要计算的特征数量，也在一定程度上解决了高维数据难以理解的问题。
    4．回归算法
    回归分析是在一系列的已知自变量与因变量之间的相关关系的基础上，建立变量之间的回归方程，把回归方程作为算法模型，通过其来实现对新自变量得出因变量的关系。因此回归分析是实用的预测模型或分类模型。
    5．贝叶斯算法
    朴素贝叶斯分类是一种十分简单的分类算法：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。
    朴素贝叶斯分类分为三个阶段，1．根据具体情况确定特征属性，并对每个特征属性进行适当划分，形成训练样本集合2．计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计3．使用分类器对待分类项进行分类。
    6．K近邻
    K紧邻算法的核心是未标记样本的类别，计算待标记样本和数据集中每个样本的距离，取距离最近的k个样本。待标记的样本所属类别就由这k个距离最近的样本投票产生，给定其测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。
    K紧邻算法准确性高，对异常值和噪声有较高的容忍度，但计算量较大，对内存的需求也较大。该算法主要应用于文本分类、模式识别、图像及空间分类。
    7．聚类算法
    聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中，我们可以通过聚类算法将其分成一些不同的组。应用中科利用聚类分析，通过将数据分组可以比较清晰的获取到数据信息。该算法让数据变得有意义，但存在结果难以解读，针对不寻常的数据组，结果可能无用。
    在商业领域中，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。
    8．随机森林算法
    随机森林是一种有监督学习算法，基于决策树为学习器的集成学习算法。随机森林非常简单，易于实现，计算开销也很小，但是它在分类和回归上表现出非常惊人的性能，因此，随机森林被誉为“代表集成学习技术水平的方法”。
    随机森林拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。
    9．支持向量机
    支持向量机通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。
    支持向量机可应用于诸如文本分类，图像分类，生物序列分析和生物数据挖掘，手写字符识别等领域。
    10．深度学习
    深度学习基于人工神经网络的机器学习，区别于传统的机器学习，深度学习需要更多样本，换来更少的人工标注和更高的准确率。
    深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。作为复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。
    小结
    算法是计算机科学领域最重要的基石之一，当下需要处理的信息量是呈指数级的增长，每人每天都会创造出大量数据，无论是三维图形、海量数据处理、机器学习、语音识别，都需要极大的计算量，在AI时代越来越多的挑战需要靠卓越的算法来解决。