对于这些机器学习算法数学不好你还真看不懂

2024.04.25

    机器学习技术不仅仅影响着当前的人工智能领域，在笔者看来，机器学习当中的算法技术甚至还可能影响到大数据对于很多领域的应用深度和广度，对于机器学习的算法来说，我们可以描述成学习一个目标函数f，它能够最好地映射出输入变量X到输出变量Y。有一类普遍的学习任务。我们要根据输入变量X来预测出Y。我们不知道目标函数f是什么样的。如果早就知道，我们就可以直接使用它，而不需要再通过机器学习算法从数据中进行学习了。
    接下来我们就来了解一下常见的几种机器学习算法以及其原理构成。
    线性回归
    线性回归是机器学习应用比较广泛的一类概念和技术，线性回归通过找到一组特定的权值，称为系数B。通过最能符合输入变量x到输出变量y关系的等式所代表的线表达出来。
    不同的技巧可以用于线性回归模型。比如线性代数的普通最小二乘法，以及梯度下降优化算法。线性回归已经有超过200年的历史，已经被广泛地研究。根据经验，这种算法可以很好地消除相似的数据，以及去除数据中的噪声。它是快速且简便的首选算法。
    逻辑回归
    逻辑回归是另外一种从统计领域借鉴而来的机器学习算法，和线性回归一样，它的目的是找出每个输入变量所对应的参数值，但不同的是，预测输出所用的变换是一个被称作logistic的非线性函数。
    正是因为模型学习的这种方式，逻辑回归做出的预测可以被当做输入为0和1两个分类数据的概率值。这在一些需要给出预测合理性的问题中非常有用。就像线性回归，在需要移除与输出变量无关的特征以及相似特征方面，逻辑回归可以表现得很好。在处理二分类问题上，它是一个快速高效的模型。
    线性判别分析
    逻辑回归是一个二分类的算法问题，当然如果需要去进行更多的分类，限行判别分析算法，也就是LDA是一种更好的线性分类方式。LDA包含对每一类输入数据的统计特性（包含类内样本均值和总体样本变量）。通过计算每个类的判别值，并根据最大值来进行预测。这种方法假设数据服从高斯分布（钟形曲线）。所以它可以较好地提前去除离群值。它是针对分类模型预测问题的一种简单有效的方法。
    回归树分析方法
    决策树式机器学习预测建模的一类重要算法，对于机器学习来说，可以用二叉树去解释决策树模型，也就是根据算法和数据结构去建立起二叉树的模型，每个节点都是代表一个输入变量以及变量的分叉点，可以假设它是数值变量，树的叶节点包括用于预测的输出变量y。通过树的各分支到达叶节点，并输出对应叶节点的分类值。
    朴素贝叶斯
    这个模型包括两种概率。它们可以通过训练数据直接计算得到：每个类的概率；给定x值情况下每个类的条件概率。根据贝叶斯定理，一旦完成计算，就可以使用概率模型针对新的数据进行预测。