人工智能的知识体系–回归算法

【声明】本文为AdamsLee原创,转载请注明出自围炉网并保留本文有效链接:人工智能的知识体系–回归算法, 转载请保留本声明!

预测与对象相关联的连续值属性,常见的算法有:SVR(支持向量机)、 ridge regression(岭回归)、Lasso,常见的应用有:药物反应,预测股价。

  • 回归分析

    • 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。

  • 线性回归(Linear Regression)

    • 线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。y = wx + b 。y为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因此,为了构建这个函数关系,目标是通过已知数据点,求解线性模型中w和b两个参数。

    • sklearn.linear_model提供了很多线性模型,包括岭回归、贝叶斯回归、Lasso等

    • 岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的

  • 目标/损失函数

    • 求解最佳参数,需要一个标准来对结果进行衡量,为此需要定量化一个目标函数式,使得计算机可以在求解过程中不断地优化。

    • 针对任何模型求解问题,都是最终都是可以得到一组预测值y^ ,对比已有的真实值 y ,数据行数为 n ,可以将损失函数定义如下:即预测值与真实值之间的平均的平方距离,统计中一般称其为MAE(mean square error)均方误差。把之前的函数式代入损失函数,并且将需要求解的参数w和b看做是函数L的自变量

    • 求解方式有两种:

      • 最小二乘法(least square method)

        • 求解 w 和 b 是使损失函数最小化的过程,在统计中,称为线性回归模型的最小二乘“参数估计”(parameter estimation)。

      • 梯度下降(gradient descent)

        • 梯度下降核心内容是对自变量进行不断的更新(针对w和b求偏导),使得目标函数不断逼近最小值的过程

  • 回归树 Regression Decision Tree

    • 回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值。以年龄为例,该预测值等于属于这个节点的所有人年龄的平均值。

  • Boosting Decision Tree:提升树算法

    • 提升树是迭代多棵回归树来共同决策。当采用平方误差损失函数时,每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树,残差的意义如公式:残差 = 真实值 – 预测值 。提升树即是整个迭代过程生成的回归树的累加。

  • GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),

    • 是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。

    • GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。

    • 推荐GBDT树的深度:6;(横向比较:DecisionTree/RandomForest需要把树的深度调到15或更高)

    • 随机森林(random forest)和GBDT都是属于集成学习(ensemble learning)的范畴。

  • Lasso

    • 一种变量选择方法,使用罚约束来筛掉拟合模型中的系数。

    • 稀疏性假设:

      • 假如,我们考虑一个线性回归模型,有一个因变量Y,但有成百上千的自变量X。我们假设,只有有限个X的回归系数不为0,但其余的都是0。也就是说他们跟Y并没有啥子特别显著的关系。找到其中重要的X,对我们理解数据有重要的意义。

此条目发表在未分类分类目录,贴了标签。将固定链接加入收藏夹。