人工智能的知识体系–基础

【声明】本文为AdamsLee原创,转载请注明出自围炉网并保留本文有效链接:人工智能的知识体系–基础, 转载请保留本声明!
  • 估计方法

    • 概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数估计,统计学界的两个学派分别提供了不同的解决方案:频率主义(Frequentist)和贝叶斯主义(Beyesian)。

    • 频率主义:用频率表示概率,为客观概率,频率是从样本数据中统计得到。频率主义认为参数θ是未知但确定的,是点估计。最大似然估计是点估计的一种常用的方法,也属于频率统计的一种。

    • 贝叶斯主义:在先验概率基础上,通过增加证据得到后验概率,为主观概率,先验概率是历史知识,证据是样本数据。贝叶斯主义认为参数θ是未知且随机的,是分布估计。频率主义可以看做是贝叶斯主义的一个特例,隐含了先验知识。

    • 频率主义的最大似然估计(使用样本数据进行的点估计)、贝叶斯主义的贝叶斯估计(使用先验知识和样本数据进行的分布估计)、以及结合最大似然估计和贝叶斯估计优点的最大后验估计(使用先验知识和样本数据进行的点估计)。

    • 最大似然估计和最大后验估计都是基于一个假设,即把待估计的参数π看做是一个固定的值,只是其取值未知。而最大似然是最简单的形式,其假定参数虽然未知,但是是确定值,就是找到使得样本对数似然分布最大的参数。而最大后验,只是优化函数为后验概率形式,多了一个先验概率项。 而贝叶斯估计和二者最大的不同在于,它假定参数是一个随机的变量,不是确定值。在样本分布P(π|χ)上,π是有可能取从0到1的任意一个值的,只是取到的概率不同。而MAP和MLE只取了整个概率分布P(π|χ)上的一个点,丢失了一些观察到的数据χ给予的信息(这也就是经典统计学派和贝叶斯学派最大的分歧所在。)

  • 正则化(regularization)

    • 是指为解决适定性问题或过拟合而加入额外信息的过程。在机器学习和逆问题的优化过程中,正则项往往被加在目标函数当中。

    • 由于训练集当中统计噪声的存在,冗余的特征可能成为过拟合的一种来源。这是因为,对于统计噪声,模型无法从有效特征当中提取信息进行拟合,故而会转向冗余特征。为了对抗此类过拟合现象,人们会希望让尽可能多的为零。为此,最直观地,可以引入L0-正则项

    • 通过引入L0-正则项,人们实际上是向优化过程引入了一种惩罚机制:当优化算法希望增加模型复杂度(此处特指将原来为零的参数更新为非零的情形)以降低模型的经验风险(即降低全局损失)时,在结构风险上进行惩罚。于是,当增加模型复杂度在经验风险上的收益不足时,整个结构风险实际上会增大而非减小。因此优化算法会拒绝此类更新。

    • 引入L0-正则项可使模型参数稀疏化,以及使得模型易于解释。但L0-正则项也有无法避免的问题:非连续、非凸、不可微。因此,在引入L0-正则项的目标函数上做最优化求解,是一个无法在多项式时间内完成的问题。于是,人们转而考虑L0-范数的最紧凸放松——L1-范数

    • 引入L1-正则项是在结构风险上进行惩罚,以达到稀疏化的目的。L1-正则项亦称LASSO-正则项

    • 在发生过拟合时,模型的函数曲线往往会发生剧烈的弯折,这意味着模型函数在局部的切线之斜率非常高。一般地,函数的曲率是函数参数的线性组合或非线性组合。为了对抗此类过拟合,人们会希望使得这些参数的值相对稠密且均匀地集中在零附近。于是,人们引入了L2-范数,作为L2-正则项。

图中左侧是训练集,右侧是验证集。训练集和验证集数据均是由线性函数加上一定的随机扰动生成的。图中橙色直线是以线性模型拟合训练集数据得到模型的函数曲线;绿色虚线则是以15-阶多项式模型拟合训练数据得到模型的函数曲线。由此可见,尽管多项式模型在训练集上的误差小于线性模型,但在验证机上的误差则显著大于线性模型。此外,多项式模型为了拟合噪声点,在噪声点附近进行了高曲率的弯折。这说明多项式模型过拟合了训练集数据。

  • 集成学习(Ensemble Learning)

    • 集成学习归属于机器学习,他是一种「训练思路」,并不是某种具体的方法或者算法。集成学习的核心思路就是把已有的算法进行结合,从而得到更好的效果

    • 集成学习下有两个重要的策略Bagging和Boosting。

      • Bagging

        • 具体过程:

          • 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)

          • 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)

          • 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)

        • 举例:

          • 在 bagging 的方法中,最广为熟知的就是随机森林了:bagging + 决策树 = 随机森林

      • Boosting

        • Boosting 和 bagging 最本质的差别在于他对基础模型不是一致对待的,而是经过不停的考验和筛选来挑选出「精英」,然后给精英更多的投票权,表现不好的基础模型则给较少的投票权,然后综合所有人的投票得到最终结果。

        • 大部分情况下,经过 boosting 得到的结果偏差(bias)更小。

        • 具体过程:

          • 通过加法模型将基础模型进行线性的组合。

          • 每一轮训练都提升那些错误率小的基础模型权重,同时减小错误率高的模型权重。

          • 在每一轮改变训练数据的权值或概率分布,通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样例的权值,来使得分类器对误分的数据有较好的效果。

        • 举例:

          • 在 boosting 的方法中,比较主流的有 Adaboost 和 Gradient boosting 。

      • Bagging 和 Boosting 的4点差别

        • 样本选择上:

          • Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。

          • Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

        • 样例权重:

          • Bagging:使用均匀取样,每个样例的权重相等

          • Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

        • 预测函数:

          • Bagging:所有预测函数的权重相等。

          • Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

        • 并行计算:

          • Bagging:各个预测函数可以并行生成

          • Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

  • 分类问题评估指标

    • TP:(实际为正例,预测也为正例) FP:(实际为负例,预测为正例) FN:(实际为正例,预测为负例) TN:(实际为负例,预测也为负例)

    • 准确率(Accuracy) = (TP + TN) / 总样本 =(40 + 10)/100 = 50%。 定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

      • 如果样本不平衡,准确率就会失效。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率

    • 精确率(Precision) = TP / (TP + FP) = 40/60 = 66.67%。它表示:预测为正的样本中有多少是真正的正样本,它是针对我们预测结果而言的。Precision又称为查准率。

    • 召回率(Recall) = TP / (TP + FN) = 40/70 = 57.14% 。它表示:样本中的正例有多少被预测正确了, 它是针对我们原来的样本而言的。Recall又称为查全率。

      • 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。召回率越高,代表实际坏用户被预测出来的概率越高

    • 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)

    • F1

      • 精确率和召回率是一对矛盾的度量,一般来说,精确率高时,召回率往往偏低;而召回率高时,精确率往往偏低。

      • 为了综合精确率和召回率的表现,在两者之间找一个平衡点。F1=(2×Precision×Recall)/(Precision+Recall)

  • 回归问题评估指标

    • 均方误差 MSE(Mean Squared Error)

    • 均方根误差 RMSE(Root Mean Squared Error)

    • 平均绝对误差 MAE

    • R-Squared

  • 元学习 – Meta learning

    • 元学习的思想是学习“学习(训练)”过程。

    • Meta learning (元学习) 的兴趣首先起源于机器学习在few-shot learning问题中遭遇的困难。我们知道NN在大部分任务上,如CV / NLP,之所以能取得相当良好的表现,一个相当重要的因素便是这些领域易于获得海量的数据,well-presented data是能够驱动NN这类复杂模型从数据中提取模式的关键。

  • Few-shot Learning

    • 在某些任务中,其中的一些类别只有相当少量的数据(few-shots),如此一来few-shot learning的问题可以表述为:如何训练一个模型,让其在只见过某一个类很少的样本后,就能较好地分类该类样本。

此条目发表在未分类分类目录,贴了标签。将固定链接加入收藏夹。