您好、欢迎来到现金彩票网!
当前位置:PC蛋蛋 > 总体模型 >

SSAS 如何编写自定义挖掘算法

发布时间:2019-07-07 21:14 来源:未知 编辑:admin

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部当我们创建数据挖掘模型后,得了解该模型的准确性。默认情况下,在创建挖掘结构时默认使用30%的数据做测试,使用70%的数据将用于模型定型。建模后,可以打开“挖掘准确性图表”进行验证,那这些图怎么看呢?官网解释的太官方了、太啰嗦了,看了好久才明白。理解后原来如此简单!

  模型建好了,如果有多个模型,则勾选需要查看的模型。这里预测的属性是贷款用户的“回款情况”,只有 true 和 false 两个值。看提升图,首先选择挖掘模型,再选择预测值 true(表示还款,应选择有意义的值)。

  使用挖掘结构测试事例:创建挖掘结构时定义的测试数据集,默认30%(下图)

  上图为创建挖掘结构时选择的测试数据百分比。这里选择“使用挖掘结构测试事例”。接下来点击“提升图”选项,打开提升图(此图为带有预测目标的提示图)

  X轴(总体%):当前用于比较预测的预测数据集百分比。如果当前测试有10000条记录,50%则表示随机使用5000行记录。100%则表示使用全部10000条记录。

  Y轴(目标总体[True]%):表示预测值的百分比。即目标true 发生的概率。

  蓝色线条:随机推测模型,永远对角线%数据集时,数据集内回款情况为 ture 的肯定全部都包括在内。如果选择50%的数据,那么回款为ture的数量,随机概率也有50%。

  绿色线条:理想模型,从图可以看出(灰色线%回款情况是为true的。如果总体是10000条数据,那么应该有3800条数据“回款情况=true”的记录(也可以用sql统计看看)。在理想情况下,如果我们用模型预测找出3800条记录,而这3800条记录刚好完好“回款情况=true”,那就太理想了,其他记录可以不管了,只要这3800条有用的就行了。然而,理想情况几乎很难达到!

  红色线条:预测发生的概率。该线条肯定是在随机线条与理想线条之间,因为我们的预测肯定是大于随机选择的,但永远无法达到理想情况。如上图,当我们选择38%的总体数据时,模型预测出这数据集中约有53%是“回款情况=true”的记录。如总体10000条数据,通过模型我选择出3800条记录,这记录中“回款情况=true”的应该有2014(3800*0.53) 条记录。看这概率是不是很大了!如果选择50%的数据呢?(把灰色线%看看~~)

  分数:分数越高,模型越好。可以通过分数不断优化模型,或者用来比较各个模型优劣。

  预测概率:表示包含“可能发生”事例中的客户所需的阈值。对于每个事例,模型估计每个预测的准确性并存储该值,您可以使用该值筛选或锁定目标客户。若要找到模型识别可能回款的客户,应使用查询检索“预测概率”至少为42.08% 的事例。这话什么意思呢?在提升图中,可以将灰色线条往左或右放置,就会发现,越往右,预测概率越小,越往左,预测概率越大,所以我们应该往左取总体数据来预测。往右的话,总体数据越来越大,预测就没有意义了。

  “分类矩阵” 通过确定预测值是否与实际值匹配,将模型中的所有事例分为不同的类别。 然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。 分类矩阵是评估统计模型的标准工具,有时被称为“混淆矩阵” 。

  分类矩阵是评估预测结果的重要工具,因为它使得结果更易于理解并说明错误预测的影响。通过查看此矩阵中每个单元的金额和百分比,可以快速查看模型做出准确预测的频率。

  当前预测的回款情况,要么还款,要么未还款,所以该属性只有两个值。因此,第一列为预测列,预测列有两个值(true和false)。第二和第三列为实际值,因为只有 true和false ,所以只有两列实际值。

  先看第一行,预测值等于false 时,实际为false(第二列)的数量为 16544,即预测值等于实际值的有 16544 个事例,为“真”的次数。第一行预测值为 false,但是实际上(第三列)却出现了true的情况,true 的事例有7357个,为“假”的数目,说明预测错了。要是7357为0的话那就表示非常准确了。同理,看看第二行预测为 True 的情况看看。

http://erginmurat.com/zongtimoxing/313.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有