变量选择方法(工具变量的选择必须满足的条件)

来源:国外服务器 在您之前已被浏览:1 次
导读:目前正在解读《变量选择方法(工具变量的选择必须满足的条件)》的相关信息,《变量选择方法(工具变量的选择必须满足的条件)》是由用户自行发布的知识型内容!下面请观看由(国外主机 - www.2bp.net)用户发布《变量选择方法(工具变量的选择必须满足的条件)》的详细说明。
笨笨网美国主机,w ww.2 b p .n e t

就是选择X

可能模型的入参有很多X,那么如何选择这些X?


WOE weight of evidence 证据权重。

变量选择方法(工具变量的选择必须满足的条件)

这里就顺道说下odds ratio (OR值)的概念:odds 优势比。

比如下雨的概率为0.25,不下雨的概率为0.75。0.25与0.75的比值可以约分为1比3。因此,我们可以说今天将会下雨的优势比为1:3(或者今天不会下雨的概率比为3:1)

若是风控模型,病例组就是正样本,对照组就是好样本。

WOE=ln(BI/BT / GI/GT)*100%=ln(p1/p0)= ln(BI/GI / BT/GT)=ln(oddsi / oddsT)

p1和p0分别表示了违约样本与正常样本占各自总体的比例;

可以认为WOE衡量了自变量取Ai时的违约险算比(oddsratio)与总体违约险算比之间的某种差异。正因为如此,直观地可以认为WOE蕴含了自变量取值对目标变量(违约概率)的某种影响,因此可以自然地将自变量重新编码:当自变量取值Ai时,编码为相应的WOEi。

变量选择方法(工具变量的选择必须满足的条件)变量选择方法(工具变量的选择必须满足的条件)变量选择方法(工具变量的选择必须满足的条件)变量选择方法(工具变量的选择必须满足的条件)变量选择方法(工具变量的选择必须满足的条件)

IV information value 信息值。

IV=sum((p1-p0)*log(p1/p0)) 。

变量选择方法(工具变量的选择必须满足的条件)变量选择方法(工具变量的选择必须满足的条件)

IV值可以用于衡量各变量对y的预测能力,用于筛选变量。

对离散型的变量,如 一线城市、二线城市;博士、硕士等学历变量。woe可以观察各个level间的跳转对odds的提升是否是线性的。而IV值可以衡量变量整体的预测能力。

对连续变量而言,可以通过将连续变量进行分箱的合理,可能是等距分箱,可能是等频分箱,一般选后者。此时WOE和IV拥有和 离散型变量同样的意义。

笨笨网美国主机,w ww.2 b p .n e t
提醒:《变量选择方法(工具变量的选择必须满足的条件)》最后刷新时间 2025-03-21 11:17:45,本站为公益型个人网站,仅供个人学习和记录信息,不进行任何商业性质的盈利。如果内容、图片资源失效或内容涉及侵权,请反馈至,我们会及时处理。本站只保证内容的可读性,无法保证真实性,《变量选择方法(工具变量的选择必须满足的条件)》该内容的真实性请自行鉴别。