Python数据科学:正则化方法
发布时间:2019-01-28 07:08:26 所属栏目:教程 来源:小F
导读:本文主要介绍,Python数据科学:正则化方法。正则化方法的出现,通过收缩方法(正则化方法)进行回归。 正则化方法主要包括岭回归与LASSO回归。 一、岭回归 岭回归通过人为加入的惩罚项(约束项),对回归系数进行估计,为有偏估计。 有偏估计,允许估计有不大
|
所以正则化系数只要小于40或50,模型的拟合效果应该都不错。
RidgeCV通过交叉验证,可以快速返回“最优”的正则化系数。 当这只是基于数值计算的,可能最终结果并不符合业务逻辑。 比如本次模型的变量系数。
发现收入的系数为负值,这肯定是不合理的。 下面通过岭迹图进行进一步分析。 岭迹图是在不同正则化系数下变量系数的轨迹。
输出结果。
综合模型均方误差和岭迹图的情况,选取正则化系数为40。
那么就来看看,当正则化系数为40时,模型变量系数的情况。
发现变量系数都为正值,符合业务直觉。 收入和当地人均收入这两个变量可以保留,另外两个删除。 二、LASSO回归 LASSO回归,在令回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化。 从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。 相比岭回归,LASSO回归还可以进行变量筛选。 使用LassoCV交叉验证确定最优的正则化系数。
发现最优的正则化系数为0.04,模型R²为0.443。 接下来获取不同正则化系数下的变量系数轨迹。
(编辑:哈尔滨站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 消息称 ARM 中国区执行董事长兼 CEO 吴雄昂被免职(更新官方
- 治理员工开小差别巡逻 路由器一招搞定
- 51信用卡被查引发“爬虫技术”争议 是否侵犯个人信息?
- 为应对疫情,SynthesisVR面向线下运营商限时免费推出两款育
- VR逃生游戏《Dr. Crumb’s School for Disobedient Pets》登
- 物联网观察:一文读懂LoRaWAN技术应用的七大好处
- 庆祝独立日:美国XR内容厂商HoloPundits即将发布AR应用Tota
- Digi-Capital报告解读:COVID-19如何改变VR/AR的未来?
- 浅谈大数据开发工程师的两年工作经验总结
- SteamVR跟踪开发套件旨在使VR控制器更小,更易于设计

