我们该怎么玩数据

来自:机器学习算法与Python精研(微信号:AITop100),作者:鱼大大的进步主义

数据挖掘核心:

以业务为核心,

以思路为重点,

以挖掘技术为辅佐。



本周看了一本关于数据挖掘方面的书,此文是笔记也结合自己的感悟进行总结,欢迎一起学习理解数据挖掘在商业实践中的应用流程,相信这不仅对于自己,对于各位正从事数据挖掘朋友,机器学习算法的工程师,或者各公司的老板都有一定的意义。


对于技术达人,一定要懂项目管理,知道技术如何在商业中落地,让技术能够真正帮助公司,实现自我价值,同时使自己的生活更好。

对于老板,应该知道数据驱动将会是未来大多数公司新发展的动力,应该了解数据如何帮助企业实现突破,解围。


数据挖掘的流程总共可以分为以下12个步骤:


1.项目背景和业务需求的提出


有痛点,才会有需求,没有痛点公司也可以找到需要优化的点开展数据挖掘的项目,首先就是要理解需求,了解痛点和需要优化的指标。


2.数据分析师参与需求讨论


数据分析师能知道技术的边界,知道技术可以做什么,与业务方的需求探讨是必不可少的。讨论时需要研究需求背景,了解有哪些相关数据资源,熟悉业务逻辑。专业评估需求解决的可行性,是否能达到目的,初步给出结论是短期目标还是长期目标。


3.制定需求分析框架和计划


数据分析师应该用专业的角度定位问题,该用什么模型,分类还是回归模型等。需要什么特征数据(变量),数据源在何处,如何抽取。对于目前的数据情况,人力进行风险评估,如果模型不好,有没有弥补方式。

同时也要给出运营方案建议,如果是现在短期没有的数据可否进行运营活动进行数据的获取。最后给出项目计划,制定项目各节点。


4.抽取样本数据,熟悉数据,数据清洗


工程师上场先得摸下数据,从数据仓库提取数据,观察数据是否可用。观察空值多少是否进行填充或剔除等。如果能够获取的数据特征较少应该根据业务创建合适的衍生变量(特征)。基于业务的理解,对于共线性的特征只需要保留其一就行。业务清晰才能选对特征,这是重要一环。


5.按计划初步搭建模型


选取特征,选择算法。

验证集进行交叉验证,进行算法模型的比较。


6.与业务方讨论模型结论,提出新思路和模型优化方案


在算法的应用时,数据分析师可以得出哪些是影响结果关键特征,模型目前测试的效果如何,这些可以同业务方进行汇报。对于模型可能更优化的方案,是否需要配合进行数据的重新获取,是否采取运营措施进行数据补充,或进行数据埋点长期获取。


7.按优化方案重新提取数据,验证模型


增加新数据,优化方案,重新进行模型建立。


8.完成分析报告和落地应用建议


经过多轮的模型实施,得出分析报告。


9.制定具体落地应用方案,和评估方案


对于提升业务效率,拉客,留存激活等可以进行分层,个性化服务,哪怕是一篇个性化的文案也会起到不错的。

对于需要将模型上线的,需要与业务系统配合解决上线工程问题。



10.业务方实施落地应用方案并跟踪


落地的方案可能会有多种,前期会进行小范围样本对照,对于各方案结果需要跟踪。


11.运营方案落地的方式集中,并不断修正完善


根据对比,集中资源采取最优化方案落地,并不断完善。


12.项目总结


一个项目的完成后,应该再次说明数据驱动的正确性,同时该总结项目实施的各个过程还可以进行优化的地方。总结是否还有其他场景可以借鉴。



今天的总结就到这里,

后续我们再一起学习该如何做好一个数据分析师,如何进行商业实践


推荐↓↓↓
人工智能与大数据
上一篇:算法工程师,如果数据特征有10000个,你会爆炸吗 下一篇:研报复制(四):基于Logistic回归的大小盘轮动