数据团队思考:数据团队的工作内容

来自:木东居士(微信号:Data_Engineering),作者:木东居士

0x00 前言

最近遇到了一些朋友在群里讨论数据有哪些工作内容,看了一些讨论后总感觉不是很全面。今晚就顺便整理一波居士自己对数据工作内容的理解,这次会从数据团队的角度出发有哪些工作内容,希望能帮助大家理清思路。

0x01 数据团队的工作内容

鉴于很多从业人员和招聘信息上对一些名词的理解是不同的,居士对每个工作内容都会加入一些自己的说明。个人意见,仅供参考:

  • 数据平台建设

    • 大数据平台开发:

      主要包括的大数据平台搭建和二次开发

    • 数据系统开发:

      主要包括调度系统、元数据系统、数据接入系统等开发

    • 大数据平台运维:

      一般来讲主要是大数据集群的运维和运营

    • ETL开发:

      主要负责数据的接入和清洗工作

  • 数据公共服务

    • 数据埋点:

      数据埋点相关工作

    • 数据仓库:

      主要包括数据仓库的模型设计,也会包括元数据管理和数据治理相关的内容

    • 用户画像:

      主要包括用户画像体系的建设

  • 数据分析相关

    • 数据报表开发:

      主要就是各种报表开发

    • 业务分析:

      一般指运营或产品的idea验证、临时提取数据等需求

    • 数据分析:

      除了为运营或产品提供支持外,还需要专业的数据分析来分析整个公司的数据情况,一般来讲属于更中立一点的角色

  • 数据挖掘相关

    • 数据挖掘:

      和数据分析的工作有重合,一般来讲,数据分析跟多应用统计相关的技能,数据挖掘会多一些机器学习算法相关的技能

    • 机器学习:

      一般来讲是推荐系统、广告系统和lookalike系统这类便算法相关的工作内容,算法和工程都有

  • 数据产品

    • 数据产品规划:

      数据产品从理论上来讲会参与到数据开发相关的各个环节,但,更侧重产品规划

    • 数据运营:

      仍然是运营,但是会多一些数据的驱动

本来想画一个思维导图来组织内容,但是还没有想清楚比较好的组织方式,因此先罗列出来,后续再来改进。

0x02 闲谈

受欢迎程度

从受欢迎程度上来讲,机器学习相关的工作内容受欢迎程度最高,因为它的技术深度更深,同时更为流行。

大数据平台开发在13年-15年的时候,受欢迎程度同样很高的,近些年热度稍减。而且,随着 Hadoop 生态系统的成熟,大部分大数据平台开发的同学会逐步变为数据平台运营。

相对来讲,数据仓库属于一直不温不火的状态,但是随着数据行业逐渐理性,大家不再只关注搭建数据平台,而是开始关注数据的管理,数据仓库也开始受到了一定的重视。居士明显感觉了不少公司在经历了数据平台建设后,开始关注数据仓库的搭建。

重要程度

从重要程度上来讲,居士认为数据质量是最重要的,数据的准确性是保证所有数据价值的生命线,如果数据质量不能得到保证,那么一切数据结论都是不可信的。

因此,从数据质量的角度来看,数据仓库是最重要的,好的数据仓库设计能保证公司的数据质量。

0xFF 总结

关于数据团队的思考,将会是一个系列的文章,很多观点可能不成熟,但是居士会不断更新自己对于这个话题的认知,同时不断更新这个系列的文章。

那么,你自己的工作是属于文中描述的哪一部分或者是哪几部分呢,你对数据团队的工作内容又有什么自己的看法呢?

推荐↓↓↓
人工智能与大数据
上一篇:数据团队思考:数据驱动业务,比技术更重要的是思维的转变 下一篇:数据分析没前途?该不该转运营?