数据分析这算是一个比较大的一个框架,单从字面意思来讲就是从数据中提取有用的规律或背后的逻辑。
工作中数据分析的职能主要分为以下6个步骤:
数据收集
数据清洗
数据储存
指标计算
数据统计分析与建模
数据可视化
第一步数据收集:在前期我们数据尚未形成特定的体系的时候亦或者是我们的业务正在进行的时候,需要我们通过各种各样的途径去获取数据。数据收集的方法多种多样,其中可以用程序自动收集(数据埋点、网络爬虫、ERP或CRM系统自动生成等)、手工统计(Excel统计)、第三方网站提取(通过公开数据网站下载,API等)等诸多方法,方法的选择跟随业务形态进行。
第二步数据清洗:收集来的数据是脏数据,需要通过数据清洗,也就是取其精华去其糟粕,这样的数据才是我们能够正常使用的数据。这一步的操作主要使用的是正则表达式进行数据清洗,收集来的数据各种格式都有,需要转码成特定的格式以及编码。
第三步数据存储:由于现在的公司数据越来越大,互联网时代已经从IT转变为DT的时代,现在每个公司的业务数据都是呈现几何倍数的增长,那么在存储数据的时候肯定不可能还用以前那种用纸笔记录的时代。现在对于小数据量的公司一般也是用Excel文件进行数据存储,许多公司以及采用数据库产品进行数据存储,市面也有很多性能很好的数据库产品,例如Oracle、MySQL、SqlServer,现在对大数据还专门有对应的hive数据仓库产品。这些产品都很好用,并且部分还是开源产品。就我们公司而言,之前使用的Oracle和MySQL以及SqlServer数据库,目前因为业务线条的调整,已经将数据从单一的数据库转向hive数据仓库存储,更方便了技术、业务、分析师等角色对数据的应用提取。
第四步指标计算:在进行指标计算之前,需要数据分析师建立当前部门的KPI指标,对应着业务部门针对不同的业务场景反馈出业务好坏的数据与规则。这一步繁杂而持续,并且可能这项工作会贯穿整个数据分析生涯。什么是指标?指标就是衡量目标的方法,比如商品管理常用的库存周转率、毛利率等,运营常看的路径转换,maketing常看的ROI等等,对应的指标反映出不同的业务场景的好坏,随着业务的变换,企业阶段的变换,指标也会一直在跟随着变换。
第五步数据统计分析与建模:这个环节是整个数据分析流程中最有意思的一个环节,没有之一。相比于之前的环节,在此环节你将会面临各种各样的挑战。什么假设检验,什么线性回归、什么特征工程、什么贝叶斯等都会遇到,在这里你将会看到各种数据背后的逻辑以及数据所产生的价值。并且在数据分析的过程中可能会遇到第二步的数据清洗过程,处理缺失值、处理异常值等。
第六步数据可视化:也就是数据展现,需要将第五步统计分析及建模的结果使用图的形式体现出来,俗话说字不如表,表不如图。市面上使用的比较多的数据可视化产品主要是Tableau、PowerBI、finebi、PPT等几种。其中前三种主要是呈现交互式表格,也就是存储于线上的报表,而PPT主要是以报告的形式呈现。
现在的数据分析可按照职能简单划分为几个方向:
商业数据分析师
数据挖掘工程师
大数据开发工程师
以上几种是当前的招聘时长相对比较常见的几种岗位,各岗位之前各有不同。商业数据分析师主要是以业务为导向,将数据应用到企业的决策中,主要的工具是Python、R、Excel、SPSS、tableau、PowerBI等;数据挖掘工程师比较侧重技术方向,主要反欺诈、垃圾邮件识别等数据应用,主要的工具是Python、Java、C、C++等;大数据开发工程师主要负责搭建数据平台,利用hadoop、hive、spark、Python、Java、C、C++等工具开发适合公司数据流的数据平台。数据分析是一个目前为止比较新兴的岗位,因此大多数人都是在不断的学习改进。
以上为我的一些拙见,有什么不足的地方欢迎补充交流。