数据分析是一个被广泛使用的技能标签。在真实工作环境下,至少有三个类型的职位可以算作和数据分析师相关,分别是:BI (Business Intelligence), QA (Quantitative Analyst / Data Scientist), 以及BA (Business Analyst)。
a) BA首先定义业务的度量方式,比如付费用户还是活跃用户,1天日活重要还是30天日活重要。然后收集数据进行各维度的分析,比如地域、渠道、用户行为等等。
b) 基于QA在BA分析的基础上,搭建分析模型,里面可能用到各种统计、优化、机器学习方法。模型经过A/B测试、稳定性等评估,预计带来的影响。
c) BI负责将BA和QA定义的所有用户度量,市场趋势,模型表现等通过数据库和SQL完成自动计算、定期自动更新及可视化展现,成为部门每天都会关注的核心数据。
由此大家可以看出,BA/ QA/ BI之间是各有侧重的: Business Analyst 定义问题,分析数据,提出并部分实现解决方案; Quantitative Analyst 定义模型和架构,实现完整的解决方案; Business Intelligence 对数据和度量进行可视化展示、自动化计算和更新。
各自需要什么能力?
回到基础,无论是BI、QA、BA都需要基本的数据分析技能,不同的是后续的技术和业务侧重略有不同,下面提供一份数据分析的进阶路线。
数据分析学习路线
1、Excel
Excel一般人都有接触过,重点是了解各种函数,如sum,count,sumif, countif,find,if,left/right,时间转换等;但函数不需要学全,掌握一些最常用的的,其它在用到的时候随搜随用就行。另外vlookup和数据透视表是两个性价比很高的技巧,这两个搞定后,一般10万条以内的数据统计基本没什么难度了。
2、数据可视化
数据分析界有一句经典名言,字不如表,表不如图。数据分析的最终都是要兜售自己的观点和结论的,兜售的最好方式就是做出观点清晰数据详实的PPT给老板看。
虽然Excel也可以完成很多的数据可视化功能,但是如果想要得到更专业的可视化效果,还是建议学些编程方面的知识。
这里推荐微软的Power BI(商业智能)和帆软的FineBI。BI和图表的区别在于BI擅长交互和报表,适合解释已经发生和正在发生的数据。Power BI适合个人学习,FineBI适合企业级的应用。
3、数据库
Excel对十万条以内的数据处理起来没有问题,但是互联网行业就是不缺数据。但凡产品有一点规模,数据都是百万起,这时候就需要学习数据库。SQL是数据分析的核心技能之一,从Excel到SQL绝对是数据处理效率的一大进步。
除了最基本的增删改查、索引、约束外,主要了解where,group by,order by,having, like,count,sum, min,max, distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。如果想要跟进一步,可以学习row_number,substr,convert,contact等。再有点追求,就去了解Explain优化,了解SQL的工作原理,了解数据类型和IO。
4、R/Python语言
是否具备编程能力,是初级数据分析和高级数据分析的风水岭。数据挖掘,爬虫,可视化报表都需要用到编程能力。而数据分析领域推荐使用的两种语言绝对是R和Python了,二者在数据分析领域的地位可以说是旗鼓相当,各有优势。
R的优点是统计学家编写的,如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。学习R,需要了解数据结构(matrix,array,data.frame,list等)、数据读取,图形绘制(ggplot2)、数据操作、统计函数(mean,median,sd,var,scale等);开发环境建议使用Rstudio。
Python则是万能的胶水语言,适用性强,有很多分支,我们专注数据分析这块。需要了解调用包、函数、数据类型(list,tuple,dict),条件判断,迭代等;开发环境建议Anaconda。
5、统计知识
统计学是数据分析的基础。需要花一些时间掌握描述性统计知识,包括:均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。
6、分析思维
好的数据分析首先要有结构化的思维,也就是我们俗称的金字塔思维。思维导图是必备的工具;之后再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。分析也是有框架和方法论的,主要围绕三个要点展开:
1)一个业务没有指标,则不能增长和分析;
2)好的指标应该是比率或比例;
3)好的分析应该对比或关联。
7、业务知识(用户行为、产品、运营)
对于数据分析师来说,业务其实比了解数据方法论更重要。但很遗憾,业务学习没有捷径,必须靠在某个行业一点点积累。