每个人都应该具备的数据分析思维有哪些?
数据思维具有框架性引导作用能够帮助确认分析角度、搭配分析方法、选择指标体系得出分析结论。但要知道数据思维不是一下子就学会了的需要长期的培养,日常生活中常用的数据分析思维技巧我们一起来学习一下。
常见的数据分析思维:
一、对比法
对比法是一种挖掘数据规律的思维能够和任何技巧结合,一次合格的分析一定要用到N次对比。对比分为:
(1)横向对比:同一层级不同对象比较,如江苏不同市茅台销售情况。
(2)纵向对比:同一对象不同层级比较,如江苏南京2021年各月份茅台销售情况。
(3)目标对比:常见于目标管理,如完成率等。
(4)时间对比:如同比、环比、月销售情况等,很多地方都会用到时间对比。
二、象限法象
限法是运用坐标的方式,人工对数据进行划分从而传递数据价值将之转变为策略。象限法应用很广泛,像RFM模型、波士顿矩阵都是象限法思维。如RFM模型就是利用象限法,将用户分为8个不同的层级,从而对不同用户制定不同的营销策略。
三、漏斗法
漏斗思维本质上是一种流程思路,在确定好关键节点之后计算节点之间的转化率。这个思路同样适用于很多地方,像电商的用户购买路径分析、app的注册转化率等。著名的海盗模型AARRR模型就是以漏斗模型作为基础的,从获客、激活、留存、变现、自传播五个关键节点,分析不同节点之间的转化率找到能够提升的环节采取措施。
四、二八法
“世界上80%的财富掌握在20%的富人手里”,这句话你一定听过。这就是二八法则,也叫帕累托法则。这个方法的思维就是抓重点围绕找到的20%有效数据找到其特征,使之产生更大的效果。如一个商超进行产品分析的时候,就可以对每个商品的利润进行排序,找到前20%的产品,那这些产品就是能够带来较多价值的商品,再通过组合销售和降价销售等手段进一步激发其带来的收益回报。
五、指数法
指数思维是一种目标驱动型思维通过将无法利用的数据加工成指数达到聚焦的目的从而找到方向。但指数法没有统一的标准比较多依靠经验,一旦设立的话不会经常变动。
六、假设法
假设法一般用在进入新领域的时候没有历史数据参考,没有外部线索这个时候就需要假设。通过假设的数据进行反推再去制定计划,整个过程是先假设后验证再分析结果。如在对新产品进行定价的时候,根据成本去假设一个售价由销售情况去验证,再决定是否需要上调或者下调价格以达到最大利润。
七、多维法
多维法主要是通过对数据的切割,分成多个维度,通过立方体的形式进行数据展示。在对数据进行交叉分析的时候,可能会出现辛普森悖论与之而来的应对方法有钻取、上卷、切片、切块、旋转等。多维法的使用场景很广,比如一个app的用户分析,可以从注册数、用户偏好、用户兴趣和用户流失等角度进行分析。
1、MySQL数据库及SQL语法
MySQL可以处理拥有上千万条记录的大型数据库,使用标准的SQL数据语言形式,MySQL可以安装在不同的操作系统,并且提供多种编程语言的操作接口,这些编程语言包括C、C++、Python、Java、Ruby等等。支持多种存储引擎。
SQL就是客户端和MySQL服务器端进行通信和沟通的语言。
2、Kettle与BI工具
Kettle作为一个端对端的数据集成平台,其部分特色功能包括:无代码拖拽式构建数据管道、多数据源对接、数据管道可视化、模板化开发数据管道、可视化计划任务、深度Hadoop支持、数据任务下压Spark集群、数据挖掘与机器学习支持。
3、Python与数据库交互
实际的生产任务中,数据几乎全部存在与数据库中,因此,与数据库的交互成为一件难以避免的事情。想要在Python代码中和mysql数据库进行交互,需要借助一个第三方的模块“pymysql”
1、Linux
Linux 作为操作系统,本身是为了管理内存,调度进程,处理网络协议栈等等。而大数据的发展是基于开源软件的平台,大数据的分布式集群( Hadoop,Spark )都是搭建在多台 Linux 系统上,对集群的执行命令都是在 Linux 终端窗口输入的。据Linux基金会的研究,86%的企业已经使用Linux操作系统进行大数据平台的构建。Linux占据优势。
2、Hadoop基础
2022最新大数据Hadoop入门教程,最适合零基础自学的大数据
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。它很擅长存储大量的半结构化的数据集。也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
MapReduce和Hadoop是相互独立的,实际上又能相互配合工作得很好。MapReduce是处理大量半结构化数据集合的编程模型。
3、大数据开发Hive基础
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。
企业级在线教育项目实战(Hive数仓项目完整流程)
大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)
以真实项目为驱动,学习离线数仓技术。建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 ;从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 ;挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
1、Python编程基础+进阶
全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
Python是基于ABC语言的发展来的,Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言, 随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。
Python 语言的语法非常简洁明了,即便是非软件专业的初学者,也很容易上手,和其它编程语言相比,实现同一个功能,Python 语言的实现代码往往是最短的。
2、Spark技术栈
Spark全套视频教程,大数据spark3.2从基础到精通,全网首套基于Python语言的spark教程
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发,课程的讲解注重理论联系实际,高效快捷,深入浅出,让初学者也能快速掌握。让有经验的工程师也能有所收获。
3、大数据Flink技术栈
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务。Flink也可以方便地和Hadoop生态圈中其他项目集成,例如Flink可以读取存储在HDFS或HBase中的静态数据,以Kafka作为流式的数据源,直接重用MapReduce或Storm代码,或是通过YARN申请集群资源等。
4.Spark离线数仓工业项目实战
全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台
通过大数据技术架构,解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据,基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。