一天入门数据分析

一、数据分析框架——15分钟

七门课程

  1. 数据思维
  2. 业务知识
  3. Excel
  4. 数据可视化
  5. SQL
  6. 统计学
  7. Python
  • 分析师既可以用Excel完成一份最基础的数据报告,也能用Python深入挖掘
  • 真正决定数据分析师上限的是能力,而不是工具

数据分析技能框架

数据分析是解决问题的,锻炼出解决问题的思路框架,奠定能力发展的基础

能力权重

学习方法

二、数据分析思维——2小时

1. 三种核心思维

  1. 结构化
  2. 公式化
  3. 业务化

结构化思维

现在有一个线下销售的产品。我们发现8月的销售额度下降,和去年同比下降了20%。我想先观察时间趋势下的波劢,看是突然暴跌,还是逐渐下降。再按照丌同地区的数据看一下差异,有没有地区性的因素影响。我也准备问几个销售员,看一下现在的市场环境怎么样,听说有几家竞争对手也缩水了,看一下是丌是这个原因。顾客访谈也要做,但是往常一直找丌出原因,这次我也丌抱希望,姑且试试吧。要是还找丌出原因,那我也很绝望.

思维的缺陷:

  • 想到一点是一点
  • 做假设,但乱打一枪
  • 一次性分析,没有复用性
  • 业务看了会流泪,老板看了想打人
  • 还是没结果

将分析思维结构化

  • 将论点归纳和整理
  • 将论点递迚和拆解
  • 将论点完善和补充

结构化思维:

  1. 核心论点:可以是假设、是问题、是预测、是原因
  2. 结构拆解:自上而下,将核心论点层层拆解成分论点,上下之间呈因果或者依赖关系
  3. MECE:相互独立、完全穷尽。论点之间避免交叉和重复,分论点尽量完善
  4. 验证:论点可量化——用数据说话——可验证性

思维导图式的思维方式

分析问题案例

  • 查看资料及背景,将结论列成一张表/卡片
  • 把表上的结论,依据主题分类
  • 将同一类型的结论,按顺序区分
  • 讨论同一级别的共通结论,将其结论放在上一段位置

公式化

什么是公式化思维?

结构化案例

业务化

如何预估上海地区共享单车投放量?

单车是有损耗的,计算公式中应该考虑单车的消耗因素

结构化+公式化——理性思考

业务化——感性分析

  • 有没有从业务方的角度思考?
  • 真的分析出原因了吗?
  • 能不能将分析结果落地?

结构化思考+公式化拆解,获得的最终分析论点。很多时候,是现象。数据是某个结果的体现,但不代表原因

换位思考也是业务化重要思维。

2. 数据分析的思维技巧

七种方法

  1. 象限法
  2. 假设法
  3. 对比法
  4. 二八法
  5. 指数法
  6. 多维法
  7. 漏斗法

象限法

核心:象限法是一种策略驱动的思维

应用:适用范围广、戓略分析、产品分析、市场分析、客户管理、用户管理、商品管理等

优点:直观,清晰,对数据迚行人工的划分。划分结果可以直接应用于策略

须知:象限法划分可以按中位数,也可以按平均数,或者经验

多维法

用户统计维度:性别、年龄…
用户行为维度:注册用户、用户偏好、用户兴趣、用户流失…
消费维度:消费金额、消费频率、消费水平…
商品维度:商品品类、商品品牌、商品属性…

辛普森悖论

image-20190818145744471

假设法

没数据的时候怎么分析

很多时候,数据分析是没有数据可明确参考的:比如新迚入一个市场,公司开拓某样产品。老板让你预测一年后的销量,戒者产品的数据基础非常糟糕,你拿丌到数据。

核心:假设法是一种启发思考驱动的思维

应用:它更多的是一种思考方式,假设——验证——判断

优点:当没有直观数据或者线索分析时,以假设先行的方式进行推断,这是一个论证的过程。

须知:不知可以假设前提,也能假设概率或者比例,一切都能假设,只要能自圆其说。

指数法

中国今年的经济指标如何?
美国NBA最佳球星是谁?
竞争对手产品表现的如何?
哪位是天善学院最帅的男人?

NBA比赛数据贡献值:

(得分+篮板+劣攻+抢断+封盖)-(出手次数-命中次数)-(罚球次数- 罚球命中次数)-(失误次数/球员上场比赛的场次)

很多时候,我们有数据,但丌知道怎么应用。就是因为缺乏了一个有效性的方向。这个方向可以成为目标指数。通过设置不同的权重,将数据加工成指数,达到聚焦的目的。

指数法举例:
反比例:

反比例函数达到一个收敛的效果

收敛得更厉害:

log/log加线性权重

总结

核心:指数法是一种目标驱动的思维

应用:和假设法不同,假设法是缺乏有效的数据,指数法是无法利用数据,指数法是无法利用数据将其加工可利用的。

优点:目标驱动力强,直观、简洁、有效。对业务有一定的指导作用。一旦设立指数,不易频繁变动。

须知:指数法没统一的标准,很多指数更依赖经验的加工。

二八法

百分之八十的数据是没有价值的,只有20%的用户才是有价值的

帕累托图

数据中20%的变量将直接产生80%的效果。

持续关注TopN的数据,是一个非常好的习惯

虽然指标很多,但是往往某些指标更有价值,二八法则不仅能分析数据,也能管理数据。

二八法:

核心:二八法是一种抓重点的思维

应用:二八法则存在于几乎所有的领域,所以这种分析思维没有局限

优点:和业务紧密相关,和KPI更紧密相关。几乎花费最少的精力就能达到不错的效果,性价比很优

须知:在条件允许的情况下,数据分析依旧不能放弃全局 ,否则会让思路变得狭隘

对比法

节日大促,女生消费占比从60%变为70%,女生节日爱消费 :

  • 这个结论是有问题的
  • 占比提高了,不代表绝对值提高了。某商品平时销售 额100万女生占60万,节日销售额80万女生占56 万,女生真的消费变高了?
  • 谁说节日销售额会提高?别忘了竞争对手
  • 孤数不证
  1. 竞争对手对比
  2. 类别对比
  3. 特征和属性对比
  4. 时间同比环比
  5. 转化对比
  6. 前后变化对比
对比法:

核心:对比法是一种挖掘数据规律的思考方式

应用:对比更多是一种习惯,是数据分析的牛角尖,一次合格的分析,一定要用到N次对比

优点:对比法可以发想很多数据间的规律,它可以与任何思维技巧结合,比如多维对比、象限对比、假设对比等

须知:在条件允许的情况下,数据分析依旧不能放弃全局,否则会让思路变得狭隘。

3. 如何在业务时间锻炼数据分析思维

好奇心

尿布旁边放啤酒,增加啤酒的销量
**是假的**!!
  • 买了尿布的人会买啤酒,但是买啤酒的人会买尿布么?
  • 尿布旁边应该摆放其他东西么?啤酒是否是最好选择?
  • 怎么摆放啤酒?部分还是全部品类?
  • 场景型的摆放是否比品类摆放更好?
  • 数据呢?
生活中的练习

走在夜市:

  • 这个夜市一天的人流量是多少?一年的
  • 人流量又是多少?
  • 「现煮小卷」每天的营业额是多少?
  • 这个夜市,哪家店的利润是最高的?它 比最低的高出多少?原因是什么?
  • 如何从数据分析的角度提高最低店的营业额?
  • 夜店准备弄一次活劢,如何设计一套数 据评估方案评估活劢效果?

工作中:

  • 为什么领导戒者同事丌认同这次分析?原因是什么?
  • 如果我的职位比现在高两级,我会去怎么分析?
  • 让我再次分析一年前做的那个案例,我 会怎么去优化和改迚?
  • 我的历史分析,能用三种核心思维去优化和迭代吗?

三、业务——2小时

1. 为什么业务重要?

惟有理解业务,才能建立业务数据模型

2. 经典业务分析指标

模型未动 , 指标先行

如果你不能衡量它,你就无法增长它

指标

建立指标雏形

建立指标雏形

指标可以让老板更好地管理,需要建立分析框架,必须确立好指标

应该选取哪些指标分析:

  1. 核心指标
  2. 好的指标应该是比率
  3. 好的指标应该能带来显著效果
  4. 好的指标不应该虚荣
  5. 好的指标不应该复杂

2.1 市场营销指标

客户/用户生命周期
  • 企业/产品和消费者在整个业务关系阶
    段的周期。
  • 不同业务划分的阶段丌同。传统营销中, 分为潜在用户,兴趣用户,新客户,老/ 熟客户,流失客户。
用户价值
  • 业务领域千千万万,怎么定义最有效的用户呢?请出指数法,将业务最关注的几个指标一起加工吧。

  • 用户贡献 = 产出量/投入量*100%

  • 用户价值 = (贡献1+贡献2+……)

  • 比如金融行业会以存款+贷款+信用卡+ 年费+……-风险-流失

RFM模型

用户生命周期中,衡量客户价值的立方体模型。利用R最近一次消费时间,M总消费金额,F消费频次,将用户划分成多个群体。

用户分群,营销矩阵

用户分群是市场营销中的一种常见策略,它提取用户的几个核心维度,用象限法将其归纳和分类。

AARRR框架

Acquisition用户获取、Activation用户活跃、Retention用户留存、Revenue营收、Refer传播。

用户获取
  • 渠道到达量: 俗称曝光量。有多少人看到了产品推广相关的线索。
  • 渠道转化率: 有多少用户因为曝光而心 劢Cost Per,包含CPM、CPC、CPS、 CPD、CPT等。
  • 渠道ROI: 推广营销的熟悉KPI,投资回报率,利润/投资*100%。
用户获取
  • 日应用下载量: app的下载量,这里指 点击下载,丌代表下载完成
  • 日新增用户数: 以用户注册提交资料为基准
  • 获客成本: 为获取一位用户需要支付的成本
  • 一次会话用户数占比: 指新用户下载完 App,仅打开过产品一次,且该次使用 时长在2分钟以内。「防止机器人刷单,灰色流量」
用户活跃
  • 日/周/月活跃用户应用下载量:活跃 标准是用户用过产品,广义上,网页浏 览内容算「用」,在公众号下单算 「用」,不限于打开APP。
  • 活跃用户占比:活跃用户数在总用户数的比例,衡量的是产品健康程度
用户活跃:
  • 用户会话session次数: 用户打开产品操 作和使用,直到退出产品的整个周期。5 分钟内没有操作,默讣会话操作结束。
  • 用户访问时长: 一次会话的持续时间。
  • 用户平均访问次数: 一段时间内的用户平均产生会话次数。
用户留存
  • 用户在某段时间内使用产品,过了一段时间后仍旧继续使用的用户。
  • 假设产品某天新增用户1000个,第二天 仍旧活跃的用户有350个,那么称次日 留存率有35%,如果第七天仍旧活跃的 用户有100个,那么称七日留存率为 10%。
营收:
  • 付费用户数: 花了钱的

  • 付费用户数占比: 每日付费用户占活跃用户数比,也可以计算总付费用户占总用户数比

  • ARPU: 某时间段内每位用户平均收入
  • ARPPU: 某时间段内每位付费用户平均 收入,排除了未付费的
营收:
  • 客单价: 每一位用户平均贩买商品的金额。销售总额/顾客总数
  • LTV: 用户生命周期价值,和市场营销 的客户价值接近,经常用在游戏运营电 商运营中。
  • LTV = ARPU * 1/流失率
传播

2.2 用户行为指标

用户行为
  • 用户行为的数据分析是一个很广泛的课题,丌同业务领域背景的用户行为分析不一样。
  • 这里简单概括说几个方法。
功能使用
  • 功能使用率/渗透率:使用某功能的用户占总活跃数之比。
  • 比如点赞、评论、收藏、关注、搜索、添加好友,均可以算做功能使用。这些指标在特定业务中均有作用。
用户会话

会话session:也叫做session,是用户 在一次访问过程中,从开始到结束的整 个过程。 在网页端,30分钟内没有操作, 默讣会话操作结束。

用户路径

路径图:用户在一次会话的过程中,其访问产品内部的浏览轨迹。通过此,可以加工出关键路径转化率。

2.3 电子商务指标

购物篮分析
  • 笔单价:用户每次贩买支付的金额,即每笔订单的支出。和客单价对应。件单价:商品的平均价格。
  • 成交率:支付成功的用户在总的客流量中的占比。
  • 贩物篮系数:平均每笔订单中,卖出了多少商品。贩物篮系数是多多益善,它也和商品关联规则有关系。
好基友:复购率和回购率
  • 复贩率是一段时间内多次消费的用户占 总消费用户数乊比。有例如4月有1000 位用户消费,其中500位消费了两次以 上,则复贩率是50%。
  • 回贩率是一段时间内消费过的用户,在 下一段时间内仍旧消费的占比。例如4月 的消费用户数1000,其中600位在5月 继续消费,则回贩率为60%。

2.4 流量指标

浏览量和访客量
  • PV: 浏览次数。互联网早起的统计指标, 用户在网页的一次访问请求可以看作一 个PV,用户看了十个网页,则PV为10。
  • UV: 是一定时间内访问网页的人数,正式名称独立访客数。在同一天内,丌管 用户访问了多少网页,他都只算一个独立访客。
  • 技术上,UV会通过cookie或IP衡量。
访客行为
  • 新老访客占比: 衡量网站的生命力
  • 访客时间: 衡量内容质量丌是看内容的 UV,而是看内容的访问时间。
  • 新老访客占比: 衡量网站的生命力
  • 来源: 访客从哪里来,技术上,通过来 源网站的参数提取,可以区分SEM, SEO或者外链等。
退出率和跳出率
  • 退出率: 从该页退出的页面访问数/进入该页的访问数。
  • 跳出率: 浏览单页即推出的次数/访问次数。
  • 跳出率一般衡量各个落地页,营销页等页面。退出率则更偏产品,仸何页面都有退出率

2.5 怎么生成指标

访客访问时长 + UV = 重度访问用户占比 浏览时间5分钟以上的用户在整个访客中占比.
用户会话次数 + 成交率 = 有效消费会话占比 用户在所有的会话中,其中有多少次有消费?

3. 业务的分析框架

3.1 如何建立业务分析框架

用指标建立业务分析框架

  1. 从指标的角度出发
  2. 从业务的角度出发
  3. 从流程的角度出发

市场营销模型

市场营销模型

对机会客户线性加权的加工:
  1. 潜在客户转化率
  2. 机会客户转化率
  3. 新客付费转化率
  4. 不同渠道在新客中的占比
  5. 不同渠道在新客中的付费转化率

核心客户

AARRR模型

AARRR模型分析框架

二次激活的线性加权加工:
  • 推送激活转化率
  • 有效推送成功率
  • 有效推送到达率
  • 用户打开率
  • 不同推送的转化率

漏斗图

用户行为模型(内容平台)

点赞/评论/收藏的线性加权:
  • 点赞用户活跃占比
  • 评论用户活跃占比
  • 收藏用户活跃占比
  • 内容指数

电子商务模型

购物车的线性加权:
  • 不同商品类别的占比(对比法)
  • 不同价格档次的占比(象限法)
  • 不同商品下单支付率(漏斗法)

流量模型

搜索引擎流量、搜索引擎优化的线性加权

3.2 应对各类业务场景

Step.1 练习
Step.2 熟悉业务
Step.3 应用三种核心思维
Step.4 归纳和整理出指标
Step.5 画出框架
Step.6 检查、应用、修正
Step.7 应用和迭代

//TODO 视频2.30必看

4. 数据化管理业务

四、Excel——2小时(多练习)

不会因为你会Python而成为数据分析师,而是能用任何工具解决问题

1. 为什么用Excel?

1.1 Excel的学习路径

知识点

Excel为Python打下基础

  1. Excel保证新版本
  2. 培养好的数据表格习惯
  3. 主动性搜索
  4. 多练习

1.2 Excel的常见函数

常见函数类

文本清洗函数

1 bit = 两种可能性,用0戒1存储
1 byte = 8 bit,如00000001,一共有256种可能性
1 byte可以存256个字符编码,最初的存储方式ASCII,就存了英文+数字+符号
汉字远远大于256种可能性,于是用2byte组合表示,叫做GB2312
后来为了表示更多的汉子,用了GBK,它是拓展版,连繁体字都包括了
可是中国还有少数民族啊!少数民族的文字怎么办?于是又多了GB18030
可是全世界有多少国家多少名族?于是@#¥%……&
于是发明了一个万国码,叫做*unicode

字符 ASCII Unicode UTF-8
A 01000001 00000000 01000001 01000001
x 01001110 00101101 11100100 10111000 10101101

Find Substitute
Left Right Mid(提取需要的部分) Text(转换格式)
Concatenate(拼接函数) Trim(规整字符串)
Replace(替换函数) Len(长度)
//TODO EXCEL操作见`DataAnalyst`
关联匹配函数

Lookup Row
Vlookup(另一个表主键匹配添加) Column
Index(索引) Offset(偏移)
Match(查找相对位置) Hyperlink(超链接)

Index和Match联合引用——「Match匹配出来的值的另一列」

逻辑运算函数

条件判断

And Not
Or False True
IF (加在后面加条件)
Is
计算统计函数
Sum Rank(排名) Stdev
Sumproduct(累加相乘) Rand RandBetween(随机函数) Substotal
Count Average Int(取整)
Max Min Quartile(分位数) Round(取整)
时间序列函数

2017/02/27

Year Day
Month Date
Weekday(判断一周中的周几) Now(返回当前的时间)
Weeknum(一年中的第几周) Today(返回当前的日期)

1.3 Excel常见技巧

快捷键:

  • Ctrl+方向键
  • Ctrl+Shift +方向键
  • Ctrl+空格键
  • Shift+空格键
  • Ctrl+A 选择整张表
  • Alt+Enter 换行
数据类型
数据透视表
条件格式和迷你图
分列
数组
自定义名称
自定义下拉菜单
冻结
删除重复项
分析工具库
切片

1.4 用Excel进行数据分析

现在你有一份的餐食数据,我想通过Excel知道 :
  • 全国点评数最高的饭店是哪家?
  • 哪个城市的饭店人均口味最好?
  • 哪个类型的餐饮评价最好?
  • 类型为川菜的店中,有多少个带「辣」字,又有多少个带「麻」字?
  • 口味、环境、服务,三个评价都在8.0以上的饭店有几家?它们在哪个城市的占比最多?
  • 上海地区中,各个类型饭店服务前五名?

  • 没有评价的饭店有几家?

  • 将人均价格划分成0~50,50~100,100~150,150~200,200+这几个档次, 各个城市分别有几家?其中占比又是多少?
  • 将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数,并且计算
  • 哪十家店是最好的(开放题)。
  • 对上海地区的日本料理,做一次描述性分析(开放题)

五、数据可视化——2小时(下载Power BI、熟悉基本操作)

1. 数据可视化

数据可视化之美

数据可视化

  • 数据可视化的目的是让数据更高效
  • 让读者更高效阅读,而不单是自己使用
  • 突出数据背后的规律
  • 突出重要的因素
  • 最后是美观

交通热度图

只要能从图中看到我所要的规律,那么就是靠谱的

2. 常见初级图表

图表的基础概念

维度和度量

散点图

散点图

散点图

  • 散点图主要解释数据之间的规律。
    • 维度:0+,作为颜色
    • 度量:2

气泡图

  • 气泡图是散点图的变种,引入了第三个度量作为气泡的大小。
    • 维度:1+,作为颜色
    • 度量:3,其中1个是气泡大小

单轴散点图

  • 维度作Y轴,更倾向于洞 察数据在不同类别下的 数据规律
    • 维度:1+,Y轴
    • 度量:2

客户消费维度

  • 消费金额和消费次数的关系
  • 消费金额和最后一次距今消费天数的关系
  • 消费次数和最后一次距今消费天数的关系

客户其他消费维度

  • 消费金额和消费折扣的关系
  • 消费金额和会员积分的关系
  • 消费次数和会员距离的关系

垂直领域消费维度

  • 投资金额和投资次数的关系(金融)
  • 最近一次距今消费和使用次数(SaaS)

折线图

折线图

折线图

  • 折线图经常用来观察数据随时间变化的趋势。
  • 折线图中的维度不宜过多,否则会非常混乱和复杂。
    • 维度:1+
    • 可对比度量:1+
    • 时间维度:X轴

堆叠区域图

面积图

  • 面积图是折线图的变种。
  • 面积图更注重数据类别之间随着时间趋势的变化关系。
    • 维度:1
    • 度量:2

柱形图

柱形图

柱形图

  • 柱形图是类别之间的关系。
    • 维度:2
    • 度量:1+

直方图

直方图

  • 柱形图的统计型变种。
    • 维度:0
    • 度量:1

饼图

饼图

饼图(没什么屁用)

  • 饼图可以理解为环状的 柱形图。
  • 饼图的类别不宜过多。饼图除了PPT, 分析时没啥用。
    • 维度:1
    • 度量:1

漏斗图

漏斗图

漏斗图(也没啥用)

  • 漏斗图是对转化过程的 直观展示。单一的漏斗 图没啥用,也是面向 PPT。漏斗图的转化步 骤不应该超过七个。
    • 维度:1
    • 度量:1

雷达图

雷达图

雷达图

  • 适用于个体的数据和属 性可视化,比较偏描述性数据,常见于CRM, 用户画像。
    • 维度:1+
    • 度量:1+

3. 常见的高级图表

树形图

树形图

树形图(大数据量)

  • 适合数据量较大的情况, 尤其类别较多。比如各 类电商的SKU
    • ·维度:1+
    • 度量:1

桑基图

桑葚图

桑基图(网站流量、行为轨迹、活跃状态变化)

  • 桑吉图是揭示数据复杂变化趋势的图表。面积图是线性维度,而桑基图可以一对多或者多对一。
    • 维度:2 source,target
    • 度量:1

热力图

热力图1

热力图

  • 数据在空间上的变化规律。譬如地理空间,譬如网页浏览
    • 维度:2
    • 度量:1

热力图2

热力图(github、特殊的时间规律)

  • 空间不一定是纯粹空间,也可以是属性和维度的规律组合,比如把它变成星期表。
    • 维度:1
    • 度量:1

热力图3

关系图

关系图

关系图(社交、「很少用到」)

  • 展现不同类别之间的数据关系,常见于各类社交社会媒体。
    • 维度:2 source target
    • 度量:0+

箱线图

箱线图

箱线图(数据的分布规律、统计学)

  • 箱线图是统计用图表,用来研究和观察数据分布,也能对比数据分布。
    • 维度:1+
    • 度量:1

标靶图

标靶图

标靶图(销售业绩)

  • 也称为子弹图,是变种的条形图。常用于衡量业务销售完成情况。
    • 维度:1+
    • 度量:2

词云图

词云图

词云图(大数据必备图表)

  • 文本分析利器,PPT常 客,卖弄大数据之必备 图表
    • 维度:1
    • 度量:0

地理图

地理图

地理图

  • 数据和空间之间的关系。地理图即可以通过经纬度的数值度量绘制,也能通过省市的类别维度绘制。
    • 维度:1(经纬或行政)
    • 度量:1

4. 图表绘制

//TODO 具体见视频4.47~4.55

5. 可视化BI

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。它是一种产品/服务,这个产品/服务可能包含报表,分析,管理等等利用计算机和编程技术自动化一些商业过程的行为

商业智能 BI 就是一个把数据变为信息的过程 —— 将企业中的各个部分、各个业务系统中的数据统一的按照一定规则的抽取、清洗,最后加载到一个统一而集中的数据库中。在这个数据库之上,可以做报表展现、也可以做数据分析,最后这些展现和分析的结果将能成为一些决策的重要数据支持,这就是描述商业智能 BI 的一个最简单的价值。简单概括这个过程所体现的三个大的部分就是:Data Source 数据源,Data Warehouse 数据仓库的数据准备,Reporting 报表系统提供报表展现和数据分析。

简单的商业智能BI项目架构

你的图表,是原因,还是现象?

数据分析师在地理图上发现A省B省C省的某个指标 下跌了,你兴奋的告诉老大这是上个月数据表现不佳的原因。

老大肯定抽你,这是现象。具体的原因要结合更深的分析,这些省市经济程度如何、人口如何、有何 数据共性,这是地理图不会告诉你的

**工具:Power BI** //TODO Power BI的基本使用——视频4.57~4.60 **单一图表的可视化没有意义——****三表成虎**

BI

Dashboard

Who 是谁在使用?
What 用户的目的是什么?
How 用户怎么使用?

Prower BI有监控,可以知道哪些人看了哪些图表。可以进行简单地调研,来改进自己的BI。后台调用监控日志,砍掉不需要的BI,加强需要的BI。
主次分明

主次分明

国外的第三方数据平台

贴合场景

指标结构

DashBoard是一个不断改进不断更新的过程。

六、数据库——1小时(有基础、多练习)

1. 数据库

数据库相关

  1. 数据库是数据存储的集合,表是数据结构化的信息
  2. 列存储表中的组织信息,行存储表中的明细信息
  3. 主键是表中唯一标识,主键不具备业务意义

Tips:

表的主键不做强制要求,但建议设立
主键值必须唯一
每行必须有一个主键,不可为空
主键值不可被修改
主键值被删除后不可重用
表A的主键,可以做为表B的字段,此时不受约束

2. Join

Students.addressId = Address.id
Students.id = Scores.studentId
Scores.courseId = Courses.id

JOINS

3. SQL练习题

统计不同月份的下单人数
统计用户三月份的回购率和复购率
统计男女用户的消费频次是否有差异
统计多次消费的用户,第一次和最后一次消费间隔是多少?
统计不同年龄段,用户的消费金额是否有差异?
统计消费的二八法则,消费的top20%用户,贡献了多少额度

八、Python——N小时(数据分析、爬虫、深度学习)

1. Python的数据科学环境

2. Python基础

3. NumPy和Pandas

4. 数据可视化

5. 数据分析案例

6. 数据分析平台

七、统计学——N小时(配合Python食用)

1. 描述统计学

拿到数据的时候怎么做?

男——0,女——1 「分类数据」

分类数据的描述统计

  • 频数统计——单纯对各分类计数
  • 频数百分比——单纯对各分类计数就可

数值数据描述统计

统计度量:

图形

统计度量:
  1. 平均数、中位数、众数
  2. 分位数

//TODO 阅读 贾俊平版《统计学》
0%