网站更新内容:请访问: https://bigdata.ministep.cn/

数据分析技能

数据分析技能

数据库

概述

数据库
DB:是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据库管理系统
DBMS:数据库管理系统(Database Managerment System)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能,数据库是通过DBMS创建和操作的容器。

结构化查询语言
SQL:结构化查询语言(Structure Query Language)是—种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。

数据库主要分为关系数据库与非关系型数据库,两者最大的不同点是非关系型数据库不使用SQL作为查询语言。

  • 关系数据库的典型代表有:MySQL、Oracle、Microsoft SQL Server、Access及PostgresQL等
  • 非关系型数据库的点典型代表有: BigTable (Google) 、Cassandra、MongoDB、CouchDB;还包括键值数据库:Apache Cassandra (Facebook) . LevelDB (Google)

使用Navicate操作终端数据库

MySQL语言

数据定义语言(DDL)

DDL (Data Definition Language):数据定义语句,用于库和表的创建、修改、删除。包括如下SQL语句:

  • CREATE TABLE:创建数据库表
  • ALTER TABLE:更改表结构、添加、删除、修改列长度
  • DROP TABLE:删除表

数据操纵语言(DML)

DML (Data Manipulation Language):数据操纵语句,用于添加、删除、修改、查询数据库记录,并检查数据完整性。包括如下SQL语句:

  • INSERT:添加数据到数据库中
  • UPDATE:修改数据库中的数据
  • DELETE:删除数据库中的数据
  • SELECT:选择(查询)数据

数据查询语言(DQL)

SQL中最常见的操作是查询,它是通过陈述性SELECT语句执行的,SELECT从一个或多个表或表达式中检索数据。

  • 查询表数据: SELECT 列名1,列名2,… FROM表名 WHERE条件; (SELECT * from表名,查询所有字段)
  • 去除重复值: SELECT DISTINCT 列名1 FROM表名;
  • 排序查询: SELECT 列名1,列名2 … FROM表名ORDER BY被排序的列名ASC; (ASC为正序,将ASC换成DESC时为倒序,不写时默认为正序)

Excel

表格概述

表格是数据表达的一种形式。

表格概述

Excel概述

Office的电子报表软件。

用户页面友好,具有强大数据计算和管理功能,能够使用图表直观显示数据,进行数据分析,并能够与各种流行的PC数据库连接。

Excel相关组件及工具认知

Power Query简介:
Power Query是微软提供的工具,Excel 2013版作为插件加载使用,从 office 2016版开始,PowerQuery的功能集成到Excel中,可以直接使用。微软推出Power BI Desktop后,一系列的工具,比如Power Query, Power Pivot, Power View等,都集成在其中。Power Query定位查询,中文一般翻译为超级查询,主要作用是连接不同种类的数据源,进行数据的转换。

power_query.png

Power Pivot简介:
Power Pivot中文名是超级透视表,其简称是PP。它与Excel中的透视表类似,只是多了“超级"两个字,功能却强大了好几倍,主要用于数据分析和数据建模。PP是一种列示数据库。

power_pivot.png

公式、函数与制表

Excel常用公式、函数

IF条件公式

IF函数是Excel中最常用的函数之一,它可以对值和期待值进行逻辑比较。因此IF语句可能有两个结果。第一个结果是比较结果为TRUE,第二个结果是比较结果为FALSE。

1
IF (logical_test,value_if_true,value_if_false)  

判断是否满足某个条件,如果满足返回一个值,如果不满足则返回另一个值.

  • Logical_test条件测试,表示计算结果为TRUE或FALSE的任意值或表达式;
  • Value_if_true,若logical_test为TRUE是(条件测试为真时)返回的值;
  • Value_if_false,若logical_test为FALSE是(条件测试为假时)返回的值。

IF函数常见问题如下:

问题哪里出了问题
单元格中的0 value_if_true 或 value_if_False参数无参数值。若要查看返回的正确值,应为两个参数添加参数文本,或者为参数添加TRUE或FALSE。
#NAME? (显示在单元格中) 这通常意味着公式存在拼写错误

IFS条件公式

IFS 函数检查是否满足一个或多个条件,且返回符合第一个TRUE条件的值。IFS可以取代多个嵌套IF语句,并且有多个条件时更方便阅读。

1
IFS (logical_test, value_if_true,...)

检查是否满足一个或多个条件并返回与第一个TRUE条件对应的值.

请注意,IFS 函数允许测试最多127个不同的条件。但不建议在IF或IFS语句中嵌套过多条件。这是因为多个条件需要按正确顺序输入,并且可能非常难构建、测试和更新。

SUMIF条件公式

1
SUMIF (range, criteria,[sum_range])

对满足条件的单元格求和

  • range范围(必需)。希望通过标准评估的单元格范围。每个范围内的单元格必须是数字或名称、数组或包含数字的引用。空白和文本值将被忽略。选定的范围可以包含标准Excel格式的日期。
  • criteria(必需)。criteria以数字、表达式、单元格参考、文本或函数的形式来定义将添加哪些单元格。可包括的通配符字符有:问号(?)以匹配任意单个字符,星号(*)以匹配任意字符序列。如果要查找实际的问号或星号,请在该字符前键入波形符(~)。注:任何文本条件或任何含有逻辑或数学符号的条件都必须使用双引号(")括起来。如果条件为数字,则无需使用双引号。
  • sum_range(可选)。要添加的实际单元格。如果省略sum_range参数,Excel就会添加范围参数中指定的单元格(与应用标准的单元格相同)。sum_range的大小和形状应该与范围相同。如果不这样做,性能可能会受到影响,而且该公式将对从sum_range中第一个单元格开始的单元格范围进行求和,但其尺寸与范围相同。

SUMIFS条件公式

1
SUMIFS (sum_range, criteria_range1, criteria1, [criteria_range2, criteria2], ..)
参数名称说明
sum_range(必需) 要求和的单元格区域
criteria_range1(必需) 使用criteria1测试的区域。Criteria _range1和Criteria1设置用于搜索某个区域是否符合特定条件的搜索对。一旦在该区域中找到了项,将计算sum_range 中的相应值的和。
criteria1(必需) 定义将计算criteria_range1中的哪些单元格的和的条件。
criteria_range2, criteria2,…(可选) 附加的区域及其关联条件。s最多可以输入127个区域/条件对

$ 加上区域表示绝对引用

VLOOKUP查询公式

1
VLOOKUP (lookup_value,table_array,col_index_num,range_lookup)

需要四条信息才可构建VLOOKUP语法:

  • 要查找的值,也被称为查阅值。
  • 查阅值所在的区域。请记住,查阅值应该始终位于所在区域的第一列,这样VLOOKUP才能正常工作。例如,如果查阅值位于单元格c2内,那么区域应该以c开头。
  • 区域中包含返回值的列号。例如,如果指定B2:D11作为区域,则应该将B计为第一列,将c作为第二列,以此类比。
  • (可选)如果需要返回值的近似匹配,可以指定 TRUE;如果需要返回值的精确匹配,则指定FALSE。如果没有指定任何内容,默认值将始终为TRUE或近似匹配。

上述内容集合,如下所示:
= VLOOKUP(要查找的项、要查找位置、区域中包含要返回的值的列号、返回近似匹配或精确匹配指示为1/TRUE或o/FALSE)

INDEX查询公式

1
INDEX (array,row_num,[column_num])

在给定的单元格区域中,返回特定行列交叉处单元格的值或引用

  • array (必需)。单元格区域或数组常量。
    • 如果数组仅包含一行或一列,则相应的row_num或
      column_num参数是可选的。
    • 如果数组具有多行和多列,并且row_num或 column_num,INDEX返回数组中整个行或列的数组。
  • row_num(必需)。除非column_num存在。选择数组中的某行,函数从该行返回数值。如row_num,column_num参数。
  • column_num(可选)。选择数组中的某列,函数从该列返回数值。如column_num, row_num参数

MATCH查询公式

1
MATCH (lookup_value,lookup_array,match_type)

返回符合特定值特定顺序的项在数组中的相对位置

  • lookup_value(必需)。要在lookup_array中匹配的值。例如,如果要在电话簿中查找某人的电话号码,则应该将姓名作为查找值,但实际上需要的是电话号码。lookup_value参数可以为值(数字、文本或逻辑值)或对数字、文本或逻辑值的单元格引用。
  • lookup_array (必需)。要搜索的单元格区域。
  • match_type (可选)。参数指定Excel如何将lookup_value与lookup_array中的值匹配。此参数可取o、1、-1,分别表示精确匹配、升序查找、降序查找模式。

match_type行为:

match_type值说明
1或者省略 MATCH查找小于或等于lookup_value的最大值。lookup_array参数中的值必须以升序排序,例如:…-2,-1,0,1, 2,…,A-Z,FALSE,TRUE。
0 MATCH查找完全等于lookup_value的第一个值。lookup_array参数中的值可按任何顺序排列。
-1 MATCH查找大于或等于lookup_value的最小值。lookup_array参数中的值必须按降序排列,例如:TRUE,FALSE,Z-A,…2,1,o,-1,-2,…等等。

LEFT提取公式

1
LEFT (text,[num_chars])

从一个文本字符串的第一个字符开始返回指定个数的字符

  • text文本(必需)。包含要提取的字符的文本字符串。
  • num_chars(可选)。指定要由LEFT提取的字符的数量。
    • Num_chars 必须大于或等于零。
    • 如果num_chars大于文本长度,则LEFT返回全部文本。
    • 如果省略num_chars,则假定其值为1。

MID提取公式

1
MID (text,start_num,num_chars)

从文本字符串中指定的起始位置起返回制定长度的字符

  • text文本(必需)。包含要提取的字符的文本字符串。
  • start num(必需)。文本中要提取的第一个字符的位置。文本中第一个字符的start_num为1,以此类推。
    • 如果start_num大于文本长度,则MID/MIDB返回空文本(")。
    • 如果start_num小于文本长度,但start_num加num_chars超过文本长度,则MID/MIDB将返回直到文本末尾的字符。如果省略num_chars,则假定其值为1。
    • 如果start_num小于1,则MID/MIDB返回#VALUE!错误值。
  • num_chars(必需)。指定希望MID从文本中返回字符的个数
    • 如果num_chars为负数,则MID返回#VALUE!错误值。

RIGHT提取公式

1
RIGHT (text,num_chars)

从一个文本字符串的最后一个字符开始返回指定个数的字符

  • text文本(必需)。包含要提取的字符的文本字符串。
  • num_chars (可选)。指定希望RIGHT提取的字符数。
    • Num_chars必须大于或等于零。
    • 如果num_chars大于文本长度,则RIGHT返回所有文本。
    • 如果省略num_chars,则假定其值为1。

Excel数据透视表

是一种可以快速汇总大量数据的交互式方法。可用于深入分析数值数据和回答有关数据的一些预料之外的问题。

数据透视表专门针对以下用途设计:

  • 以多种用户友好的方式查询大量数据;
  • 分类汇总和聚合数值数据,按类别和子类别汇总数据,以及创建自定义计算和公式;
  • 展开和折叠数据级别以重点关注结果,以及深入查看感兴趣的区域的汇总数据的详细信息;
  • 可以通过将行移动到列或将列移动到行(也称为"透视"),查看源数据的不同汇总;
  • 通过对最有用、最有趣的一组数据执行筛选、排序、分组和条件格式设置,可以重点关注所需信息;
  • 提供简明、有吸引力并且带有批注的联机报表或打印报表。

数据透视表

QuickBI

QuickBI概述

Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统。

QuickBI的价值:

  • 帮助企业构建自上而下的决策分析体系
  • 实现业务流程和数据分析直接协同
  • 提升企业内各种人员的数据分析效率
  • 形成数据消费和价值洞察的企业文化

QuickBI的产品优势:

  • 企业数据分析全场景覆盖
  • 高性能海量数据分析
  • 权威认证的可视化
  • 移动专属和协同
  • 丰富的集成实践
  • 企业级安全管控

QuickBI有哪些产品和能力:
QuickBI的产品和能力

基于QuickBI的分析场景搭建

分析场景:
客户画像对于商家来讲是一个进行精准营销的利器,商家可以通过对用户画像分析方法的掌握,以及对顾客基本特征与线上行为偏好的深度了解,以此来挖掘个性化服务,进一步提升顾客在店铺的消费体验。
本次内容将基于Quick BI,分析并搭建xx行业的客群画像。
QuickBI-2

具体操作暂略

posted @ 2022-03-08 20:42  ministep88  阅读(428)  评论(0)    收藏  举报
网站更新内容:请访问:https://bigdata.ministep.cn/