随笔分类 - 大数据
数据分析
摘要:本文采用的数据集是阿里天池提供的user_behavior_data_on_taobao_app公开数据集进行分析,期望通过此次分析能通推动产品迭代、实现精准营销,提供定制服务,驱动产品决策等,需要此数据的小朋友们可以前往天池下载 用户行为分析 想要进行精细化运营,围绕的中心永远是用户。用户研究的常
阅读全文
摘要:机器学习之集成学习方式 1、bagging-(RF) 随机森林 两种随机过程的区别(bagging和RF(随机森林)) 随机森林的优缺点: 随机的艺术 2、boosting-(GBDT/Adaboost/XGBOOST) 加权步骤 权重更新 统计机器学习例子 3、stacking
阅读全文
摘要:Python进行携程酒店评论舆情分析 第一步:分析设计 我们是对酒店进行舆情分析,所有我们的核心是酒店的评论数据;对住客的评论数据进行特征提取,通过住客对酒店的评分,对数据进行分类,并使用朴素贝叶斯算法建立数学模型 第二步:数据收集 爬取酒店的相应类型的数据,如酒店的名称,住客的评论,酒店的回复,住
阅读全文
摘要:本文介绍文本处理时比较常用且有效的tfidf特征提取方法 1. 提取tf特征 TF即是词频(Term Frequency)是文本信息量统计方法之一,简单来说就是统计此文本中每个词的出现频率 def computeTF(wordDict, bow): tfDict = {} bowCount = le
阅读全文
posted @ 2020-08-24 02:16
Mr_Yun
摘要:28种 SQL 查询语句的优化方法: 1、应尽量避免在 where 子句中使用 != 或者 <> 操作符,否则将引擎放弃使用索引而进行全表扫描。 2、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t whe
阅读全文
posted @ 2020-08-13 00:14
Mr_Yun
摘要:目前在查看numpy下的函数,发现多维数组轴的概念不太好理解, 三维数组中,(axis轴=1),每一个平面的同一行,(axis轴=2),每一个平面的同一列 import numpy as np a = np.array([[1, 2, 3, 44], [22, 32, 42, 42], [23, 3
阅读全文
posted @ 2020-07-14 09:11
Mr_Yun
摘要:Spss预分析 频率分析 分类变量的频数分析 小试牛刀1 Spss分析步骤 Spss分析结果 上述所在城市的条形图,展示参差不齐。我们需要的是按城市出现的频率高低来排序。 小试牛刀2 Spss分析步骤: Spss分析结果 连续变量的频数分析 集中趋势 离散趋势 小试牛刀 分析步骤: Spss分析结果
阅读全文
posted @ 2020-01-22 17:14
Mr_Yun
摘要:Tableau初始 tableau reader 免费的、只能读 tableau public 免费的、类似于社区版 https://public.tableau.com/profile/ramon.martinez#!/ tableau desk 收费的、类似于企业版 tableau server
阅读全文
posted @ 2019-12-11 14:00
Mr_Yun
摘要:数据库初识: 数据 数据:描述事物的计算机所识别的符号记录 数据库 常见的数据库应用场景: 什么是DBMS? 常用数据库排名 MySQL简介: MySQL最受欢迎的的可视化工具 Navicat Navicat的基本使用 连接数据库 新建数据库 MySQL基本命令 SQL分类 命令行操作数据库 登陆数
阅读全文
摘要:数据分析概述: 什么是数据分析? 数据分析划分 数据分析三大作用 如何进行数据分析? 数据分析六部曲: 用户画像 客户服务优化 风险评估 数据分析三大误区: 数据分析师的职业要求 数据分析师的基本素质:
阅读全文
posted @ 2019-11-27 14:02
Mr_Yun
摘要:基础操作 数据格式 查找与替换 原数据: 查找: 替换 冻结窗口与拆分窗口 冻结窗口 拆分 合并计算求和 原数据: Result: 分列与合并 Result: 排序和筛选 排序: 业务需求:统计各部门工资从高到低 原数据: 排序后数据: 注意:第二个排序结果启用时是在前一个排序产生并列时 筛选: 业
阅读全文
posted @ 2019-11-18 20:29
Mr_Yun

浙公网安备 33010602011771号