10 2021 档案

摘要:Hadoop环境准备 # 1.解压文件 tar -zxvf hadoop...tar.gz -C /opt/module/ # 2.环境变量配置 vim /etc/profile '''添加内容''' ##HADOOP_HOME export HADOOP_HOME=/opt/module/hado 阅读全文
posted @ 2021-10-28 20:29 lovewx35 阅读(89) 评论(0) 推荐(0)
摘要:大数据的概念 什么样的数据才可以称之为是"大数据"? 1.海量:数据量一定要大 2.高增长率:一定的时间内数据快速增长 3.多样化:数据的种类千奇百怪 研究大数据的目的 1.海量数据的存储 2.海量数据的分析计算 重要的度量单位 bit、Byte、KB、MB、GB、TB、 PB、EB、ZB、YB、B 阅读全文
posted @ 2021-10-28 00:12 lovewx35 阅读(424) 评论(0) 推荐(0)
摘要:重要目录 etc目录 # 系统和服务的配置文件存放区 home目录 # 普通用户信息存放区 mnt目录 # 临时挂载点目录 opt目录 # 第三方软件安装存放区 sbin目录 # 管理员可以执行的命令 tmp目录 # 临时存放数据 usr目录 # 存放用户程序 var目录 # 存放日志文件数据 编辑 阅读全文
posted @ 2021-10-27 23:32 lovewx35 阅读(91) 评论(0) 推荐(0)
摘要:linux操作系统的安装(重要) 安装centos7界面 可以输入命令修改网卡文件的名词(尽量做一下这一步) net.ifnames=0 biosdevname=0 # 写了网卡文件ifcfg-eth0 不写ifcfg-ens33 先不要急着安装,tab键先进入配置 下面就是具体的配置步骤(那么废话 阅读全文
posted @ 2021-10-26 20:20 lovewx35 阅读(300) 评论(0) 推荐(0)
摘要:贝叶斯模型 解释: 通过已知类别的训练数据集,计算样本的先验概率,然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最⼤后验概率所对应的类别作为样本的预测值。 贝叶斯分类器: 1.高斯贝叶斯分类器 适用于自变量为连续的数值类型的情况。 2.多项式贝叶斯分类器 适用于自变量为离散型类 阅读全文
posted @ 2021-10-25 21:54 lovewx35 阅读(149) 评论(0) 推荐(0)
摘要:模型的假设检验(F与T) F检验:提出原假设和备择假设 然后计算统计量与理论值 最后进行比较 F检验主要是用来检验模型是否合理的 代码: # 导入第三方模块 import numpy as np # 计算建模数据中因变量的均值 ybar=train.Profit.mean() # 统计变量个数和观测 阅读全文
posted @ 2021-10-24 12:39 lovewx35 阅读(443) 评论(0) 推荐(0)
摘要:线性回归模型 重要名词解释 数据符号网站 因变量与自变量 哑变量:在生成算法模型的时候有些变量可能并不是数字无法直接带入公式计算 此时可以构造哑变量>>>C(State) 如何判断两个变量之间是否存在线性关系与非线性关系 1.散点图 2.公式计算 大于等于0.8表示高度相关 绝对值大于0.5小于等于 阅读全文
posted @ 2021-10-21 20:25 lovewx35 阅读(396) 评论(0) 推荐(0)
摘要:数据清洗的概念 类比定义 数据分析过程 做菜过程 明确需求 明确做什么菜品 收集采集 去菜市场买菜 数据清洗 洗菜切菜配菜 数据分析 炒菜 数据报告 + 数据可视化 拍照发朋友圈吃菜 专业定义 数据清洗是从记录表、表格、数据库中检测、纠正或删除损坏或不准确记录的过程 专业名词 脏数据:没有经过处理自 阅读全文
posted @ 2021-10-20 16:19 lovewx35 阅读(418) 评论(0) 推荐(0)
摘要:条形图的绘制 虽然饼图可以很好的表达离散型变量在各水平上的差异,但是其不擅长对比差异不大或水平值过多的离散型变量,因为饼图是通过各扇形面积的大小来比价差异的,面积的比较有时并不直观;对于条形图而言,对比的是柱形的高低,柱体越高,代表的数值越大,反之亦然; 关键字:bar bar(x,height,w 阅读全文
posted @ 2021-10-19 16:25 lovewx35 阅读(119) 评论(0) 推荐(0)
摘要:缺失值处理 缺失值的识别与处理 1.df.isnull 2.df.fillna 3.df.dropna data05 = pd.read_excel(r'data_text05.xlsx') data05.head() data05.isnull() # 统计每个数据项是否有缺失 data05.is 阅读全文
posted @ 2021-10-18 16:01 lovewx35 阅读(215) 评论(0) 推荐(0)
摘要:Series数据操作 res = pd.Series([111,222,333,444]) # 增 res['a'] = 123 # 查 res.loc[1] # 改 res[0] = 1 # 删 del res[0] 算术运算符 add 加(add) sub 减(substract) div 除( 阅读全文
posted @ 2021-10-17 13:04 lovewx35 阅读(92) 评论(0) 推荐(0)
摘要:Numpy小测验 1.计算数组每一行和每一列的中位数(不能使用axis参数) array([ [ 80.5, 60., 40.1, 20., 90.7], [ 10.5, 30., 50.4, 70.3, 90.], [ 35.2, 35., 39.8, 39., 31.], [91.2, 83.4 阅读全文
posted @ 2021-10-14 15:16 lovewx35 阅读(64) 评论(0) 推荐(0)
摘要:科普 很多编程语言对数字精确度不是很敏感 python亦是如此 但是python与可以做人工智能 机器学习 量化交易 数据分析等高精确度的工作 内部其实就是通过相应的模块来实现 主体:数据分析三剑客之numpy科学计算库 numpy简介 1.Numpy是高性能科学计算和数据分析的基础包 2.也是pa 阅读全文
posted @ 2021-10-13 15:49 lovewx35 阅读(76) 评论(0) 推荐(0)
摘要:数据分析的概念 什么是数据分析 就是从现有的数据中挖掘出价值 数据分析应用领域 商品推荐 eg:在淘宝上搜索了一款产品之后 接下来会疯狂给你推荐相关产品 量化交易 股票 期货 等数据分析 短视频推送 抖音 今日头条等短视频推荐 ***数据分析绝对未来所有公司不可或缺的岗位,目前社会上获取数据太多了, 阅读全文
posted @ 2021-10-12 15:29 lovewx35 阅读(92) 评论(0) 推荐(0)
摘要:文档补充操作 涉及到数据的嵌套查找 支持直接点键或者索引 db.t1.deleteOne({'addr.counytry':'japan'}) db.t1.deleteOne({'hobby.1':'tea'}) # 键和索引可以配合无限 用户权限管理 涉及到用户权限相关 引号推荐全部使用双引号 M 阅读全文
posted @ 2021-10-09 14:47 lovewx35 阅读(58) 评论(0) 推荐(0)
摘要:爬虫框架之Scrapy 框架:别人提前写好的基本架构 它具备了一些功能 Scrapy是网络爬虫中使用频率最高功能最为完善的框架 1.下载scrapy框架 pip3 install scrapy '''mac本一般直接下载即可 但是windows电脑可能会出错''' windows电脑如果下载报错并且 阅读全文
posted @ 2021-10-08 16:07 lovewx35 阅读(141) 评论(0) 推荐(0)
摘要:爬虫博客 1.sql注册登录与爬虫相关知识 2.html基础知识与正则表达式 3.re模块与requests块 4.cookie与session 5.爬虫入门案例 6.爬取直接加载的页面 7.爬取图片和视频 8.Openpyxl模块知识 9.梨视频多页数据爬取思路 10.爬取二手房和汽车之家 11. 阅读全文
posted @ 2021-10-07 20:43 lovewx35 阅读(68) 评论(0) 推荐(0)
摘要:百度自动登录 from selenium import webdriver import time # 1.使用谷歌浏览器访问百度首页 bro = webdriver.Chrome() bro.get('https://www.baidu.com/') # 2.查找页面上的登录按钮 login_ta 阅读全文
posted @ 2021-10-05 11:10 lovewx35 阅读(143) 评论(0) 推荐(0)