随笔档案「2021年10月」 - lovewx35

Hadoop进阶知识

摘要：Hadoop环境准备 # 1.解压文件 tar -zxvf hadoop...tar.gz -C /opt/module/ # 2.环境变量配置 vim /etc/profile '''添加内容''' ##HADOOP_HOME export HADOOP_HOME=/opt/module/hado 阅读全文

posted @ 2021-10-28 20:29 lovewx35 阅读(89) 评论(0) 推荐(0)

大数据概念

摘要：大数据的概念什么样的数据才可以称之为是"大数据"? 1.海量:数据量一定要大 2.高增长率:一定的时间内数据快速增长 3.多样化:数据的种类千奇百怪研究大数据的目的 1.海量数据的存储 2.海量数据的分析计算重要的度量单位 bit、Byte、KB、MB、GB、TB、 PB、EB、ZB、YB、B 阅读全文

posted @ 2021-10-28 00:12 lovewx35 阅读(424) 评论(0) 推荐(0)

Linu重要目录及文件

摘要：重要目录 etc目录 # 系统和服务的配置文件存放区 home目录 # 普通用户信息存放区 mnt目录 # 临时挂载点目录 opt目录 # 第三方软件安装存放区 sbin目录 # 管理员可以执行的命令 tmp目录 # 临时存放数据 usr目录 # 存放用户程序 var目录 # 存放日志文件数据编辑阅读全文

posted @ 2021-10-27 23:32 lovewx35 阅读(91) 评论(0) 推荐(0)

Linux安装配置与命令大全

摘要：linux操作系统的安装（重要）安装centos7界面可以输入命令修改网卡文件的名词（尽量做一下这一步） net.ifnames=0 biosdevname=0 # 写了网卡文件ifcfg-eth0 不写ifcfg-ens33 先不要急着安装，tab键先进入配置下面就是具体的配置步骤（那么废话阅读全文

posted @ 2021-10-26 20:20 lovewx35 阅读(300) 评论(0) 推荐(0)

贝叶斯模型与Linux基本操作

摘要：贝叶斯模型解释：通过已知类别的训练数据集，计算样本的先验概率，然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率，最终以最⼤后验概率所对应的类别作为样本的预测值。贝叶斯分类器： 1.高斯贝叶斯分类器适用于自变量为连续的数值类型的情况。 2.多项式贝叶斯分类器适用于自变量为离散型类阅读全文

posted @ 2021-10-25 21:54 lovewx35 阅读(149) 评论(0) 推荐(0)

岭回归与lasso等回归模型

摘要：模型的假设检验(F与T) F检验：提出原假设和备择假设然后计算统计量与理论值最后进行比较 F检验主要是用来检验模型是否合理的代码： # 导入第三方模块 import numpy as np # 计算建模数据中因变量的均值 ybar=train.Profit.mean() # 统计变量个数和观测阅读全文

posted @ 2021-10-24 12:39 lovewx35 阅读(443) 评论(0) 推荐(0)

线性与非线性回归模型

摘要：线性回归模型重要名词解释数据符号网站因变量与自变量哑变量：在生成算法模型的时候有些变量可能并不是数字无法直接带入公式计算此时可以构造哑变量>>>C(State) 如何判断两个变量之间是否存在线性关系与非线性关系 1.散点图 2.公式计算大于等于0.8表示高度相关绝对值大于0.5小于等于阅读全文

posted @ 2021-10-21 20:25 lovewx35 阅读(396) 评论(0) 推荐(0)

数据清洗概念

摘要：数据清洗的概念类比定义数据分析过程做菜过程明确需求明确做什么菜品收集采集去菜市场买菜数据清洗洗菜切菜配菜数据分析炒菜数据报告 + 数据可视化拍照发朋友圈吃菜专业定义数据清洗是从记录表、表格、数据库中检测、纠正或删除损坏或不准确记录的过程专业名词脏数据：没有经过处理自阅读全文

posted @ 2021-10-20 16:19 lovewx35 阅读(418) 评论(0) 推荐(0)

其他图形与图形可视化补充

摘要：条形图的绘制虽然饼图可以很好的表达离散型变量在各水平上的差异，但是其不擅长对比差异不大或水平值过多的离散型变量，因为饼图是通过各扇形面积的大小来比价差异的，面积的比较有时并不直观;对于条形图而言，对比的是柱形的高低，柱体越高，代表的数值越大，反之亦然; 关键字：bar bar(x,height,w 阅读全文

posted @ 2021-10-19 16:25 lovewx35 阅读(119) 评论(0) 推荐(0)

pandas实战案例与可视化matplotlib

摘要：缺失值处理缺失值的识别与处理 1.df.isnull 2.df.fillna 3.df.dropna data05 = pd.read_excel(r'data_text05.xlsx') data05.head() data05.isnull() # 统计每个数据项是否有缺失 data05.is 阅读全文

posted @ 2021-10-18 16:01 lovewx35 阅读(215) 评论(0) 推荐(0)

DataFrame相关操作

摘要：Series数据操作 res = pd.Series([111,222,333,444]) # 增 res['a'] = 123 # 查 res.loc[1] # 改 res[0] = 1 # 删 del res[0] 算术运算符 add 加(add) sub 减(substract) div 除( 阅读全文

posted @ 2021-10-17 13:04 lovewx35 阅读(92) 评论(0) 推荐(0)

认识pandas模块

摘要：Numpy小测验 1.计算数组每一行和每一列的中位数(不能使用axis参数) array([ [ 80.5, 60., 40.1, 20., 90.7], [ 10.5, 30., 50.4, 70.3, 90.], [ 35.2, 35., 39.8, 39., 31.], [91.2, 83.4 阅读全文

posted @ 2021-10-14 15:16 lovewx35 阅读(64) 评论(0) 推荐(0)

numpy科学计算库

摘要：科普很多编程语言对数字精确度不是很敏感 python亦是如此但是python与可以做人工智能机器学习量化交易数据分析等高精确度的工作内部其实就是通过相应的模块来实现主体：数据分析三剑客之numpy科学计算库 numpy简介 1.Numpy是高性能科学计算和数据分析的基础包 2.也是pa 阅读全文

posted @ 2021-10-13 15:49 lovewx35 阅读(76) 评论(0) 推荐(0)

ipython、jupyter与Anaconda软件使用

摘要：数据分析的概念什么是数据分析就是从现有的数据中挖掘出价值数据分析应用领域商品推荐 eg：在淘宝上搜索了一款产品之后接下来会疯狂给你推荐相关产品量化交易股票期货等数据分析短视频推送抖音今日头条等短视频推荐 ***数据分析绝对未来所有公司不可或缺的岗位，目前社会上获取数据太多了，阅读全文

posted @ 2021-10-12 15:29 lovewx35 阅读(92) 评论(0) 推荐(0)

MongoDB基本知识

摘要：文档补充操作涉及到数据的嵌套查找支持直接点键或者索引 db.t1.deleteOne({'addr.counytry':'japan'}) db.t1.deleteOne({'hobby.1':'tea'}) # 键和索引可以配合无限用户权限管理涉及到用户权限相关引号推荐全部使用双引号 M 阅读全文

posted @ 2021-10-09 14:47 lovewx35 阅读(58) 评论(0) 推荐(0)

爬虫补充之Scrapy与MongoDB

摘要：爬虫框架之Scrapy 框架：别人提前写好的基本架构它具备了一些功能 Scrapy是网络爬虫中使用频率最高功能最为完善的框架 1.下载scrapy框架 pip3 install scrapy '''mac本一般直接下载即可但是windows电脑可能会出错''' windows电脑如果下载报错并且阅读全文

posted @ 2021-10-08 16:07 lovewx35 阅读(141) 评论(0) 推荐(0)

爬虫博客

摘要：爬虫博客 1.sql注册登录与爬虫相关知识 2.html基础知识与正则表达式 3.re模块与requests块 4.cookie与session 5.爬虫入门案例 6.爬取直接加载的页面 7.爬取图片和视频 8.Openpyxl模块知识 9.梨视频多页数据爬取思路 10.爬取二手房和汽车之家 11. 阅读全文

posted @ 2021-10-07 20:43 lovewx35 阅读(68) 评论(0) 推荐(0)

爬取京东与知乎数据

摘要：百度自动登录 from selenium import webdriver import time # 1.使用谷歌浏览器访问百度首页 bro = webdriver.Chrome() bro.get('https://www.baidu.com/') # 2.查找页面上的登录按钮 login_ta 阅读全文

posted @ 2021-10-05 11:10 lovewx35 阅读(143) 评论(0) 推荐(0)

wish35

10 2021 档案

公告