10 2021 档案

摘要:目录 HDFS详细 虚拟机环境准备 linux系统与windows系统数据交互 paramiko模块 公钥私钥 Hadoop典型案例 集群服务配置 HDFS详细 是⼀个⽂件系统,⽤于存储⽂件,通过⽬录树 来定位⽂件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各⾃的⻆⾊ H 阅读全文
posted @ 2021-10-28 23:54 陌若安然 阅读(198) 评论(0) 推荐(0)
摘要:目录 各目录下的重要文件 数据库软件Hadoop 异常情况 编辑过程中链接出现中断 再次链接编辑文件会提示相应信息 解决方式 rm -f .oldboy.txt.swp 出现原因 1)编辑状态突然出现了中断 2)文件被多个人使用 # 总结 出现了隐藏文件,没有及时删除 vi编辑文件内部原理 目录结构 阅读全文
posted @ 2021-10-27 23:42 陌若安然 阅读(120) 评论(0) 推荐(0)
摘要:目录 第一篇 Linux基础知识以及虚拟主机创建与配置 第二篇 Linux操作系统的安装和远程操作工具xshell及Linux操作命令 第三篇 数据库软件hadoop 第四篇 hadoop典型案例与集群概念 阅读全文
posted @ 2021-10-26 23:59 陌若安然 阅读(63) 评论(0) 推荐(0)
摘要:目录 linux操作系统的安装 诠释安装过程中核心知识 系统磁盘分区 远程链接工具XShell linux基本操作命令 linux操作系统的安装 步骤一 安装centos7界面 可以输入命令修改网卡文件的名词 # 写了网卡文件ifcfg-eth0 不写ifcfg-ens33 步骤二 步骤三 步骤四 阅读全文
posted @ 2021-10-26 23:55 陌若安然 阅读(507) 评论(0) 推荐(0)
摘要:目录 电脑种类 服务器种类 服务器的品牌 服务器内部组成 虚拟化 创建虚拟主机 配置虚拟主机 电脑种类 1.台式机 2.笔记本 3.服务器 服务器的作用 1.可以尽量避免数据不会丢失 2.可以24小时不间断提供服务 3.可以提升用户体验 服务器的种类 # 云主机服务器 将多台硬件服务器进行整合,根据 阅读全文
posted @ 2021-10-26 22:20 陌若安然 阅读(232) 评论(0) 推荐(0)
摘要:目录 贝叶斯模型 SVM模型 K均值聚类 DBSCAN聚类 GBDT模型 贝叶斯模型 通过已知类别的训练数据集,计算样本的先验概率 然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率 最终以最⼤后验概率所对应的类别作为样本的预测值 内部三大分类器 1.高斯贝叶斯分类器 适用于自变量为连续的 阅读全文
posted @ 2021-10-25 22:00 陌若安然 阅读(102) 评论(0) 推荐(0)
摘要:day01 pandas其他操作补充 可视化模块之matplotlib 缺失值处理 1. df.isnull2. df.notnull 3. df.fillna 4. df.dropna 统计每个数据项是否有缺失 df.isnull() 统计列字段下是否含有缺失 df.isnull().any(ax 阅读全文
posted @ 2021-10-24 12:34 陌若安然 阅读(67) 评论(0) 推荐(0)
摘要:目录 第一篇 线性回归模型 第二篇 其他回归模型 第三篇 算法模型补充 阅读全文
posted @ 2021-10-24 10:53 陌若安然 阅读(119) 评论(0) 推荐(0)
摘要:目录 第一篇 数据分析模块与Anaconda软件使用 第二篇 numpy科学计算库 第三篇 pandas模块 第四篇 Series与DataFrame数据结构 第五篇 pandas其他操作与数据可视化模块matplotlib 第六篇 matplotlib可视化图形与其他模块补充 第七篇 数据清洗与实 阅读全文
posted @ 2021-10-24 10:42 陌若安然 阅读(140) 评论(0) 推荐(0)
摘要:目录 模型的假设检验(F与T) 岭回归与Lasso回归 Logistic回归模型 决策树与随机森林 K近邻模型 模型的假设检验 F检验 提出原假设(正向验证)和备择假设(反向验证),之后计算统计量与理论值,最后比较大小,如果统计量的值大于理论值,则模型是合理的 代码: # 导⼊第三⽅模块 impor 阅读全文
posted @ 2021-10-23 18:28 陌若安然 阅读(269) 评论(0) 推荐(0)
摘要:目录 一元线性回归模型与多元线性回归模型 训练集与测试集 哑变量 自定义哑变量 常用数学符号 网站:http://fhdq.net/sx/14.html 因变量 函数关系式中,某些特定的数会随另一个(或另几个)会变动的数的变动而变动,就称为因变量 自变量 在数学等式中能够影响其他变量的一个变量叫做自 阅读全文
posted @ 2021-10-21 21:47 陌若安然 阅读(1296) 评论(0) 推荐(0)
摘要:目录 数据清洗的概念 数据清洗实战案例 数据清洗的概念 类比定义 数据分析过程 做菜过程 明确需求 >>> 明确做什么菜品 收集数据 >>> 去菜市场买菜 数据清洗 >>> 泽菜洗菜切菜 数据分析 >>> 炒菜 数据报告+数据可视化 >>> 拍照发朋友圈吃菜 专业定义 数据清洗是从记录表、表格、数据 阅读全文
posted @ 2021-10-20 23:05 陌若安然 阅读(2319) 评论(0) 推荐(0)
摘要:目录 水平条形图 交叉条形图 散点图与气泡图 热力图 箱线图 图形可视化其他模块补充 水平条形图 是一种将条形横向放置的条形图,通过排序比较不同类别条形的数据,可以直观地看出各类别数量上的差异 基本使用 # 对读入的数据做升序排序 GDP.sort_values(by = 'GDP',inplace 阅读全文
posted @ 2021-10-19 21:16 陌若安然 阅读(112) 评论(0) 推荐(0)
摘要:目录 pandas其他操作补充 pandas实战案例 可视化模块之matplotlib 缺失值处理 1. df.isnull2. df.notnull 3. df.fillna 4. df.dropna 案例 统计每个数据项是否有缺失 data05.isnull() 统计列字段下是否含有缺失 dat 阅读全文
posted @ 2021-10-18 21:34 陌若安然 阅读(97) 评论(0) 推荐(0)
摘要:day01 爬取王者荣耀皮肤图片 完整代码 import requests import json import os import time #程序开始的时间 st = time.time() url = 'http://pvp.qq.com/web201605/js/herolist.json' 阅读全文
posted @ 2021-10-17 19:51 陌若安然 阅读(41) 评论(0) 推荐(0)
摘要:目录 Series数据操作 算术运算符 DataFrame创建方式 常见属性 DataFrame数据类型补充 读取外部数据 文本文件读取 excel表格读取 数据库数据读取 网页表格数据读取 数据概览 行列操作 数据筛选 数据处理 Series数据操作 res = pd.Series([111,22 阅读全文
posted @ 2021-10-16 20:53 陌若安然 阅读(724) 评论(0) 推荐(0)
摘要:目录 练习题 pandas模块简介 数据类型之Series 缺失数据概念 数据修改规则 布尔值索引 行索引/行标签 练习题 1.计算数组每一行和每一列的中位数(不使用axis参数) import numpy as npres = np.array([ [ 80.5, 60., 40.1, 20., 阅读全文
posted @ 2021-10-14 20:33 陌若安然 阅读(91) 评论(0) 推荐(0)
摘要:目录 numpy简介 numpy前戏 numpy数据结构 numpy数据类型 numpy其他功能 numpy简介 numpy是高性能科学计算和数据分析的基础包,也是pandas等其他数据分析的工具的基础 numpy具有多维数组功能,运算更加高效快速 下载模块 在notebook中如果需要执行pip命 阅读全文
posted @ 2021-10-13 22:12 陌若安然 阅读(143) 评论(0) 推荐(0)
摘要:目录 数据分析的概念 数据分析的工作流程 数据分析三剑客简介 ipython模块 jupyter模块 Anaconda软件使用 数据分析的概念 数据分析 就是从现有的数据中挖掘出价值 数据分析应用领域 1.商品推荐 eg:在淘宝上搜索了一款产品之后,接下来就会疯狂给你推荐相关产品 2.量化交易 股票 阅读全文
posted @ 2021-10-12 21:48 陌若安然 阅读(378) 评论(1) 推荐(0)
摘要:整体思路 步骤一、先进入该网站查看下图片数据所在 步骤二、发现界面皮肤图片是直接将皮肤图片作为背景,需点击右下角选择皮肤图片 步骤三、可以先打开网页检查,观察下背景图片的网页代码 步骤四、找到了url参数,单单这一点是不够的所以回到前面的网址,研究发现了一个可疑的请求 步骤五、对json加密的数据进 阅读全文
posted @ 2021-10-11 22:07 陌若安然 阅读(226) 评论(0) 推荐(0)
摘要:目录 文档操作补充 用户权限管理 查询关键字 分组与聚合 其他查询补充 文档操作补充 涉及到数据的嵌套查找 支持直接点键或者索引 db.t1.deleteOne({'addr.counytry':'SH'}) db.t1.deleteOne({'hobby.1':'tea'}) 用户权限管理 """ 阅读全文
posted @ 2021-10-10 11:17 陌若安然 阅读(84) 评论(0) 推荐(0)
摘要:目录 第一篇 Scrapy框架与MongoDB数据库 第二篇 文档操作补充与MongoDB查询 阅读全文
posted @ 2021-10-08 22:37 陌若安然 阅读(36) 评论(0) 推荐(0)
摘要:目录 爬虫框架之Scrapy Scrapy基本使用 Scrapy文件介绍 MongoDB数据库 MongoDB重要概念 MongoDB下载与安装 启动步骤 基础命令 针对库的增删改查 针对集合的增删改查 针对文档的增删改查 爬虫框架之Scrapy #框架 别人提前给你搭建好了基本架构 具备了一定的功 阅读全文
posted @ 2021-10-08 22:33 陌若安然 阅读(388) 评论(0) 推荐(0)
摘要:day01 解析库之X-path解析器 实战案例之爬取猪八戒数据 X-path解析器 效率很高,使用广泛 模拟网页内容 View Code 导入模块生成对象 # 导入xpath所在模块 from lxml import etree # 将待匹配的文本传入etree生成一个对象 html = etre 阅读全文
posted @ 2021-10-06 13:35 陌若安然 阅读(50) 评论(0) 推荐(0)
摘要:目录 百度自动登录 爬取京东商品数据 知乎登录案例 百度自动登录 思路 1.使用谷歌浏览器访问百度首页 2.查找页面上的登录按钮 3.点击登录按钮 4.查找点击短信登录按钮 5.查找手机号输入框并填写内容 6.查找发送验证码按钮并点击 7.查找并点击登录按钮 延时等待 在访问网站数据的时候加载需要一 阅读全文
posted @ 2021-10-06 13:02 陌若安然 阅读(102) 评论(0) 推荐(0)