文章分类 -  大数据

从小白到入土的大数据持续学习、持续更新
摘要:day31-mysql mysql mysql配置文件详解 配置文件所在路径:C:\ProgramData\MySQL\MySQL Server 8.0 常用的配置信息: 会被客户端读取的配置信息: [client] port:3306 socket:/var/run/mysql/mysql.soc 阅读全文
posted @ 2022-04-18 22:19 黎白昼 阅读(26) 评论(0) 推荐(0)
摘要:day30-s-hadoop hadoop hadoop运行模式 本机模式(单机模式)、伪分布式模式、完全分布式模式 本机模式 官方 wordcount 案例 统计输入文件中每个单词出现的次数 创建一个wcinput的文件 cd hadoop mkdir wcinput 创建数据 cd wcinpu 阅读全文
posted @ 2022-04-17 19:06 黎白昼 阅读(44) 评论(0) 推荐(0)
摘要:day29-shadoop hadoop Hadoop运行环境的搭建 虚拟环境准备 配置网络 修改主机名 vim /etc/hostname 配置主机名称映射 vim /etc/hosts 修改windows的映射文件(hosts) 关闭防火墙 创建atguigu用户 配置atguigu用户具有ro 阅读全文
posted @ 2022-04-17 08:29 黎白昼 阅读(22) 评论(0) 推荐(0)
摘要:day28-s-hadoop hadoop hadoop是一个由Apache基金会开发的 分布式系统基础架构 主要解决:海量数据的存储和海量数据的分析计算问题 广义上来说:hadoop通常指一个更广泛的概念--hadoop生态圈 需要掌握的: hadoop hdfs hadoop mapReduce 阅读全文
posted @ 2022-04-15 23:42 黎白昼 阅读(32) 评论(0) 推荐(0)
摘要:day28-python-spider python 爬取小说实战 # BeautifulSoup使用 import re from bs4 import BeautifulSoup from fake_useragent import UserAgent import requests url=' 阅读全文
posted @ 2022-04-15 23:40 黎白昼 阅读(105) 评论(0) 推荐(0)
摘要:day27-python-spider python Bs4解析库 Beautiful Soup简称BS4,它可以从HTML或XML文档中快速地提取指定的数据。 由于BS4解析页面时需要依赖文档解析器,所以还需要按照lxml作为解析库: Python自带了一个文档解析库html.parser,但是其 阅读全文
posted @ 2022-04-14 21:58 黎白昼 阅读(26) 评论(0) 推荐(0)
摘要:day26-python-spider python 线程 线程的分类: 内核线程:由操作系统内核创建和撤销 用户线程:不需要内核支持而在用户程序实现的线程 python中使用线程有两种方式 函数 用类来包装线程对象 函数 函数式:调用_thread模块中的start_new_thread()函数来 阅读全文
posted @ 2022-04-13 23:03 黎白昼 阅读(28) 评论(0) 推荐(0)
摘要:day25-python-spider python 抓取动态加载数据 代码 # 动态爬取数据实战 from fake_useragent import UserAgent import requests import xlwt # 请求的url url = "https://movie.douba 阅读全文
posted @ 2022-04-12 22:48 黎白昼 阅读(28) 评论(0) 推荐(0)
摘要:day24-python-spider python XPath 基准表达式 能够匹配一个列表的表达式就叫做基准表达式 案例: from lxml import etree import requests from fake_useragent import UserAgent url = "htt 阅读全文
posted @ 2022-04-11 22:07 黎白昼 阅读(26) 评论(0) 推荐(0)
摘要:day23-python-spider python Requests库 简介 这个库的宗旨就是:让HTTP服务于人类 Requests库是再urllib的基础上开发而来的,它使用Python语言编写,并且采用了Apache2 Licensed(一种开源协议)的HTTP库。 于urllib相比,Re 阅读全文
posted @ 2022-04-10 21:35 黎白昼 阅读(25) 评论(0) 推荐(0)
摘要:day22-python-spider python pymysql 基本使用 链接数据库 connect=pymysql.connect(host=host,user=username,password=password,database=database) localhost:本地 MySQL 阅读全文
posted @ 2022-04-10 11:24 黎白昼 阅读(21) 评论(0) 推荐(0)
摘要:day21-python-spider spider 实战 爬虫类 from fake_useragent import UserAgent import urllib from ua_info import ua_list import random import re from bs4 impo 阅读全文
posted @ 2022-04-08 22:55 黎白昼 阅读(92) 评论(0) 推荐(0)
摘要:day20-python-spider spider 简介 网络爬虫又称网络蜘蛛、网络机器人,他是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 爬虫分类 通用网络爬虫 聚焦网络爬虫 增量 阅读全文
posted @ 2022-04-07 23:28 黎白昼 阅读(62) 评论(0) 推荐(0)
摘要:day20-haddop haddop 大数据思维 查重 有1T数据,这些数据中心有两行数据是重复的,如果找出重复行 方案1 从硬盘中读取数据,按照首字母放回硬盘,首字母相同的肯定在同一个区域 依次类推,如果到最后一个文件中,有两个相同的字符串,那么就是相同的字符串 优点 分拆开 缺点 长度不等的时 阅读全文
posted @ 2022-04-07 15:23 黎白昼 阅读(49) 评论(0) 推荐(0)
摘要:day19-Haddop Haddop-HDFS 算法复杂度 算法复杂度分为时间复杂度和空间复杂度 时间复杂度是指执行这个算法所需要的计算工作量 空间复杂度是指执行这个算法所需要的内存空间 时间和空间都是计算机资源的重要体现,而算法的复杂性就是体现在运行该算法时的计算机所需的资源 空间复杂度 一个程 阅读全文
posted @ 2022-04-06 23:06 黎白昼 阅读(28) 评论(0) 推荐(0)
摘要:day17-python python-数据可视化 Flask 简介 依赖 当按照flask时,会安装与它配套的软件 Werkzeug 用于实现 WSGI ,应用和服务之间的标准 Python 接口。 Jinja 用于渲染页面的模板语言。 MarkupSafe 与 Jinja 共用,在渲染页面时用于 阅读全文
posted @ 2022-04-05 23:09 黎白昼 阅读(19) 评论(0) 推荐(0)
摘要:day18-python python echarts workcloud 其他 304状态码? 304状态码或许不应该认为是一个错误,而是对客户端有缓存情况下服务端的一种响应。 客户端在请求一个文件的时候,发现自己缓存的文件有 Last Modified ,那么在请求中会包含 If Modifie 阅读全文
posted @ 2022-04-05 22:53 黎白昼 阅读(20) 评论(0) 推荐(0)
摘要:day16-zookeeper zookeeper 搭建Zookeepr 创建三台虚拟机 zvm01 192.168.31.51 zvm02 192.168.31.52 zvm03 192.168.31.53 实现三台虚拟机到相互免密钥 上传zookeeper并解压 修改配置文件 [root@zvm 阅读全文
posted @ 2022-04-02 22:25 黎白昼 阅读(35) 评论(0) 推荐(0)
摘要:day15-zookeeper zookeeper RAID等级 paxos算法 简介 Paxos算法是Leslie Lamport宗师提出的一种基于消息传递的分布式一致性算法,使其获得2013年图灵奖。 Paxos在1990年提出,被广泛应用分布式计算中,Google的Chubby,Apache的 阅读全文
posted @ 2022-04-02 09:52 黎白昼 阅读(26) 评论(0) 推荐(0)
摘要:day14-zookeeper zookeeper CAP原则 简介 CAP定理是2000年,由Eric Brewer提出。Brewer认为在分布式的环境下设计和部署系统时,有3个核心的需求,以一种特殊的关系存在。 3个核心需求 Consistency Availability Partition 阅读全文
posted @ 2022-03-31 23:18 黎白昼 阅读(37) 评论(0) 推荐(0)