08 2020 档案

摘要:一、HDFS的相关概念 1.块:整个HDFS当中最核心的概念 2.两大组件 名称节点:整个HDFS集群的管家(数据目录) 数据节点:存储实际数据 二、HDFS体系结构、存储原理、数据读写过程 1.体系结构 2.存储原理 冗余数据保存的问题 ·加快数据传输速度 ·很容易检查数据错误 ·保证数据可靠性 阅读全文
posted @ 2020-08-29 22:32 大米粒o 阅读(142) 评论(0) 推荐(0)
摘要:大数据: 安装虚拟机VMVirtualBox: https://www.virtualbox.org/wiki/Downloads 1.大数据对于系统架构的需求 显示的需求:海量计算和存储、快速计算 隐式的需求:数据的快速传输、灵活性、低成本 2.核心设计理念 并行化、规范经济、虚拟化(抽象) 3. 阅读全文
posted @ 2020-08-25 19:27 大米粒o 阅读(151) 评论(0) 推荐(0)
摘要:beautifulsoup学习: #BeautifulSoup将复杂HTML换成一个复杂的树形结构,每个节点都是python的对象,所有对象可以归纳为4种# -Tag# -NavigableString# -BeautifulSoup# -Comment #BeautifulSoup将复杂HTML换 阅读全文
posted @ 2020-08-22 19:10 大米粒o 阅读(93) 评论(0) 推荐(0)
摘要:网络爬虫,是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。 1.准备工作:通过浏览器查看分析目标网页 2.获取数据:通过HTTP库向目标点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response,便是所要获取的页面内容 阅读全文
posted @ 2020-08-15 22:08 大米粒o 阅读(86) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-08-12 22:10 大米粒o 阅读(52) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-08-08 14:09 大米粒o 阅读(44) 评论(0) 推荐(0)