08 2020 档案

摘要:博客园 首页 新随笔 联系 管理 订阅 随笔- 168 文章- 0 评论- 7 大数据的认识 大数据: 安装虚拟机VMVirtualBox: https://www.virtualbox.org/wiki/Downloads 1.大数据对于系统架构的需求 显示的需求:海量计算和存储、快速计算 隐式的 阅读全文
posted @ 2020-08-29 13:40 wwbzuiku 阅读(40) 评论(0) 推荐(0)
摘要:一、HDFS的相关概念 1.块:整个HDFS当中最核心的概念 2.两大组件 名称节点:整个HDFS集群的管家(数据目录) 数据节点:存储实际数据 二、HDFS体系结构、存储原理、数据读写过程 1.体系结构 2.存储原理 冗余数据保存的问题 ·加快数据传输速度 ·很容易检查数据错误 ·保证数据可靠性 阅读全文
posted @ 2020-08-18 13:39 wwbzuiku 阅读(57) 评论(0) 推荐(0)
摘要:网络爬虫,是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。 1.准备工作:通过浏览器查看分析目标网页 2.获取数据:通过HTTP库向目标点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response,便是所要获取的页面内容 阅读全文
posted @ 2020-08-12 13:37 wwbzuiku 阅读(39) 评论(0) 推荐(0)