08 2020 档案
摘要:博客园 首页 新随笔 联系 管理 订阅 随笔- 168 文章- 0 评论- 7 大数据的认识 大数据: 安装虚拟机VMVirtualBox: https://www.virtualbox.org/wiki/Downloads 1.大数据对于系统架构的需求 显示的需求:海量计算和存储、快速计算 隐式的
阅读全文
摘要:一、HDFS的相关概念 1.块:整个HDFS当中最核心的概念 2.两大组件 名称节点:整个HDFS集群的管家(数据目录) 数据节点:存储实际数据 二、HDFS体系结构、存储原理、数据读写过程 1.体系结构 2.存储原理 冗余数据保存的问题 ·加快数据传输速度 ·很容易检查数据错误 ·保证数据可靠性
阅读全文
摘要:网络爬虫,是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。 1.准备工作:通过浏览器查看分析目标网页 2.获取数据:通过HTTP库向目标点发起请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response,便是所要获取的页面内容
阅读全文

浙公网安备 33010602011771号