07 2021 档案
摘要:HDFS集群有两种节点,以管理者-工作者的模式运行,即一个名称节点(NameNode,管理者)和多个数据节点(DataNode,工作者)。名称节点管理文件系统的命名空间。它维护着这个文件系统树及这个树内所有的文件和索引目录。这些信息以两种形式将文件永久保存在本地磁盘上:命名空间镜像和编辑日志。名称节
阅读全文
摘要:1.今日收获内容 re.finditer 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。 re.finditer(pattern, string, flags=0) import re it = re.finditer(r"\d+","12a32bc
阅读全文
摘要:1、大数据概念:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯 2、大数据特点: 大量 高速 多样性 低价值密度:要求对低价值密度的数据具有较好的提取能力 3、大数据应用:
阅读全文
摘要:学习新手学习Hadoop的步骤技巧,并制定学习计划 第一步:所需专业知识 Linux操作系统 Java语言 SQL知识 第二步:识别Hadoop组件 第三步:寻找新手学习Hadoop的课程
阅读全文

浙公网安备 33010602011771号