上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 39 下一页
摘要: 1 分类 分类是将事物按特性进行分类,例如将手写数字图片分类为对应的数字。 1.1 MINIST数字图片集分类 MINST就是一个70000张规格较小的手写数字图片,如何将他们分类为对应的数字?MINIST这个数据集是由矩阵数组结构,70000个矩阵,每个矩阵28*28=784,每个点代表一个像素值 阅读全文
posted @ 2020-04-07 21:47 一字千金 阅读(1706) 评论(1) 推荐(0)
摘要: 1 完整的机器学习项目 完成项目的步骤: (1) 项目概述 (2) 获取数据 (3) 发现并可视化数据,发现规律。 (4) 为机器学习算法准备数据。 (5) 选择模型,进行训练。 (6) 微调模型。 (7) 给出解决方案。 (8) 部署、监控、维护系统。 1.1 使用真实数据 学习机器学习时,最好使 阅读全文
posted @ 2020-03-30 21:21 一字千金 阅读(1463) 评论(1) 推荐(0)
摘要: 1 python基础知识 1.1 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。支持多种平台。下载安装https://www.python.org/,在系统环境变量path中加入python的安装目录。有三种编写方式 (1) 交互式解释器。可以在cmd输入pyt 阅读全文
posted @ 2020-03-17 15:16 一字千金 阅读(425) 评论(0) 推荐(0)
摘要: 1.创建虚拟环境 因为项目采用不同版本的python,所依赖的库的版本也不一样,为了避免版本冲突,为每一个项目每个python版本创建一个虚拟环境,环境中所使用的依赖库也是独立存在,不会被其他版本或其他项目的库影响。 (1)基于python版本创建虚拟环境 在pycharm的file-setting 阅读全文
posted @ 2020-03-13 21:04 一字千金 阅读(20311) 评论(0) 推荐(3)
摘要: 1 机器学习概览 1.1 机器学习定义 计算机程序利用经验E学习任务T,他的性能P会随着经验E不断增长。例如垃圾邮件过滤器,传统的编程技术只是针对指定的关键词(credit card,sale house)进行过滤。如果出现新的关键词保险,则需要更新标记。基于机器学习的垃圾邮件过滤器会自动检测保险关 阅读全文
posted @ 2020-03-12 16:58 一字千金 阅读(473) 评论(0) 推荐(0)
摘要: 1.1 维护 1.1.1 日常管理过程 (1) namenode元数据备份 使用dfsadmin下载最新的fsimage镜像文件 hdfs dfsadmin –fetchImage fsimage.backup (2) 数据备份 hadoop复本机制仍然可能导致重要数据丢失,所以要将优先级高的数据进 阅读全文
posted @ 2020-03-11 10:24 一字千金 阅读(422) 评论(0) 推荐(0)
摘要: 1.1 监控 检测集群的健康状态,避免宕机。 1.1.1 日志 访问http://resource-manager-host:8088/logLevel去设置日志级别,用于排查问题。 或者用命令hadoop daemonlog –setlevel resource-manager-host:8088 阅读全文
posted @ 2020-03-11 10:21 一字千金 阅读(503) 评论(0) 推荐(0)
摘要: (1) dfsadmin管理控制工具 查看hdfs的状态,切换安全模式,保存新的fsimage镜像,重置edits文件等 (2) fsck工具(file system check) fsck工具从namenode获取文件系统的信息,检测文件系统总字节数,文件夹数,文件数,数据块数,满足最小复制条件的 阅读全文
posted @ 2020-03-11 10:18 一字千金 阅读(381) 评论(0) 推荐(0)
摘要: 1.1.1 安全模式 安全模式是文件系统只读不写的过程,一般在载入旧镜像,执行编辑日志,生成新镜像和空编辑日志文件的过程中。datanode存储数据块列表,namenode存储块的位置信息。datanode定期向namenode发送最新的块列表信息。如果某个块复本数量少于最小复本级别(dfs.nam 阅读全文
posted @ 2020-03-11 10:13 一字千金 阅读(326) 评论(0) 推荐(0)
摘要: 1.1.1 永久性数据结构 namenode的目录结构如下图 (1) VERSION属性文件 namespaceid文件系统命名空间唯一标识。 clusterID是将HDFS集群作为一个整体赋予的唯一标识符。 blockpoolID是数据块池的唯一标识。 CTime是namenode存储系统创建时间 阅读全文
posted @ 2020-03-11 10:11 一字千金 阅读(535) 评论(0) 推荐(0)
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 39 下一页