04 2020 档案

摘要:一棵决策树包含一个根结点、若干内部结点和若干个叶节点;叶结点对应决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决 阅读全文
posted @ 2020-04-28 14:19 Tanglement 阅读(158) 评论(0) 推荐(0)
摘要:这篇博客讲解的不错[https://blog.csdn.net/guoyunfei20/article/details/78911721] 引自[https://blog.csdn.net/qiu_zhi_liao/article/details/90671932] 朴素贝叶斯是经典的机器学习算法之 阅读全文
posted @ 2020-04-27 22:06 Tanglement 阅读(292) 评论(0) 推荐(0)
摘要:很容易理解的一篇博客[http://blog.codinglabs.org/articles/pca tutorial.html] 在高维情形下出现的数据样本稀疏、距离计算困难等问题,称为“维数灾难”。 缓解维数灾难的一个重要途径是降维。将原始高维属性空间转变成一个低维子空间,子空间样本密度大幅提高 阅读全文
posted @ 2020-04-27 09:04 Tanglement 阅读(1006) 评论(0) 推荐(0)
摘要:工作原理 K Nearest Neighbor,KNN。是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测。通常,在分类任务中可使用投票法,选择K个样本中出现最多的类别标记作为预测结果;在回归任务中使用 阅读全文
posted @ 2020-04-26 12:40 Tanglement 阅读(383) 评论(0) 推荐(0)
摘要:EM学习笔记推荐[https://www.cnblogs.com/bigmoyan/p/4550375.html] 最大期望算法(Expectation maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于 阅读全文
posted @ 2020-04-25 19:02 Tanglement 阅读(879) 评论(0) 推荐(0)
摘要:聚类概念 在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律。此类学习任务中研究最多的是聚类。 聚类视图将数据中的样本分为若干个不相交的子集,每个子集称为一个簇。每个簇有各自的性质。 聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可以作为 阅读全文
posted @ 2020-04-24 19:52 Tanglement 阅读(192) 评论(0) 推荐(0)
摘要:找到一篇很好的SVM学习笔记[https://blog.csdn.net/Revendell/article/details/84674024],良心推荐。 在样本空间中,划分超平面可通过线性方程来描述: 其中w是法向量决定了超平面的方向,b为位移项,决定超平面与原点之间的距离。 支持向量 距离超平 阅读全文
posted @ 2020-04-23 10:52 Tanglement 阅读(259) 评论(0) 推荐(0)
摘要:引自[https://www.cnblogs.com/czdbest/p/5771500.html] 对p(x|y)建模。根据大象的特征学习出一个大象模型,根据狗的特征学习出狗的模型,对于新的样本,将特征分别放到两个模型,哪个概率大,就确定是哪种动物。 p(x|y)建模后,用贝叶斯定理,可以算出p( 阅读全文
posted @ 2020-04-22 16:14 Tanglement 阅读(125) 评论(0) 推荐(0)
摘要:只是学习笔记,杂乱。 在[https://blog.csdn.net/Cdd2xd/article/details/75635688]有更好的归纳和解释。 基本形式 线性模型,具有更好的可解释性,每个参数有表示的意义。 线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。 要训练w使得代价函 阅读全文
posted @ 2020-04-21 23:12 Tanglement 阅读(486) 评论(0) 推荐(0)
摘要:HBaseDao 初始化函数,init()创建命名空间和表 插入数据函数,rowkey和数据 明显看出封装数据对象后,代码简洁。 BaseDao HBaseDao的具体实现方法。 start(),建立连接和获取Admin end(),关闭连接和admin createTableXX(),创建表,输入 阅读全文
posted @ 2020-04-20 11:03 Tanglement 阅读(333) 评论(0) 推荐(0)
摘要:流程 kafka配置 创建消费者 关注主题ct 获取数据 将数据写入HBase consumer.properties是kafka集群的配置信息,calllog是数据封装对象。 写入HBase具体代码 https://www.cnblogs.com/chenshaowei/p/12736522.ht 阅读全文
posted @ 2020-04-20 10:55 Tanglement 阅读(384) 评论(0) 推荐(0)
摘要:准备工作 需要先安装好Zookeeper集群和Hadoop集群 Zookeeper集群启动 ./bin/zkServer.sh start ./bin/zkServer.sh start ./bin/zkServer.sh start Hadoop集群启动 ./sbin/start-dfs.sh . 阅读全文
posted @ 2020-04-16 19:07 Tanglement 阅读(483) 评论(0) 推荐(0)
摘要:采集文件call.log的数据到kafka,并从kafka消费者控制台获取数据。 flume+kafka是目前大数据很经典的日志采集工具。文件数据通过flume采集,通过kafka进行订阅发布并缓存,很适合充当消息中间件。 准备工作 启动zookeeper,kafka集群 在kafka创建ct主题, 阅读全文
posted @ 2020-04-12 14:40 Tanglement 阅读(3534) 评论(0) 推荐(0)
摘要:给定一个链表,删除链表的倒数第n个节点,并且返回链表的头结点。 两次循环 思路:第一次循环找出链表的总长度,第二次循环将倒数第n个节点删除。 在链表头结点前加一个空节点,可以简化操作,对于删除头结点的情况不用特殊处理。 一次循环 思路:一次循环就要在循环中确定倒数n个节点的位置。设置两个指针p,q, 阅读全文
posted @ 2020-04-08 12:34 Tanglement 阅读(128) 评论(0) 推荐(0)
摘要:kafka安装前提 需要安装对应版本的scala,jdk,zookeeper 安装步骤 解压 改名+增加权限 建立日志存放路径 更改配置文件server.properties 配置环境变量 将/kafka目录分发给其他节点hadoop2,hadoop3 需要在各自的配置文件server.proper 阅读全文
posted @ 2020-04-07 20:51 Tanglement 阅读(236) 评论(0) 推荐(0)
摘要:给定一个包含n个整数的数组nums和一个目标值target,判断nums中是否存在四个元素a,b,c和d,适合a+b+c+d的值与target相等?找出所有满足条件且不重复的四元组。 与三数之和一样的思路。前两个数两个循环,后两个数用指针遍历的方式。在整体循环框架、指针遍历码好后,要添加条件来增加遍 阅读全文
posted @ 2020-04-06 11:39 Tanglement 阅读(114) 评论(0) 推荐(0)
摘要:两个网页查看集群情况 1. master:8088查看mapreduce任务的执行情况。有任务ID,任务运行状态,任务执行程度。 2. localhost:50070查看HDFS目录,查看DataNode信息,集群信息。 文件存储位置 在datanode节点下,在目录/usr/local/hadoo 阅读全文
posted @ 2020-04-04 20:18 Tanglement 阅读(1720) 评论(0) 推荐(1)
摘要:学习了这么久hadoop,都没有搭过集群,是不合格的。这次搭建完,细扣具体的Job运行情况,日志信息,对Hadoop了解更深了。后面也要陆续搭建分布式flume,kafka,hbase,mysql来完成最终的离线批处理分析项目。 搭建步骤 1. 虚拟机环境准备(IP地址、主机名、新用户、防火墙、SS 阅读全文
posted @ 2020-04-04 13:56 Tanglement 阅读(163) 评论(0) 推荐(0)
摘要:给定一个仅包含数字2 9的字符串,返回所有它能表示的字母组合。给出数字到字母的映射与电话按键相同。 思路 如何表示数字与字母的映射是一个问题,这个问题解决了,题目也就容易解决了。用哪个数据结构呢?Map。 解决完映射后,将输入的数字字符串遍历,将映射中的字母循环组合,即可遍历所有能表示的字母组合。可 阅读全文
posted @ 2020-04-03 13:36 Tanglement 阅读(134) 评论(0) 推荐(0)
摘要:给定一个包括n个整数的数组nums和一个目标值target。找出nums中的三个整数,使得它们的和与target最接近。返回这三个数的和。假定每组输入只存在唯一答案。 思路 可以借鉴上题的循环方式,双指针法。每次判断三个数之和与target的绝对值是否最小,是最小则返回之和,否则继续遍历。如果三数和 阅读全文
posted @ 2020-04-03 10:48 Tanglement 阅读(112) 评论(0) 推荐(0)
摘要:给你一个包含n个整数的数组nums,判断nums中是否存在三个元素a,b,c,使得a+b+c=0?请你找出所有满足条件且不可重复的三元组。 答案中不可以包含重复的三元组。 暴力解法 直接三个循环,遍历所有可能性,判断a+b+c=0,是的话记录。如何去除重复的三元组?用set记录三元组。相同三元组即可 阅读全文
posted @ 2020-04-02 13:24 Tanglement 阅读(154) 评论(0) 推荐(0)
摘要:编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 ""。 所有输入只包含小写字母a z。 思路 不断比较每个字符串的单个字符,若相等则用加入StringBuilder,直到不相等。 提交代码 其他人的解法 水平扫描 String字符串有一个indexOf(String 阅读全文
posted @ 2020-04-02 11:02 Tanglement 阅读(118) 评论(0) 推荐(0)
摘要:与12题一样的规则,将罗马数字转为整数。 思路 字符串str从左到右遍历,不断将一个长度和两个长度的子字符串与罗马字符匹配,匹配成功就将数值相加 小结 忘记了String相等不能用==,以至于索引报错,一直在想索引怎么会出错。要注意substring的索引不能超出边界,可以求长度来避免这个情况。 阅读全文
posted @ 2020-04-01 17:17 Tanglement 阅读(124) 评论(0) 推荐(0)
摘要:给定一个整数,将其转为罗马数字。输入确保在1到3999的范围内。 罗马数字包含以下七种字符:I,V,X,L,C,D,M 通常情况,小的数字放在大的数字右边。但是有六种特殊的情况: I可以放在V和X左边,表示4和9 X可以放在L和C的左边,表示40和90 C可以放在D和M的左边,表示400和900 主 阅读全文
posted @ 2020-04-01 16:17 Tanglement 阅读(144) 评论(0) 推荐(0)
摘要:给你n个非负整数a1,a2,...,an,每个数代表坐标中的一个点(i,ai)。在坐标内画n条垂直线,垂直线i的两个端点分别为(i,ai)和(i,0)。找出其中两条线,使得它们与x轴共同构成的容器可以容纳最多的水。 这题换算为数学题就是找到两个坐标点i,j,使得min(h[i],h[j]) (j i 阅读全文
posted @ 2020-04-01 13:30 Tanglement 阅读(111) 评论(0) 推荐(0)