随笔列表第2页 - 西瓜哥119

2019年6月6日

摘要：朴素贝叶斯算法仍然是流行的挖掘算法之一，该算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设阅读全文

posted @ 2019-06-06 16:37 西瓜哥119 阅读(409) 评论(0) 推荐(0) 编辑

2019年5月27日

spark 机器学习 knn 代码实现(二)

摘要：通过knn 算法规则，计算出s2表中的员工所属的类别原始数据：某公司工资表 s1（训练数据）格式：员工ID，员工类别，工作年限，月薪（K为单位） 101 a类 8年 30k[hadoop@h201 sss]$ cat s1.txt 101,a,8,30102,a,6,35103,a,12,42104 阅读全文

posted @ 2019-05-27 16:44 西瓜哥119 阅读(787) 评论(0) 推荐(0) 编辑

2019年5月6日

spark 机器学习 knn原理(一)

摘要： 1.knnK最近邻(k-Nearest Neighbor，KNN)分类算法，在给定一个已经做好分类的数据集之后，k近邻可以学习其中的分类信息，并可以自动地给未来没有分类的数据分好类。我们可以把用户分为两类：“高信誉用户”和“低信誉用户”，酒店则可以分为：“五星”，“四星”，“三星”，“两星”，“一星阅读全文

posted @ 2019-05-06 16:37 西瓜哥119 阅读(919) 评论(0) 推荐(0) 编辑

2019年5月5日

spark 机器学习 ALS原理(一)

摘要： 1.线性回归模型线性回归是统计学中最常用的算法，当你想表示两个变量间的数学关系时，就可以用线性回归。当你使用它时，你首先假设输出变量（相应变量、因变量、标签）和预测变量（自变量、解释变量、特征）之间存在的线性关系。（自变量是指：研究者主动操纵，而引起因变量发生变化的因素或条件，因此自变量被看作是因变阅读全文

posted @ 2019-05-05 15:39 西瓜哥119 阅读(2350) 评论(0) 推荐(0) 编辑

2019年4月30日

数学符号表及读法

摘要：常用数学输入符号： ≈ ≡ ≠ ＝ ≤≥ ＜＞ ≮ ≯ ∷ ± ＋－ × ÷ ／ ∫ ∮ ∝ ∞ ∧ ∨ ∑ ∏ ∪ ∩ ∈ ∵ ∴ ⊥ ‖ ∠ ⌒ ≌ ∽ √ （）【】｛｝ Ⅰ Ⅱ ⊕ ⊙∥α β γ δ ε ζ η θ Δ 大写小写英文注音国际音标注音中文注音 Α α alpha 阅读全文

posted @ 2019-04-30 13:54 西瓜哥119 阅读(5689) 评论(0) 推荐(0) 编辑

2019年4月26日

spark 机器学习基础数据类型

摘要： spark的机器学习库，包含常见的学习算法和工具如分类、回归、聚类、协同过滤、降维等使用算法时都需要指定相应的数据集，下面为大家介绍常用的spark ml 数据类型。1.本地向量（Local Vector）存储在单台机器上，索引采用0开始的整型表示，值采用Double类型的值表示。Spark MLl 阅读全文

posted @ 2019-04-26 15:37 西瓜哥119 阅读(1077) 评论(0) 推荐(0) 编辑

2019年4月22日

spark2.4 分布式安装

摘要：一．Spark2.0的新特性Spark让我们引以为豪的一点就是所创建的API简单、直观、便于使用，Spark 2.0延续了这一传统，并在两个方面凸显了优势： 1、标准的SQL支持； 2、数据框（DataFrame）/Dataset （数据集）API的统一。在SQL方面，我们已经对Spark的SQL 阅读全文

posted @ 2019-04-22 14:55 西瓜哥119 阅读(985) 评论(0) 推荐(0) 编辑

2019年4月17日

spark als scala实现(二)

摘要： Vi t1.txt1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101, 阅读全文

posted @ 2019-04-17 13:30 西瓜哥119 阅读(651) 评论(0) 推荐(0) 编辑

2019年4月2日

hbase snapshot 表备份/恢复

摘要： snapshot其实就是一组metadata信息的集合，它可以让管理员将表恢复到以前的一个状态。snapshot并不是一份拷贝，它只是一个文件名的列表，并不拷贝数据。一个全的snapshot恢复以为着你可以回滚到原来的表schema和创建snapshot之前的数据。应用场景： 1获取：该操作尝试从阅读全文

posted @ 2019-04-02 17:03 西瓜哥119 阅读(1641) 评论(0) 推荐(0) 编辑

2019年3月29日

hbase 工作原理

摘要：一．HBASE介绍HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建大规模结构化的存储集群。HBase的目标是存储并处理大型数据，具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。与MapReduce的离阅读全文

posted @ 2019-03-29 13:50 西瓜哥119 阅读(567) 评论(0) 推荐(0) 编辑

西瓜哥119

公告