摘要:
1.在清华开源软件镜像站或者http://www.us.apache.org/dist/ 下载Solr的安装包,我下载的是solr-6.5.1.tgz 2.解压并移动到/usr/local目录下 3.安装Solr需要安装Java环境,假设Java环境是安装好的 4.解压solr-6.5.1.tgz目
阅读全文
posted @ 2017-05-10 10:02
tonglin0325
阅读(1444)
推荐(0)
posted @ 2017-05-07 23:20
tonglin0325
阅读(676)
推荐(0)
摘要:
spark可以使用SparkListener API在spark运行的过程中监控spark任务当前的运行状态,参考:SparkListener监听使用方式及自定义的事件处理动作 编写 MySparkAppListener package com.bigdata.spark import org.ap
阅读全文
posted @ 2017-05-06 16:18
tonglin0325
阅读(461)
推荐(0)
摘要:
参考: 广告点击率预估是怎么回事? 参考:推荐系统(10):样本拼接工程实践
阅读全文
posted @ 2017-05-06 15:58
tonglin0325
阅读(413)
推荐(0)
摘要:
参考:http://blog.csdn.net/xiangwanpeng/article/details/54586087 1.在下载目录下 sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2.解压,并复制到/usr/lo
阅读全文
posted @ 2017-05-06 11:04
tonglin0325
阅读(457)
推荐(0)
摘要:
Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。 线性模型,简单而且相对容易扩展到非常大的数据集;线性模型又可以分成:1.逻辑回归;2.线性支持向量机 决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题),但是在很多情况下性能很
阅读全文
posted @ 2017-05-01 20:10
tonglin0325
阅读(428)
推荐(0)
摘要:
1.安装request pip install requests 2.请求网页 下载地址:http://phantomjs.org/download.html >>> import requests >>> r = requests.get('https://wwww.baidu.com') >>>
阅读全文
posted @ 2017-05-01 15:06
tonglin0325
阅读(1566)
推荐(0)
摘要:
推荐模型 推荐模型的种类分为: 1.基于内容的过滤:基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2.协同过滤:协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。 在基于用户的方法的中
阅读全文
posted @ 2017-04-29 21:39
tonglin0325
阅读(943)
推荐(2)
摘要:
数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama
阅读全文
posted @ 2017-04-29 11:38
tonglin0325
阅读(2731)
推荐(0)
摘要:
使用MLlib库中的机器学习算法对垃圾邮件进行分类 分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 代码 结果
阅读全文
posted @ 2017-04-28 22:53
tonglin0325
阅读(456)
推荐(0)
摘要:
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。
阅读全文
posted @ 2017-04-25 23:33
tonglin0325
阅读(403)
推荐(0)
摘要:
1.Option类型 Option类型可以有两种类型,一种是Some(x),一种是None对象 比如Scala的Map的get方法发现了指定键,返回Some(x),没有发现,返回None对象 2.列表 List类型中的所有元素都具有相同的类型。 空列表的类型为List[Nothing]。对于任意类型
阅读全文
posted @ 2017-04-19 23:46
tonglin0325
阅读(426)
推荐(0)
摘要:
1.样本类 在申明的类前面加上一个case修饰符,带有这种修饰符的类被称为样本类(case class)。 被申明为样本类的类的特点:1.会添加和类名一致的工厂方法;2.样本类参数列表中的所有参数隐式获得了val前缀,因此它被当做字段维护;3.编译器被这个样本类添加了toString、hashcod
阅读全文
posted @ 2017-04-19 23:04
tonglin0325
阅读(451)
推荐(0)
摘要:
1.断言 assert(conditon)将在条件不成立的时候,抛出assertionError assert(conditon,explanation)讲在条件不成立的时候,抛出explanation作为说明 2.单元测试 Scala中提供了多种单元测试的方法,比如ScalaTest ScalaT
阅读全文
posted @ 2017-04-19 17:45
tonglin0325
阅读(1854)
推荐(0)
摘要:
1.首先在HBase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp HBase表结构 2.往HBase中写入数据,写入的时候,需要写family和col
阅读全文
posted @ 2017-04-18 17:20
tonglin0325
阅读(679)
推荐(0)
摘要:
使用Spark读写HDFS中的parquet文件 文件夹中的parquet文件 build.sbt文件 Scala实现方法 df.show打印出来的信息,如果没放在一个case class中的话,name,url,info,summary这列信息会变成1,2,3,4 使用spark-shell查看写
阅读全文
posted @ 2017-04-18 14:54
tonglin0325
阅读(906)
推荐(0)
摘要:
1.简化代码 输出是 2.柯里化 3.继承 4.特质
阅读全文
posted @ 2017-04-16 11:45
tonglin0325
阅读(334)
推荐(0)
摘要:
1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 Mysql.scala文件 输出 2.使用Spark写MySQL中某个表中的信息
阅读全文
posted @ 2017-04-13 09:53
tonglin0325
阅读(4435)
推荐(0)
摘要:
进入HBase的安装目录,启动HBase bin/start-hbase.sh 打开shell命令行模式 bin/hbase shell 关闭HBase bin/stop-hbase.sh 一个cell的值,取决于Row,Column family,Column Qualifier和Timestam
阅读全文
posted @ 2017-04-12 22:09
tonglin0325
阅读(1445)
推荐(0)
摘要:
Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器( Driver) 节点。与之对应的工作节点被称为执行器( executor) 节点。 所有的 Spark 程序都遵循同样的结构:程序从输入数据创建一系列 RDD, 再使用转化操作派
阅读全文
posted @ 2017-04-10 13:53
tonglin0325
阅读(823)
推荐(0)
摘要:
spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易。 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素。 也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件
阅读全文
posted @ 2017-04-08 17:21
tonglin0325
阅读(31448)
推荐(1)
摘要:
键值对 RDD是 Spark 中许多操作所需要的常见数据类型 键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 Spark 为包含键值对类型的 RDD 提供了一些专有的操作。 1.创建Pair RDD 2.Pair RDD的转化
阅读全文
posted @ 2017-04-07 18:50
tonglin0325
阅读(597)
推荐(0)
摘要:
1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD、转换已有的RDD和调用RDD操作进行求值。 Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区
阅读全文
posted @ 2017-04-06 10:36
tonglin0325
阅读(382)
推荐(0)
摘要:
1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从
阅读全文
posted @ 2017-04-05 20:04
tonglin0325
阅读(897)
推荐(0)
摘要:
1.在清华镜像站点下载hbase的安装文件,选择的是stable的版本,版本号是hbase-1.2.5/ 2.解压放在/usr/local的目录下 3.修改权限 sudo chown -R hduser hadoop hbase-1.2.5/ 4.修改文件夹的名称为hbase 5.在~/.bashr
阅读全文
posted @ 2017-04-05 16:49
tonglin0325
阅读(2630)
推荐(0)
摘要:
1.本地函数 可以在一个方法内再次定义一个方法,这个方法就是外部方法的内部私有方法,省略了private关键字 2.头等函数 集合类的foreach方法 集合类的filter方法 3.函数字面量的短格式,使得函数写的更加简洁 4.占位符语法,如果想让函数字面量更加简洁,可以把下划线当做一个或更多参数
阅读全文
posted @ 2017-04-05 09:34
tonglin0325
阅读(240)
推荐(0)
摘要:
1. cd ~/.config 2.删除三个文件夹: SogouPY, SogouPY.users, sogou-qimpanel 然后重启输入法
阅读全文
posted @ 2017-04-05 09:05
tonglin0325
阅读(1872)
推荐(0)
摘要:
Scala的内建控制结构包括:if、while、for、try、match和函数调用 1.if表达式 2.while循环,while循环和其他语言的一样,有while和do while Scala中对再次赋值语句的返回值是Unit,比如下面这个例子 3.for表达式 4.使用try表达式处理异常 抛
阅读全文
posted @ 2017-04-04 21:47
tonglin0325
阅读(232)
推荐(0)
摘要:
用创建一个函数式对象(类Rational)的过程来说明 类Rational是一种表示有理数(Rational number)的类
阅读全文
posted @ 2017-04-04 13:53
tonglin0325
阅读(229)
推荐(0)
摘要:
1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz,不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下 下面的操作都在Hadoop用
阅读全文
posted @ 2017-04-03 15:43
tonglin0325
阅读(2078)
推荐(0)
摘要:
0.在 scala> 下运行Scala程序 首先cd到.scala文件所在的目录下 scalac这个scala文件,然后import package的名字.object的名字 然后就能使用 object的名字.def的名字来运行这个def 1.表达式 scala> 1 + 2 res0: Int =
阅读全文
posted @ 2017-03-27 18:34
tonglin0325
阅读(281)
推荐(0)
摘要:
安装scala,不要使用sudo apt-get install scala来安装 1.从下面网址来下载Scala文件 http://www.scala-lang.org/download/2.11.8.html 2.下载下的 scala-2.11.8.tgz 文件解压,然后把文件mv到/usr/l
阅读全文
posted @ 2017-03-27 18:31
tonglin0325
阅读(198)
推荐(0)
摘要:
Apache官方仓库 https://repository.apache.org/ Maven中央仓库 http://mvnrepository.com/ Maven介绍,包括作用、核心概念、用法、常用命令、扩展及配置 http://www.trinea.cn/android/maven/ Mave
阅读全文
posted @ 2017-03-27 11:50
tonglin0325
阅读(575)
推荐(0)
摘要:
1.MySQL的存储路径 mysql> SHOW VARIABLES LIKE 'datadir'; + + + | Variable_name | Value | + + + | datadir | /var/lib/mysql/data/ | + + + 1 row in set (0.01 s
阅读全文
posted @ 2017-03-27 11:38
tonglin0325
阅读(293)
推荐(0)
摘要:
1.在IDEA下新建工程,选择from Mevan GroupId:WordCount ArtifactId:com.hadoop.1st Project name:WordCount 2.pom.xml文件 3.main/java目录下新建WordCount.java文件 4.在src同级目录下新
阅读全文
posted @ 2017-03-26 18:31
tonglin0325
阅读(224)
推荐(0)
摘要:
sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv hadoop-2.7.2 hadoop #改个名 在etc/profile文件中添加 export HA
阅读全文
posted @ 2017-03-10 22:44
tonglin0325
阅读(352)
推荐(0)
摘要:
1.使用VPN+ipv6(测试于2017-01,该方法已经不可用) 首先你需要有北邮的VPN账号和密码,只要是北邮的学生都有 账号和密码不懂的请查看 VPN账号密码说明 接下来登录https://sslvpn.bupt.edu.cn,输入账号和密码 已经登录好了 但是还是不能上BYR BT,是因为没
阅读全文
posted @ 2017-01-23 21:29
tonglin0325
阅读(5088)
推荐(1)
摘要:
奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集。 优点:简化数据,取出噪声,提高算法的结果 缺点:数据的转换可能难以理解 适用数据类型:数值型数据 SVD最早的应用之一是信息检索,我们称利用SVD的方法为隐形语义索引(LSI)或
阅读全文
posted @ 2017-01-19 16:43
tonglin0325
阅读(764)
推荐(0)
摘要:
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji
阅读全文
posted @ 2017-01-18 23:05
tonglin0325
阅读(6327)
推荐(0)
摘要:
pandas是python特征预处理常用的框架 1.查看数据 加载数据 #-*- coding: utf-8 -*- import pandas as pd train_data = pd.read_csv("./data/train.csv") print(train_data) pandas显示
阅读全文
posted @ 2017-01-18 22:02
tonglin0325
阅读(845)
推荐(0)