摘要:很久没有写博客了,这段时间一直在搞风控的东西,过段时间我把风控的内容整理整理发出来大家一起研究研究。 这两天抽空写了两个python爬虫脚本,一个使用re,一个使用xpath。 直接上代码——基于re: spider.py tool.py 阅读全文
Intellij idea开发Hadoop MapReduce程序
2016-08-26 15:35 by 猎手家园, 20342 阅读, 3 推荐, 收藏,
摘要:1、首先下载一个Hadoop包,仅Hadoop即可。 http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz 2、打开Idea新建一个java项目。 3、项目配置 File Project St 阅读全文
在Hadoop平台跑python脚本
2016-08-26 11:08 by 猎手家园, 5155 阅读, 0 推荐, 收藏,
摘要:1、开发IDE,我使用的是PyCharm。 2、运行原理 使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.stdin读取输入数据,并 阅读全文
Hadoop常用命令
2016-08-26 10:03 by 猎手家园, 1268 阅读, 0 推荐, 收藏,
摘要:1、查看Hadoop HDFS支持的所有命令 hdfs dfs 2、查看指定目录下内容 hdfs dfs –ls [文件目录] eg:hdfs dfs –ls /user/hive 3、循环列出目录、子目录及文件信息 hdfs dfs –lsr [文件目录] eg:hdfs dfs –lsr /us 阅读全文
CentOS6.5 安装Zookeeper集群
2016-08-25 16:33 by 猎手家园, 1320 阅读, 0 推荐, 收藏,
摘要:1、下载解压 2、配置环境变量:vi ~/.bashrc 或者 vi /etc/profile 3、修改日志输出 4、修改配置文件 5、设置myid (1)Zookeeper-01: (2)Zookeeper -02: (3)Zookeeper -03: 6、各结点启动: 7、验证 8、状态 9、附 阅读全文
MySQL常用命令
2016-08-24 18:53 by 猎手家园, 281 阅读, 0 推荐, 收藏,
摘要:一、连接MYSQL格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。首先打开DOS窗口,然后进入目录mysql\bin,再键入命令mysql -u root -p,回车后提示你输密码.注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入 阅读全文
MongoDB常用命令
2016-08-24 18:44 by 猎手家园, 291 阅读, 0 推荐, 收藏,
摘要:成功启动MongoDB后,再打开一个命令行窗口输入mongo,就可以进行数据库的一些操作。 1、输入help可以看到基本操作命令: MongoDB没有创建数据库的命令,但有类似的命令。如:如果你想创建一个“myTest”的数据库,先运行use myTest命令,之后就做一些操作(如:db.creat 阅读全文
单机安装HBase
2016-08-24 15:59 by 猎手家园, 5914 阅读, 0 推荐, 收藏,
摘要:1、首先从官网上下载HBase安装包 http://mirrors.hust.edu.cn/apache/hbase/1.2.2/hbase-1.2.2-bin.tar.gz 2、解压缩到安装目录 /usr/local 3、修改conf/hbase-env.sh 4、修改conf/hbase-sit 阅读全文
编写运行R脚本
2016-08-24 11:07 by 猎手家园, 15230 阅读, 0 推荐, 收藏,
摘要:1、在后台运行R 1.1 创建file.R文件 1.2 在文件首行键入: 1.3 在下面的行中,键入R代码 1.4 保存(记得有png(),jpeg(),...等函数的代码最后一定要有dev.off()) 1.5 在file.R的工作目录下,在终端中输入以下命令: 1.6 file.R被运行了!!! 阅读全文
R语言归一化处理
2016-08-24 10:59 by 猎手家园, 19031 阅读, 0 推荐, 收藏,
摘要:归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 R语言中的归一化函数:scale 数据归一化包括数据的中心化和数据的标准化。 1. 数据的中心化所谓数据的中心化是指数据集中的各项数据减去数据集的均 阅读全文
浙公网安备 33010602011771号