2019年12月2日

极端梯度提升算法

摘要: #!/usr/bin/env python3# -*- coding:utf-8 -*-""" 1. booster[默认是gbtree] 选择每次迭代的模型,有两种选择:gbtree基于树的模型、gbliner线性模型 2. silent[默认是0] 当这个参数值为1的时候,静默模式开启,不会输出 阅读全文

posted @ 2019-12-02 14:26 nnnnnnnnnnnnnnnn 阅读(852) 评论(0) 推荐(0)

提升机器算法

摘要: #!/usr/bin/env python3# -*- coding:utf-8 -*-"""提升机器算法LightGBM是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。"""import multiprocessingimport n 阅读全文

posted @ 2019-12-02 14:21 nnnnnnnnnnnnnnnn 阅读(238) 评论(0) 推荐(0)

2019年10月30日

hive配置

摘要: 一. 安装 1. 安装包地址:https://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.6.0.tar.gz 2. 解压: tar -zxvf hive-1.1.0-cdh5.6.0.tar.gz 二. 安装mysql 1. yum instal 阅读全文

posted @ 2019-10-30 14:43 nnnnnnnnnnnnnnnn 阅读(95) 评论(0) 推荐(0)

hadoop配置

摘要: 一、hadoop (需要配置好jdk) 下载地址: hadoop-2.6.0-cdh5.6.0.tar.gz: https://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.6.0.tar.gz tar -zxvf hadoop-2.6.0-cd 阅读全文

posted @ 2019-10-30 14:23 nnnnnnnnnnnnnnnn 阅读(123) 评论(0) 推荐(0)

2019年10月8日

linux常用命令

摘要: 常用//查看当前系统磁盘使用空间df -h//查看当前目录文件占用空间大小du -sh *chmod a+x 可执行权限tail -f 查看动态日志ps -ef|grep python 查看python程序free -h 内存状况netstat -apn |grep 8082kill -s 9sou 阅读全文

posted @ 2019-10-08 10:23 nnnnnnnnnnnnnnnn 阅读(637) 评论(0) 推荐(0)

常用shell命令

摘要: 1. chmod +x ./test.sh #使脚本具有执行权限 2. echo ${your_name}#定义变量 打印变量 3. ${数组名[下标]}#读取数组 4. echo "第一个参数为:$1";#传递参数 5. > >> < <<#重定向 阅读全文

posted @ 2019-10-08 10:22 nnnnnnnnnnnnnnnn 阅读(309) 评论(0) 推荐(0)

2019年9月29日

spark操作hbase

摘要: hbase的操作命令 https://www.cnblogs.com/lzh-boy/p/8966826.html 环境配置略 需要注意:在Spark 2.0版本上缺少相关把hbase的数据转换python可读取的jar包 code:查看表数据 from pyspark.sql import Spa 阅读全文

posted @ 2019-09-29 18:10 nnnnnnnnnnnnnnnn 阅读(362) 评论(0) 推荐(0)

kafka+pyspark

摘要: 安装kafka kafka 三部分 server producer consumer pyspark 监控 一、环境部署 1.导入对应版本的spark-streaming-kafka-*-*.jar 2.相应jar追加到SPARK_DIST_CLASSPATH 二、kafka+spark测试 1.启 阅读全文

posted @ 2019-09-29 17:49 nnnnnnnnnnnnnnnn 阅读(1048) 评论(0) 推荐(0)

2019年9月27日

利用python写接口

摘要: 开发步骤: 1、实例化server 2、装饰器下面的函数变为一个接口 3、启动服务 开发工具和流程: python库:flask =》实例化server:server = flask.Flask(__name__) =》@server.route('/index',methods=['post']) 阅读全文

posted @ 2019-09-27 18:37 nnnnnnnnnnnnnnnn 阅读(607) 评论(0) 推荐(0)

ML Pipelines

摘要: 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 一、定义: DataFrame:使用Spark SQL中的DataFrame作为数据集,它可 阅读全文

posted @ 2019-09-27 14:33 nnnnnnnnnnnnnnnn 阅读(380) 评论(0) 推荐(0)

导航