nnnnnnnnnnnnnnnn

极端梯度提升算法

摘要： #!/usr/bin/env python3# -*- coding:utf-8 -*-""" 1． booster[默认是gbtree] 选择每次迭代的模型，有两种选择：gbtree基于树的模型、gbliner线性模型 2． silent[默认是0] 当这个参数值为1的时候，静默模式开启，不会输出阅读全文

posted @ 2019-12-02 14:26 nnnnnnnnnnnnnnnn 阅读(854) 评论(0) 推荐(0)

提升机器算法

摘要： #!/usr/bin/env python3# -*- coding:utf-8 -*-"""提升机器算法LightGBM是个快速的，分布式的，高性能的基于决策树算法的梯度提升框架。可用于排序，分类，回归以及很多其他的机器学习任务中。"""import multiprocessingimport n 阅读全文

posted @ 2019-12-02 14:21 nnnnnnnnnnnnnnnn 阅读(240) 评论(0) 推荐(0)

hive配置

摘要：一. 安装 1. 安装包地址：https://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.6.0.tar.gz 2. 解压： tar -zxvf hive-1.1.0-cdh5.6.0.tar.gz 二. 安装mysql 1. yum instal 阅读全文

posted @ 2019-10-30 14:43 nnnnnnnnnnnnnnnn 阅读(98) 评论(0) 推荐(0)

hadoop配置

摘要：一、hadoop （需要配置好jdk）下载地址： hadoop-2.6.0-cdh5.6.0.tar.gz: https://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.6.0.tar.gz tar -zxvf hadoop-2.6.0-cd 阅读全文

posted @ 2019-10-30 14:23 nnnnnnnnnnnnnnnn 阅读(124) 评论(0) 推荐(0)

linux常用命令

摘要：常用//查看当前系统磁盘使用空间df -h//查看当前目录文件占用空间大小du -sh *chmod a+x 可执行权限tail -f 查看动态日志ps -ef|grep python 查看python程序free -h 内存状况netstat -apn |grep 8082kill -s 9sou 阅读全文

posted @ 2019-10-08 10:23 nnnnnnnnnnnnnnnn 阅读(646) 评论(0) 推荐(0)

常用shell命令

摘要： 1. chmod +x ./test.sh #使脚本具有执行权限 2. echo ${your_name}#定义变量打印变量 3. ${数组名[下标]}#读取数组 4. echo "第一个参数为：$1";#传递参数 5. > >> < <<#重定向阅读全文

posted @ 2019-10-08 10:22 nnnnnnnnnnnnnnnn 阅读(311) 评论(0) 推荐(0)

spark操作hbase

摘要： hbase的操作命令 https://www.cnblogs.com/lzh-boy/p/8966826.html 环境配置略需要注意：在Spark 2.0版本上缺少相关把hbase的数据转换python可读取的jar包 code:查看表数据 from pyspark.sql import Spa 阅读全文

posted @ 2019-09-29 18:10 nnnnnnnnnnnnnnnn 阅读(364) 评论(0) 推荐(0)

kafka+pyspark

摘要：安装kafka kafka 三部分 server producer consumer pyspark 监控一、环境部署 1.导入对应版本的spark-streaming-kafka-*-*.jar 2.相应jar追加到SPARK_DIST_CLASSPATH 二、kafka+spark测试 1.启阅读全文

posted @ 2019-09-29 17:49 nnnnnnnnnnnnnnnn 阅读(1051) 评论(0) 推荐(0)

利用python写接口

摘要：开发步骤： 1、实例化server 2、装饰器下面的函数变为一个接口 3、启动服务开发工具和流程： python库：flask =》实例化server：server = flask.Flask(__name__) =》@server.route('/index',methods=['post']) 阅读全文

posted @ 2019-09-27 18:37 nnnnnnnnnnnnnnnn 阅读(618) 评论(0) 推荐(0)

ML Pipelines

摘要：一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。一、定义： DataFrame：使用Spark SQL中的DataFrame作为数据集，它可阅读全文

posted @ 2019-09-27 14:33 nnnnnnnnnnnnnnnn 阅读(389) 评论(0) 推荐(0)