• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






江枫1

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理
上一页 1 ··· 30 31 32 33 34 35 下一页

2016年11月17日

sparkSQL、dataframe
摘要: spark 读hive表:2.1.1 https://blog.csdn.net/qq_35741557/article/details/81135003 http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1 空值填充:h 阅读全文
posted @ 2016-11-17 15:28 江枫1 阅读(599) 评论(0) 推荐(0)
 

2016年11月4日

特征工程
摘要: 转至博文:http://www.cnblogs.com/jasonfreak/p/5448385.html 知乎问答:https://www.zhihu.com/question/29316149 归一化,正则化:http://blog.csdn.net/u012102306/article/det 阅读全文
posted @ 2016-11-04 10:12 江枫1 阅读(798) 评论(0) 推荐(0)
 

2016年11月2日

python相关
摘要: 【Information Gain 计算 python实现】http://blog.csdn.net/junfeng_feng/article/details/7650117 数据挖掘模型中的IV和WOE详解 :http://blog.csdn.net/kevin7658/article/detai 阅读全文
posted @ 2016-11-02 17:59 江枫1 阅读(162) 评论(0) 推荐(0)
 

2016年11月1日

pyspark dataframe 格式数据输入 做逻辑回归
摘要: 该方法好处是可以调节阈值,可调参数比其他形式模型多很多。 【参照】http://blog.csdn.net/u013719780/article/details/52277616 【3种模型效果比较:逻辑回归,决策树,随机森林】http://blog.csdn.net/chaoran_liu/art 阅读全文
posted @ 2016-11-01 21:27 江枫1 阅读(591) 评论(0) 推荐(0)
 

2016年10月31日

hive sql 随机抽样
摘要: create table daizk.IOS_matrix_sex asselect *from zhujx.1029_IOS_features_replce_nullwhere sex = 'M'union allselect *from zhujx.1029_IOS_features_replc 阅读全文
posted @ 2016-10-31 15:18 江枫1 阅读(1127) 评论(0) 推荐(0)
 
pyspark 逻辑回归程序
摘要: http://www.qqcourse.com/forum.php?mod=viewthread&tid=3688 【很重要】:http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html 官方文档里面关于模型配置的所有参数 [s 阅读全文
posted @ 2016-10-31 09:07 江枫1 阅读(591) 评论(0) 推荐(0)
 

2016年10月24日

python 稀疏向量和矩阵的表示形式
摘要: http://blog.csdn.net/nkwangjie/article/details/17502443 http://blog.csdn.net/bitcarmanlee/article/details/52668477 稀疏矩阵有很多种,这里总结2种: from scipy import 阅读全文
posted @ 2016-10-24 21:01 江枫1 阅读(3399) 评论(0) 推荐(0)
 
spark pyspark 常用算法实现
摘要: 利用Spark-mllab进行聚类,分类,回归分析的代码实现(python) http://www.cnblogs.com/adienhsuan/p/5654481.html 稀疏向量: 关于SparkMLlib的基础数据结构Spark-MLlib-Basics: http://blog.csdn. 阅读全文
posted @ 2016-10-24 19:43 江枫1 阅读(1017) 评论(0) 推荐(0)
 

2016年10月22日

hive sql 效率提升
摘要: 转 : http://www.cnblogs.com/xd502djj/p/3799432.html hive的查询注意事项以及优化总结 . Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系 阅读全文
posted @ 2016-10-22 19:24 江枫1 阅读(2258) 评论(0) 推荐(0)
 

2016年10月21日

spark 学习_rdd常用操作
摘要: 【spark API 函数讲解 详细 】https://www.iteblog.com/archives/1399#reduceByKey [重要API接口,全面 】 http://spark.apache.org/docs/1.1.1/api/python/pyspark.rdd.RDD-clas 阅读全文
posted @ 2016-10-21 15:09 江枫1 阅读(718) 评论(0) 推荐(0)
 
上一页 1 ··· 30 31 32 33 34 35 下一页