摘要: #---------------------------------------- # 功能描述:演示C50建模过程 # 数据集:汉堡大学信贷模型,信贷数据 # #---------------------------------------- #第一步:收集数据 # import the CSV file credit <- read.csv("/Users/chenyangang/R语言/... 阅读全文
posted @ 2016-04-01 15:54 开心玩数据 阅读(4847) 评论(0) 推荐(0) 编辑
摘要: #---------------------------------------- # 功能描述:演示NB建模过程 # 数据集:SMS文本信息 # tm包:维也纳财经大学提供 #---------------------------------------- #第一步:收集数据 # import the CSV file sms_raw 0, 1, 0) x <- factor(x, l... 阅读全文
posted @ 2016-04-01 15:53 开心玩数据 阅读(1814) 评论(2) 推荐(1) 编辑
摘要: #---------------------------------------- # 功能描述:演示kNN建模过程 # 数据集:威斯康星乳腺癌诊断 # #---------------------------------------- #第一步:收集数据 # import the CSV file wbcd <- read.csv("/Users/chenyangang/R语言/data/w... 阅读全文
posted @ 2016-04-01 15:52 开心玩数据 阅读(1876) 评论(0) 推荐(0) 编辑
摘要: MLlib1.6指南笔记 http://spark.apache.org/docs/latest/mllib-guide.html spark.mllib RDD之上的原始API spark.ml ML管道结构 DataFrames之上的高级API 1. spark.mllib:数据类型、算法及工具 阅读全文
posted @ 2016-03-25 20:58 开心玩数据 阅读(2013) 评论(0) 推荐(0) 编辑
摘要: Spark 1.6 MLlib 完整列表 阅读全文
posted @ 2016-03-25 20:57 开心玩数据 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 潜在语义分析 1 获取数据 2 词形归并 3 TF-IDF 4 奇异值分解 5 相关度 多词项查询 阅读全文
posted @ 2016-03-25 20:56 开心玩数据 阅读(953) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-03-25 20:55 开心玩数据 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 推荐算法流程 推荐算法 预备 1 准备数据 2 建模 3 检验 4 评价 5 推荐 附录 RunAUC.scala 阅读全文
posted @ 2016-03-25 20:54 开心玩数据 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: 1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/latest/stre 阅读全文
posted @ 2016-03-25 20:53 开心玩数据 阅读(6062) 评论(0) 推荐(0) 编辑
摘要: 数据清洗 阅读全文
posted @ 2016-03-25 20:53 开心玩数据 阅读(731) 评论(0) 推荐(0) 编辑