摘要: package com.bjsxt.spark.others.pvuv; import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org. 阅读全文
posted @ 2018-06-18 10:45 uuhh 阅读(357) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others.partitioner; import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List; import 阅读全文
posted @ 2018-06-18 10:44 uuhh 阅读(87) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache. 阅读全文
posted @ 2018-06-18 10:40 uuhh 阅读(119) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkC 阅读全文
posted @ 2018-06-18 10:40 uuhh 阅读(115) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Java 阅读全文
posted @ 2018-06-18 10:38 uuhh 阅读(232) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkC 阅读全文
posted @ 2018-06-18 10:36 uuhh 阅读(306) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache. 阅读全文
posted @ 2018-06-18 10:36 uuhh 阅读(128) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Java 阅读全文
posted @ 2018-06-18 10:35 uuhh 阅读(218) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.others; import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContex 阅读全文
posted @ 2018-06-18 10:24 uuhh 阅读(92) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.List; import org.apache.spark.SparkConf;import org.apache.spark.api.java.Jav 阅读全文
posted @ 2018-06-18 10:23 uuhh 阅读(105) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache 阅读全文
posted @ 2018-06-18 10:15 uuhh 阅读(89) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Iterator; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apac 阅读全文
posted @ 2018-06-18 10:13 uuhh 阅读(80) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.Map;import java.util.Map.Entry; import org.apache.spark.SparkConf;import org 阅读全文
posted @ 2018-06-18 10:10 uuhh 阅读(101) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Arrays; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache 阅读全文
posted @ 2018-06-18 10:10 uuhh 阅读(72) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import java.util.Arrays;import java.util.Map;import java.util.Map.Entry; import org.apache.spark.SparkConf;import org 阅读全文
posted @ 2018-06-18 10:09 uuhh 阅读(92) 评论(0) 推荐(0)
摘要: package com.bjsxt.spark.actions; import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpark 阅读全文
posted @ 2018-06-18 10:08 uuhh 阅读(115) 评论(0) 推荐(0)
摘要: 鲁棒性调优 方差归一化 调整数据正负值 均值归一化 阅读全文
posted @ 2018-06-14 17:07 uuhh 阅读(141) 评论(0) 推荐(0)
摘要: 恢复内容开始 阅读全文
posted @ 2018-06-13 22:33 uuhh 阅读(102) 评论(0) 推荐(0)
摘要: 拉普拉斯校准是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。 拉普拉斯平滑是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然:只求分子, 阅读全文
posted @ 2018-06-13 16:30 uuhh 阅读(1377) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 16:14 uuhh 阅读(179) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 15:55 uuhh 阅读(123) 评论(0) 推荐(0)
摘要: 信息增益=信息熵-条件熵 条件熵越小,意味着在此条件下,数据越纯粹。 如果将记录id考虑到条件熵里的话,计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样,对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。 信息增益率=信息增益/信息熵 gr(D,A)=g(D 阅读全文
posted @ 2018-06-13 13:00 uuhh 阅读(1000) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:31 uuhh 阅读(146) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:30 uuhh 阅读(107) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(102) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(71) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:28 uuhh 阅读(127) 评论(0) 推荐(0)
摘要: 决策树:非线性有监督分类模型 随机森林:非线性有监督分类模型 决策树:根节点:顶层分类条件。中间节点:中间分类条件。叶子节点:分类号。分支:每个条件输出。二叉树:节点有2个分支。多叉树:节点至少2分支 决策树:根据样本的纯粹度来分类。 将纯粹度进行量化,计算机才能读懂。 信息熵:量化信息量,由香农提 阅读全文
posted @ 2018-06-13 11:24 uuhh 阅读(920) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 09:51 uuhh 阅读(88) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 09:50 uuhh 阅读(161) 评论(0) 推荐(0)
摘要: < >此由于运行过快,JVM未编译完成 阅读全文
posted @ 2018-05-22 10:32 uuhh 阅读(102) 评论(0) 推荐(0)