总访问量: PV

DataScience && DataMining && BigData

摘要: 推荐系统之余弦相似度的Spark实现 (1)原理分析 余弦相似度度量是相似度度量中最常用的度量关系,从程序分析中, 第一步是数据的输入, 其次是使用相似性度量公式 最后是对不同用户的递归计算。 本例子是基于欧几里得举例的相似度计算。 (2)源代码 点击可复制代码 1 package com.bigd 阅读全文
posted @ 2017-03-29 18:42 CJZhaoSimons 阅读(5928) 评论(0) 推荐(0)
摘要: 推荐系统基础知识体系结构: 1.为什么使用推荐系统 随着互联网行业的发展,信息量也在以几何倍数式爆发增长。垃圾信息越来越多,导致用户获取有价值信息的成本大大增加。 由于信息的爆炸式增长,对信息获取的有效性,针对性的需求也就自然出现了。面对信息过载,推荐系统应运而生。 促进厂商商品销售,帮助用户找到想 阅读全文
posted @ 2017-03-29 18:04 CJZhaoSimons 阅读(1214) 评论(0) 推荐(0)
摘要: Scala类型注意事项: 1.Any是绝对的根,所有的其他可实例化类型均有AnyVal和AnyRef派生。 2.所有AnyVal的类型成为值类型(所有数值类型、char、Booble和Unit) 3.而其他类型都以AnyRef(引用类型)为根,并且只能做为对象在堆中分配内存,通过一个内存引用来访问。 阅读全文
posted @ 2017-03-29 16:22 CJZhaoSimons 阅读(541) 评论(0) 推荐(0)
摘要: 1.小试牛刀 使用Scala自带的REPL shell(Read Evaluate Print Loop)学习和尝试Scala语言库,创建的变量在会话期间都是有效的。 Ctrl+D可退出REPL shell 实验1: scala> println("hello world")hello world 阅读全文
posted @ 2017-03-26 23:02 CJZhaoSimons 阅读(579) 评论(0) 推荐(0)
摘要: 1. IDEA中配置Spark运行环境 请参考博文:http://www.cnblogs.com/jackchen-Net/p/6867838.html 3.1.Project Struct查看项目的配置信息 3.2.IDEA中如果没有默认安装Scala,可在本地安装即可 如果需要安装多版本的sca 阅读全文
posted @ 2017-03-26 20:08 CJZhaoSimons 阅读(2225) 评论(0) 推荐(0)
摘要: 1.背景知识 * 古代判官要判决number个罪犯的死刑,制定了一条荒谬的法律 * 将犯人站成一个圈,从start开始数起,每数到第distance * 个就处决他,依照此规律直到最后剩下一个人赦免。 * 如当number=5时候,start=0,distance=2时: * 1.假设五个人是A B 阅读全文
posted @ 2017-03-23 19:44 CJZhaoSimons 阅读(1004) 评论(0) 推荐(0)
摘要: 约瑟夫环问题: * 背景:约瑟夫叙述了他和40个士兵在罗马战争期间被罗马军队包围之后签订的一人自杀协定。 * 约瑟夫建议每个人杀掉他旁边的人,约瑟夫利用制定的规则使自己成为这些人中唯一的幸存者。 * 编程: 1.考虑存储结构:顺序存储结构和链式存储结构(杀人模拟删除节点,链表更适合) 2.场景:程序 阅读全文
posted @ 2017-03-22 13:11 CJZhaoSimons 阅读(500) 评论(0) 推荐(0)
摘要: 求解三角形面积有很多的方法,海伦公式是常见的求面积公式,下面从一道Java编程题说起: 0.海伦公式背景介绍: 1.海伦公式求解三角形面积 2.抽象其中求解三角形边长的方法和求解面积的方法重新实现海伦公式求解 3.程序运行及结果分析 阅读全文
posted @ 2017-03-21 23:50 CJZhaoSimons 阅读(3073) 评论(0) 推荐(0)
摘要: Numpy类型学习 1.数组的表示 ipynb代码参考如下 In [1]: import numpy as np In [2]: #numpy核心是高维数组,库中的ndarray支持多维数组,同时提供了数值运算,可对向量矩阵进行运算 In [5]: array1=np.array(range(6)) 阅读全文
posted @ 2017-03-21 00:25 CJZhaoSimons 阅读(399) 评论(0) 推荐(0)
摘要: 1.创建循环双链表节点 2.循环双链表的各种操作 3.测试循环双链表类 4.循环双链表测试 阅读全文
posted @ 2017-03-20 21:07 CJZhaoSimons 阅读(1059) 评论(0) 推荐(0)
摘要: 使用java.net.URL访问HDFS文件系统 HDFS的API使用说明: 1.如果要访问HDFS,HDFS客户端必须有一份HDFS的配置文件 也就是hdfs-site.xml,从而读取Namenode的信息。 2.每个应用程序也必须拥有访问Hadoop程序的jar文件 3.操作HDFS,也就是H 阅读全文
posted @ 2017-03-20 14:22 CJZhaoSimons 阅读(15997) 评论(0) 推荐(2)
摘要: 循环单链表操作 1.CircleLinkList 类实现循环单链表基本操作 2.循环单链表的测试 3.测试结果 阅读全文
posted @ 2017-03-15 12:35 CJZhaoSimons 阅读(434) 评论(1) 推荐(0)
摘要: 1.建立一个顺序存储的线性表,查找顺序表中第一个出现的值为z的元素并输出其位置。 输出结果为: 2.编程实现查找顺序线性表(0,1,2,3,...n-1)中第i个数据元素的直接前驱和后继,并输出他的值。在顺序表中实现。 输出结果为: 3.实现以单链表形式的线性表中查找第i个元素的直接前驱和后继 结果 阅读全文
posted @ 2017-03-14 17:51 CJZhaoSimons 阅读(991) 评论(0) 推荐(0)
摘要: 1.接口定义同顺序表的接口定义 2.定义存放数据域和指针域的节点信息 3.实现接口的所有方法 4.测试代码及结果分析 (输出指定位置元素的直接前驱和后继) 结果分析 5.补充代码 输出链表的后继节点 1 package com.neusoft.link; 2 3 import java.util.S 阅读全文
posted @ 2017-03-09 11:16 CJZhaoSimons 阅读(315) 评论(0) 推荐(1)
摘要: 数据结构之线性表 1.线性表的基本操作定义 2.以物理存储的顺序表方式实现Ilist接口并实现其中的所有方方法 1 package com.neusoft.List; 2 3 public class SequenceList implements IList{ 4 public Object[] 阅读全文
posted @ 2017-03-09 11:06 CJZhaoSimons 阅读(463) 评论(0) 推荐(0)