摘要:本章内容k-近邻分类算法从文本文件中解析和导人数据 使用Matplotlib创建扩散图归一化数值 2.1 k-近邻算法概述简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 本书讲解的第一个机器学习算法是k 近邻算法(kNN ) , 它的工作原理是:存在一个样本数据集合,也称作训练样本
阅读全文
摘要:第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming)。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。 监督学习一般使用两种类型的目标变量:标
阅读全文
摘要:每年,谷歌(微博)(Google) 联合创始人拉里·佩奇(Larry Page)和赛吉·布林(Sergey Brin)都会发表一封公开信,解读谷歌的发展战略与愿景。而如今,谷歌已由桑达尔·皮查伊(Sundar Pichai)执掌,因此两位联合创始人也首次邀请皮查伊执笔今年的公开信。 皮查伊的这封公开
阅读全文
摘要:2016年,可是说是VR产业的爆发之年,从公司层面到资本层面都对VR产业给予了厚望,期望其能够在移动互联网之后带来革命性的突破,掀起新一轮技术主导的商业革命。而创业者们已经跃跃欲试,期望在资本的支持下能够大展拳脚。 作为一个新兴领域,一些创业者和企业对VR存在不解和误读。近日,复星昆仲资本高级投资经
阅读全文
摘要:编者按:4月28日金沙江创投董事总经理朱啸虎在新浪创业新创课上发表题为“互联网下一个风口”的演讲,新浪小创(sinavc)呈上自己独特观察,全文如下。 观点摘要: 1、移动互联网每年诞生1个百亿美元的机会,还有几个数十亿美金的机会。 2、中国互联网15年历史上每3年1个主题。 3、从PC互联网向移动
阅读全文
摘要:19.1 总结和致谢 欢迎来到《机器学习》课的最后一段视频。我们已经一起学习很长一段时间了。在最后视频中,我想快速地回顾一下这门课的主要内容,然后简单说几句想说的话。 作为这门课的结束时间,那么我们学到了些什么呢?在这门课中,我们花了大量的时间介绍了诸如线性回归、逻辑回归、神经网络、支持向量机等等一
阅读全文
摘要:18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:哪部分管道的接下去做 18.1 问题描述和流程图 图像文字识别应用所作的事是,从一张给定的图片中识别文字。这比从一份扫描文档中 识别文字要复杂的多。 为了完成这样的工作,需要采取如下步骤: 为了完成
阅读全文
摘要:1:学习吴恩达的视频,作总结 2:学习电脑的MATLAB神经网络课程视频 6:人脸识别与检测视频 3:学习splib书和对应的视频 4:准备天池竞赛 5:准备HDFS论文 关注teashou开源项目 学习caffe视频,weka图书,rapidmine视频 学习spark,Scala,视频和图书 学
阅读全文
摘要:项目:1:基于Hadoop的手机日志查询分析 已完结2:基于Mahout的线下推荐系统设计与实现 已完结3:基于MATLAB的神经网络原型设计与实现 进行中4:基于神经网络的人脸识别检测与分析 进行中 5:基于Spark的splib平台大数据整合分析与实现 进行中6:基于SILT的NoSql键值对存
阅读全文
摘要:17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6 映射化简和数据并行 17.1 大型数据集的学习 17.2 随机梯度下降法 17.3 微型批量梯度下降 17.4 随机梯度下降收敛 17.5 在线学习 17.6
阅读全文
摘要:16.1 问题形式化 16.2 基于内容的推荐系统 16.3 协同过滤 16.4 协同过滤算法 16.5 矢量化:低秩矩阵分解 16.6 推行工作上的细节:均值归一化 16.1 问题形式化 16.2 基于内容的推荐系统 16.3 协同过滤 16.4 协同过滤算法 16.5 矢量化:低秩矩阵分解 16
阅读全文
摘要:15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开发和评价一个异常检测系统 15.5 异常检测与监督学习对比 15.6 选择特征 15.7 多元高斯分布(可选) 15.8 使用多元高斯分布进行异常检测(可选) 15.1 问题的动机 15.2 高斯分布 15.3 算法 15.4 开
阅读全文
摘要:14.1 动机一:数据压缩 14.2 动机二:数据可视化 14.3 主成分分析问题 14.4 主成分分析算法 14.5 选择主成分的数量 14.6 重建的压缩表示 14.7 主成分分析法的应用建议 14.1 动机一:数据压缩 14.2 动机二:数据可视化 14.3 主成分分析问题 14.4 主成分分
阅读全文
摘要:13.1 无监督学习:简介 13.2 K-均值算法 13.3 优化目标 13.4 随机初始化 13.5 选择聚类数 13.1 无监督学习:简介 在这个视频中,我将开始介绍聚类算法。这将是一个激动人心的时刻,因为这是我们学 习的第一个非监督学习算法。我们将要让计算机学习无标签数据,而不是此前的标签数据
阅读全文
摘要:12.1 优化目标 12.2 大边界的直观理解 12.3 数学背后的大边界分类(可选) 12.4 核函数 1 12.5 核函数 2 12.6 使用支持向量机 12.1 优化目标 到目前为止,你已经见过一系列不同的学习算法。在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是你该选择使用学习算
阅读全文
摘要:11.1 首先要做什么 11.2 误差分析 11.3 类偏斜的误差度量 11.4 查全率和查准率之间的权衡 11.5 机器学习的数据 11.1 首先要做什么 在接下来的视频中,我将谈到机器学习系统的设计。这些视频将谈及在设计复杂的机器 学习系统时,你将遇到的主要问题。同时我们会试着给出一些关于如何巧
阅读全文
摘要:10.1 决定下一步做什么 10.2 评估一个假设 10.3 模型选择和交叉验证集 10.4 诊断偏差和方差 10.5 归一化和偏差/方差 10.6 学习曲线 10.7 决定下一步做什么 10.1 决定下一步做什么 到目前为止,我们已经介绍了许多不同的学习算法,如果你一直跟着这些视频的进度学习,你会
阅读全文
摘要:9.1 代价函数 9.2 反向传播算法 9.3 反向传播算法的直观理解 9.4 实现注意:展开参数 9.5 梯度检验 9.6 随机初始化 9.7 综合起来 9.8 自主驾驶 9.1 代价函数 首先引入一些便于稍后讨论的新标记方法: 假设神经网络的训练样本有 m 个,每个包含一组输入 x 和一组输出信
阅读全文
摘要:8.1 非线性假设 8.2 神经元和大脑 8.3 模型表示 1 8.4 模型表示 2 8.5 特征和直观理解 1 8.6 样本和直观理解 II 8.7 多类分类 8.1 非线性假设 我们之前学的,无论是线性回归还是逻辑回归都有这样一个缺点,即当特征太多时,计 算的负荷会非常大。 下面是一个例子: 当
阅读全文
摘要:7.1 过拟合的问题 7.2 代价函数 7.3 正则化线性回归 7.4 正则化的逻辑回归模型 7.1 过拟合的问题 如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。 下图是一个回归问题的例子: 第一个模型是一个线性模型
阅读全文
摘要:6.1 分类问题 6.2 假说表示 6.3 判定边界 6.4 代价函数 6.5 简化的成本函数和梯度下降 6.6 高级优化 6.7 多类分类:一个对所有 6.1 分类问题 在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次
阅读全文
摘要:5.1 基本操作 5.2 移动数据 5.3 计算数据 5.4 绘图数据 5.5 控制语句:for,while,if 语句 5.6 矢量化 5.7 工作和提交的编程练习 5.1 基本操作 5.2 移动数据 5.3 计算数据 5.4 绘图数据 5.5 控制语句:for,while,if 语句 5.6 矢
阅读全文
摘要:4.1 多维特征 4.2 多变量梯度下降 4.3 梯度下降法实践 1-特征缩放 4.4 梯度下降法实践 2-学习率 4.5 特征和多项式回归 4.6 正规方程 4.7 正规方程及不可逆性(可选) 4.1 多维特征 目前为止,我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征, 例如房
阅读全文
摘要:3.1 矩阵和向量 3.2 加法和标量乘法 3.3 矩阵向量乘法 3.4 矩阵乘法 3.5 矩阵乘法的性质 3.6 逆、转置 3.1 矩阵和向量 如图:这个是 4×2 矩阵,即 4 行 2 列,如 m 为行,n 为列,那么 m×n 即 4×2 矩阵的维数即行数×列数 矩阵元素(矩阵项): Aij 指
阅读全文
摘要:二、单变量线性回归(Linear Regression with One Variable) 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解 I 2.4 代价函数的直观理解 II 2.5 梯度下降 2.6 梯度下降的直观理解 2.7 梯度下降的线性回归 2.8 接下来的内容 2.1
阅读全文
摘要:Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。 在过去的十年中,机器学习帮助我
阅读全文
摘要:今天又重温了吴恩达的机器学习课程,突然觉得好像突然明白了到底什么是机器学习 其实我们都被”学习“这两个字吓住了,误导了,潜意识里就把机器当作人来看,就天真的认为,机器会想让人一样会思考,会学习,这是最大的误区,成为我们学习路上的最大的误导,但是很少人会知道。 其实机器学习更像是一种算法,而这个算法是
阅读全文
摘要:数据集:公开数据集 100+有趣的数据集的统计数据 http://rs.io/100-interesting-data-sets-for-statistics/ 数据集 subreddit https://www.reddit.com/r/datasets UCI机器学习库 http://archi
阅读全文
摘要:1:先上知乎问答:如何学好XXX 2:图书只买两本:入门基础书和超级经典图书 3:电子书,大量经典电子书,阅读,做笔记,写博客,作总结 4:淘宝视频学习,百度文库总结笔记,qq群资料下载,微博关注大牛,知乎关注大牛和相关问题。 5:官网文档API,相关论坛,百度贴吧, 6:写博客,写博客,写博客。
阅读全文
摘要:干货!21个必知数据科学面试题和答案 2016-04-04数盟社区 大数据 大数据 转自:“数盟社区”,本文为数盟原创译文 作者 Gregory Piatetsky, KDnuggets. 原文链接:http://dataunion.org/22397.html 最近KDnuggets上发的“20个
阅读全文
摘要:中国这100个地方,你去过几个? 2016-04-02 大数据深度分析 大数据深度分析 世界很大,美景太多 无奈时间太少,钱包太扁 可这100个地方一定要去看看 无关旅行,只是梦想 少去一个,皆是遗憾 1万里长城 2三亚 3三峡大坝 4布达拉宫 5丹霞山 6三清山 7上海外滩夜景 8云南罗平 9五大
阅读全文
摘要:经济学 1洞察经济学 1. 《经济学原理》————曼昆 2. 《经济学》————萨繆尔森 3. 《国富论》 ————亚当•斯密 4. 《牛奶可乐经济学》————罗伯特·弗兰克 5. 《经济解释》————张五常 6. 《生活中的经济学》————茅于轼 7. 《经济学通史》————薛兆丰 2经济史通读
阅读全文
摘要:对于数据科学来说,现在是发展的黄金时期。这是个新领域,但增长迅速,同时数据科学家的缺口也很大,据说他们的平均年薪可以达到10万美元。哪里有高薪,哪里就吸引人们,但是数据科学技能的差距意味着许多人需要努力学习。 第一步当然是询问“我怎么学习数据科学”,这个问题的答案往往是一长串的课程和书籍阅读,从线性
阅读全文
摘要:深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习是无监督学习的一种。 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类
阅读全文
摘要:在去年的创业大军里,有一家公司显得很特别——微鲸科技,背靠华人文化,联合阿里巴巴、腾讯和央广,天使轮就高达20亿,是被誉为互联网电视领域的豪华创业团队。 在上市不到半年的时间里,旗下发布的55吋和43吋两款爆款在天猫和京东上陆续跑出销售冠军,今年开春,又迅速连发两款电视产品。 微鲸科技的CEO李怀宇
阅读全文
摘要:与央视记者约好两点采访,但因为公司会议拖到了三点。雷军对此表示抱歉,解释了一天的行程,并说:“今天不算密的,密的平均一天应该有十一个会。然后我现在基本每天中午饭,大概就是三分钟的时间。” 因为要上镜,化妆的时候,雷军就在跟记者解释自己的匆忙:“我现在的时间表几乎安排不了任何采访,主要是我们还在创业阶
阅读全文
摘要:“隐语义”的真正背景 LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(v
阅读全文
摘要:基于内容的推荐 制定分类/属性的困难使用专业人员(编辑)对商品进行整理分类,但这样会产生成本和效率瓶颈受限于编辑的专业水平,编辑的意见未必能代表用户的意见分类的粒度难于控制如果商品有多个分类,很难考虑周全多维度,多规角分类编辑很难决定商品在类别里的权重 隐语义模型 LFM的前丕今生 隐语义模型的适用
阅读全文
摘要:数据挖掘:关联规则挖掘 关联规则挖掘:Apriori算法 提高Apriori的效率 基于散列的算法基于FP tree的算法
阅读全文
摘要:代码报错注意事项: 1:最后Ctrl+shift+O 导入包2:导入mahout包3:新建datafile文件包,在其下面新建csv文件 项目背景:图书推荐系统介绍需求分析:项目需求分析算法模型:基于Mahout推荐算法架构设计:职位推荐引擎架构系统环境:构建Mahout的开发环境程序开发:基于Ma
阅读全文
摘要:聚类和分类判别有什么区别? 聚类应用场景:寻找优质客户 二八定律无处丌在20%的用户提供了银行80%的利润来源20%的用户消费了运营商话费总额的80%公司中20%的员工完成了80%的工作社会中20%的人拥有80%的话语权 聚类应用场景:推荐系统 关键度量指标:距离 距离的定义常用距离(薛毅书P469
阅读全文
摘要:参考书 深度学习 深度学习是机器学习研究中的一个新的领域,其动机在亍建立、模拟人脑迚行分析学习的神经网络,它模仿人脑的机制来解释数据, 例如图像,声音和文本。深度学习是无监督学习的一种。深度学习的概念源亍人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。 深度学习通过组合低层特征形成更加
阅读全文
摘要:支持向量机SVM 原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率源于Vapnik和Chervonenkis关于统计学习的早期工作(1971年),第一篇有关论文由Boser、Guyon、Vapnik发表在1992年(参考文档见韩家炜书9.10节)思想直观,但细节异常复杂,内容涉及凸
阅读全文
摘要:决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3算法,称为C4.5算法1984年,多位统计学家在著名的《Classification and reg
阅读全文
摘要:分类:分类的意义 传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习 常见分类模型与算法 线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络 文本挖掘典型场景 网页自动分类垃圾邮件判断评论
阅读全文
摘要:主成分分析 Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,
阅读全文
摘要:多元线性回归的最小二乘解(无偏估计) 岭回归(Ridge Regression,RR) 当自变量间存在复共线性时,|X′X|≈0,我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异癿程度就会比X′X接近奇异癿程度小得多。岭回归做为β癿估计应比最小二乘估计稳定,当k=0时癿
阅读全文
摘要:重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重;利用广告费用预测商品销售额;等等.线性回归分析:一元线性;多元线性;广义线性非线性回归分析困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否
阅读全文
摘要:什么是机器学习 机器学习是挃是一门多领域交叉学科。与门研究计算机或其它软硬件设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之丌断改善自身的性能。应用机器学习技术到产品中,给用户带来“机器具备人类般高智能”的震撼性体验。人力成本又越来越高,机器学习能降低企业成本,提高
阅读全文
摘要:李航博士,华为技术有限公司 诺亚方舟实验室 首席科学家 算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不 小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面
阅读全文
摘要:机器学习语言一、机器学习常用的编程语言有哪些?机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、 凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以 获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能。
阅读全文
摘要:1.数学 2.机器学习 Java 机器学习 工具 & 库 1.处理小数据效果好 2.深度学习—大数据,超过500w;图像,语言方面效果奇好 SVD 最小二乘法 梯度下降法 局部加权回归 1.最大似然估计 2.logistic回归 3.感知器的初步—logistic的简化情节 牛顿法 1.介绍了牛顿方
阅读全文
摘要:国内 之前自己一直想总结一下国内搞机器学习和数据挖掘的大牛,但是自己太懒了。所以没搞… 最近看到了下面转载的这篇博文,感觉总结的比较全面了。 个人认为,但从整体研究实力来说,机器学习和数据挖掘方向国内最强的地方还是在MSRA, 那边的相关研究小组太多,很多方向都能和数据挖掘扯上边。这里我再补充几个相
阅读全文
摘要:本文来自于:http://blog.jobbole.com/56256/ 这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。 文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必
阅读全文
摘要:机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。 不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。 问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢? 很多人可能没有意识到,所谓
阅读全文
摘要:简单浏览了周的主页:http://cs.nju.edu.cn/zhouzh/index.htm 及其实验室的主页:http://lamda.nju.edu.cn/MainPage.ashx 绝对是硕果累累,他们的工作目前主要集中在多标记,多事例学习: G M T 檢測語言 阿尔巴尼亚语 阿拉伯语 阿
阅读全文
摘要:参考博客: http://www.cnblogs.com/xmphoenix/p/3683870.html http://my.oschina.net/juedaiyuer/blog/512447 我个人的读书有:《数学之美》《统计学习方法》 《集体智慧编程》《推荐系统实践》《机器学习(外文版)》《
阅读全文
摘要:现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者
阅读全文
摘要:让我们从机器学习谈起 导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文
阅读全文
摘要:(1)下载meavn 解压到D盘 (2)配置环境变量 (3)验证 (4)安装配置eclipse插件 下载:http://download.eclipse.org/technology/m2e/releases/1.5/1.5.1.20150109-1820 安装:eclipse-帮助-安装新软件(记
阅读全文
摘要:可能的问题和分析一:数据量有多大?rating.csv:行为数据user.csv:属性数据-3列数据:用户ID,图书ID, 用户对图书的评分-图书数: 1000个-用户数: 200个-记录数: 4000次的图书评分-3列数据:用户ID,用户性别,用户年龄–用户数: 200个–用户性别: M为男性,F
阅读全文
摘要:前言 本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。 目录 1. 项目背景 Amazon是最早的电子商务网站之一,以网上图书起家,最后发展成为音像,电子消费品,
阅读全文
摘要:本文来自于:http://blog.fens.me/mahout-recommendation-api 前言 用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据
阅读全文
摘要:本文来自于:http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 前言 Mahout是Hadoop家族一员,从血缘就继承了Hadoop程序的特点,支持HDFS访问和MapReduce分步式算法。随着Mahout 的发展,从0.7版本开始,Mahout
阅读全文
摘要:本文来自:http://blog.fens.me/hadoop-mahout-maven-eclipse/ 前言 基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Jav
阅读全文
摘要:本文来自于:http://blog.fens.me/mahout-recommend-engine/ 前言 Mahout框架中cf.taste包实现了推荐算法引擎,它提供了一套完整的推荐算法工具集,同时规范了数据结构,并标准化了程序开发过程。应用推荐算法时,代码也就7-8行,简单地有点像R了。为了使
阅读全文
摘要:推荐系统分类 基于应用领域分类:电子商务推荐,社交好友推荐,搜索引擎推荐,信息内容推荐基于设计思想:基于协同过滤的推荐,基于内容的推荐,基于知识的推荐,混合推荐基于使用何种数据:基于用户行为数据的推荐,基于用户标签的推荐,基于社交网络数据,基于上下文信息(时间上下文,地点上下文等等) 协同过滤的基本
阅读全文
摘要:Mahout的中文含义:象夫 Mahout起源 2008年成为Lucene的子顷目,Lucene作为搜索引擎顷目, 存在很多文本数据分析和挖掘的需求(例如文本重复判断,文本自动分类等等), 导致Lucene顷目中部分开发者转向机器学习领域研究算法,最终这些机器学习算法形成最初的Mahout吸收开源协
阅读全文
摘要:推荐系统的核心思想是集体智慧 集体智慧在Web 2.0时代被发挥到了极致集体智慧的典型场景一:维基百科集体智慧的典型场景二:Google Page Rank集体智慧的典型场景三:亚马逊的推荐系统 电子商务是推荐系统的先行者 电子商务网站是个性化推荐系统重要地应用的领域一,亚马逊就是个性化推荐系统的积
阅读全文
摘要:社交网络事业群(SNG) QQ:QQ 是腾讯公司推出的一款基于互联网的即时通信平台,其主要用户平台为电脑端及手机端,支持在线聊天、语音通话、视频、在线(离线)传送文件等全方位通信社交 功能。QQ用户可在电脑、手机以及无线终端之间随意、无缝切换。2015年报显示,QQ月活跃账户数达8.53亿户,同比增
阅读全文
摘要:4月13日下午,百度董事长兼CEO李彦宏通过内部邮件宣布,百度业务架构重组。自即日起,百度将成立“百度搜索公司”,并表示个人将把更多精力集中在互联网金融、无人车、人工智能等创新业务上。 新成立的百度搜索公司将整合搜索业务群组(SSG)和移动服务事业群组(MSG),下辖搜索业务群组、移动服务事业群组、
阅读全文
摘要:2016.4.15 科比退役了,祝老大走好,作为铁杆科密的我没有选择在社交媒体上去煽情和感伤,我只知道,我喜欢科比,是因为他的精神,现在的我需要传承老大的“凌晨四点的洛杉矶”,在内心和行动上默默坚持,默默努力,前行。用自己的实际行动证明一切,而不是说说。 研究生阶段唯一的好友,张同学今天突然告诉我他
阅读全文
摘要:今天从东九回来的路上,突然想到一个新的创业计划,就是“快照”计划 因为最近在搞spark,storm,老是搭建集群,虚拟机的配置真是一个大问题, 虚拟机的快照还原功能,是一个big ideal ,我尽然忘记了 由此我想到一个主意,关于照片的快照复原功能,再联想之前的关于图片社交的APP,乐图和创业公
阅读全文
摘要:清华大学教授邓志东最近明显“忙了起来”。他向新浪科技展示了最近的时间表:第二天有一场报告,报告结束后赶飞机去芜湖,周末深夜再回北京…… “人工智能终于到了风口”,一见面,邓志东就这样说。 从1992年来到清华开始博士后研究,再到2016年春天,邓志东见证了人工智能基础研究从高峰到低谷再到复兴的全过程
阅读全文
摘要:睡觉之前突然想到马云说过的一句话:我们要习惯于拒绝,习惯失败,如果我们还没成功,那是因为我们的失败还不够 2016.4,11 以此自勉
阅读全文
摘要:Hadoop的API官网:http://hadoop.apache.org/common/docs/current/api/index.html 相关的包 org.apache.hadoop.io org.apache.hadoop.io.compress org.apache.hadoop.io.
阅读全文
摘要:有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。 InputFormat是一个只有两个函数的接口。 1 public interface InputFormat<K, V> { 2 InputSplit[] getSplits(Job
阅读全文
摘要:1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用h
阅读全文
摘要:推荐系统中常用算法 以及优点缺点对比 在 推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内
阅读全文
摘要:大众创业万众创新,一个好汉三个帮,但是股权怎么分? 股权架构和相关问题,可能是创业里最重要、最基础,但又在初期最不被重视的问题。正是如此,才导致了众多创业项目在未来隐患难除,发展遇阻。 什么样的股权架构是合理的股权架构?一个拥有13年经验的股权法务律师对此有怎样的建议?在新浪创业训练营的股权法务课程
阅读全文
摘要:本文是蓝港互动董事长、斧子科技CEO王峰在2016新浪创业训练营上长达四小时的分享实录,由新浪科技整理。 大家好,我是王峰,现在主要有三个身份。 第一个身份,是港股上市公司蓝港互动集团(8267.HK)的创始人、董事长兼首席执行官,公司成立于2007年,历经近8年艰苦创业,2014年12月30日终于
阅读全文
摘要:对于创业者来说,寻找合适的投资机构拿到相应的融资是创业中必须要经历的一个过程;然而,对于机构投资人来说,每周需要投入超过100个小时来研究并寻找优秀的创业团队。 成立仅半年的洪泰基金截止目前,投资了50余个项目,其中,互联网+概念的部分几乎100%。在新创课的课堂上,洪泰基金资深投资经理殷鹏分享了他
阅读全文
摘要:被自己创立的公司踢出局?听起来像个玩笑,但被创业者和果粉奉若神明的乔布斯,当年就被自己一手创立的苹果公司踢出了苹果。所以如果你是创业者,在新浪创业训练营,米律创始人、13年股权法务律师郑明龙分享了法律方面的专业经验:如何实现对公司的控制。 对于一个创业公司来讲,控制权是绕不开的话题。但关于公司控制权
阅读全文
摘要:(1)快速排序:O(nlogn)~O(n^2): 小的放在该元素前面,大的放在该元素后面。 快速排序的比较时间最短,可以理解为其要比较该元素的前后,所以效率最高。 平均时间和最好时间:O(nlogn) 最坏时间退化成冒泡: O(n^2) (2)选择排序:不受初始数据序列的影响,时间复杂度不变 直接选
阅读全文
摘要:1:买书:淘宝便宜 2:买视频:淘宝买后下载保存到网盘 3:电子书:下载对应的纸质版 4:百度文库搜索相关文档,学习笔记,学习总结,课件,PPT等 5:微博上加人,关注大牛 6:知乎上关注话题和牛人 7:QQ搜索相关群,并加入后,下载资料 8:官网和API,查看学习 9:相关论坛和社区,参与讨论,经
阅读全文
摘要:Vmware1: host-only (方式不可以连接外网) Vmware8: NAT (方式可以连接外网) 所以使用Vmware8,关闭Vmware1 密码:root 465213a 密码:chennan 465213a 先以root的(原密码:hadoop)进入后删除原来的hadoop用户 us
阅读全文
摘要:项目简述:基于开源Hadoop2.0架构的集群网络,进行海量数据的分布式计算。由于Hadoop集群规模不断扩大,而搭建一个同等规模的测试集群需要一笔昂贵的开销。目前有100台左右物料,期望预测计算节点1500+的集群网络性能,目前考虑通过模拟仿真或数学建模的方法来预测大规模集群极限性能,以及对大规模
阅读全文
摘要:个性决定命运,或许正是科比的个性有了今天的他。然而处女座的科比拥有绝对特立独行甚至令人不能接受的个性,不管是队友、媒体、对手或者主教练,都有过对科比个性深恶痛绝的时候,科比的偏执,自私,孤独,恐惧交织在一起,才有了黑曼巴。 1.早熟precocious 当时创造NBA各种最年轻纪录的科比,24岁就三
阅读全文
摘要:一、Dijkstra 算法的介绍 Dijkstra 算法,又叫迪科斯彻算法(Dijkstra),算法解决的是有向图中单个源点到其他顶点的最短路径问题。举例来说,如果图中的顶点表示城市,而边上的权重表示著城市间开车行经的距离,Dijkstra 算法可以用来找到两个城市之间的最短路径。 三、Dijkst
阅读全文
摘要:前言 : 即可能误判 不会漏判 一、什么是Bloom Filter Bloom Filter是一种空间效率很高的随机数据结构,它的原理是,当一个元素被加入集合时,通过K个Hash函数将这个元素映射成一个位阵列(Bit array)中的K个点,把它们置为1。检索时,我们只要看看这些点是不是都是1就(大
阅读全文
摘要:一、红黑树的介绍 先来看下算法导论对R-B Tree的介绍: 红黑树,一种二叉查找树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red或Black。 通过对任何一条从根到叶子的路径上各个结点着色方式的限制,红黑树确保没有一条路径会比其他路径长出俩倍,因而是接近平衡的。 红黑树,作为一棵二叉查
阅读全文
摘要:1.堆排序是利用堆的特性对记录序列进行排序的一种排序方法。好的那么堆得特性是什么呢?堆得定义: 堆是满足下列性质的数列{r1, r2, …,rn}: 堆是满足下列性质的数列{r1, r2, …,rn}:
阅读全文
摘要:快速排序(Quicksort)是对冒泡排序的一种改进。 快速排序由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以
阅读全文
摘要:网上关于快速排序的算法原理和算法实现都比较多,不过java是实现并不多,而且部分实现很难理解,和思路有点不搭调。所以整理了这篇文章。如果有不妥之处还请建议。首先先复习一些基础。 1、算法概念。 快速排序(Quicksort)是对冒泡排序的一种改进。由C. A. R. Hoare在1962年提出。 2
阅读全文
摘要:思想:每一次都是一对多,把最左边的值和剩余的所有值比较。
阅读全文
摘要:思想:每次都是相邻的两个元素进行比较,如果符合条件就交换。
阅读全文
摘要:7.1 概 述 7.2 插入排序 7.3 快速排序 7.3 快速排序 7.4 堆排序 7.4 堆排序 7.5 归并排序 7.5 归并排序 7.6 基数排序 7.6 基数排序 7.7 各种排序方法的综合比较 7.7 各种排序方法的综合比较 7.1 概 述 一、排序的定义 二、内部排序和外部排序 三、内
阅读全文
摘要:树是n(n≥0)个结点的有限集。在任意一棵非空树中: 树是n(n≥0)个结点的有限集。在任意一棵非空树中: (1)有且仅有一个特定的称为根的结点; (1)有且仅有一个特定的称为根的结点; (2)当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1,T2,…,Tm, (2)当n>1时,其余结点
阅读全文
摘要:数组的类型定义、数组的存储表示、特殊矩阵的压缩存储表示方法、随机稀疏矩阵的压缩存储表示方法 5.1 数组的类型定义 5.1 数组的类型定义 5.2 数组的顺序表示和实现 5.2 数组的顺序表示和实现 5.3 稀疏矩阵的压缩存储 5.3 稀疏矩阵的压缩存储 5.4 广义表的类型定义 5.4 广义表的类
阅读全文
摘要:1 串的抽象数据类型的定义 1 串的抽象数据类型的定义 2 串的表示和实现 2 串的表示和实现 3 串的模式匹配算法 3 串的模式匹配算法 串,是由零个或多个字符组成的有限序列. 如: 'a string' 一般记为S=’a1a2…an’ (n>=0) 其中S是串的名称, 用’’括起来的字符序列是串
阅读全文
摘要:队列是一种先进先出的线性表,只能在表头删除在表尾插入,操作系统中的作业排队就是队列的一个很好的应用。 也有可以在两端均可进行插入和删除操作的队列,称为双端队列,但其用处并没有一般队列广泛。 队列类型的实现 1:链队列——链式映象: 2:循环队列——顺序映象 第一部分:链队列——链式映象 算法1:队列
阅读全文
摘要:通常称,栈和队列是限定插入和删除只能在表的“端点”进行的线性表。 线性表 栈 队列 Insert(L, i, x) Insert(S, n+1, x) Insert(Q, n+1, x) 1≤i≤n+1 Delete(L, i) Delete(S, n) Delete(Q, 1) 1≤i≤n 栈是限
阅读全文
摘要:线性表的链式存储方式: 线性表的链式存储就是用一组地址任意的存储单元存放线性表的数据元素 单链表 以元素(数据元素的映象) + 指针(指示后继元素存储位置) =结点 以“结点的序列”表示线性表称作单链表 以线性表中第一个数据元素的存储地址作为线性表的地址,称作线性表的头指针 有时为了操作方便,在第一
阅读全文
摘要:线性表是一种最简单的线性结构 线性结构的基本特征为:线性结构是一个数据元素的有序(次序)集 1.集合中必存在唯一的一个“第一元素”; 2.集合中必存在唯一的一个 “最后元素” ; 3.除最后元素在外,均有 唯一的后继; 4.除第一元素之外,均有 唯一的前驱 线性表:n个数据元素组成的有限序列。表示为
阅读全文
摘要:胡歌,厚积薄发、一鸣惊人! 胡歌是个聪明人,他在沉淀也在爆发。2015年的胡歌被太多的荣誉所加冕,但他依然保持着一颗平静的心,只想做个简单的“演员”,被光环所围绕的他并没有被名利所诱惑,感受着自己,丰盈着内心。或许正是因为经历过之前的羁绊,才会有今年的苏兄和明台。虽然33岁的年纪,对偶像来说,已经老
阅读全文
摘要:关于失败 今天在东一吃饭的时候,突然想通了成功与失败的关系,其实自己没必要去害怕失败,如果把失败看作是成功前的经验,把走向最后的成功看作一次打怪升级,之前的失败是我们必须要经历的过程,因为成功只有一次,而失败需要N次,为了得到这弥足珍贵的最后一次机会走向成功,那么之前的失败是必然的,也正是这些无数的
阅读全文
摘要:注意本文参考廖雪博客: http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 一:Git简介和安装 Git是目前世界上最先进的分布式版本控制系统(没有之一)。 最早Git是在Linux上开
阅读全文
摘要:注意本文参考廖雪博客: http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 注意本文参考廖雪博客: http://www.liaoxuefeng.com/wiki/00137395163
阅读全文
摘要:1 //聊天软件项目TCP升级版 2 import java.io.*; 3 import java.net.*; 4 class TcpClient2 5 { 6 public static void main(String[] args)throws Exception 7 { 8 Socket s = new Socket("192.16...
阅读全文
摘要:1 import java.net.*; 2 import java.io.*; 3 class UdpSend2 4 { 5 public static void main(String[] args) throws Exception 6 { 7 DatagramSocket ds = new DatagramSocket(); 8 ...
阅读全文
摘要:运行时数据区域 运行时数据区域 1虚拟机栈 (1). 线程私有(生命周期与线程相同) (2). Java方法执行内存模型:每个方法执行时会创建一个Stack Frame用于存储局部变量表、操作数栈、动态链接、方法出口等信息。 每个方法从调用到执行完成的过程,就对应着一个Stack Frame在vm
阅读全文
摘要:本文非常适合初学Java的程序员,主要是来了解一下Java中的几种for循环用法,分析得十分详细,一起来看看。 J2SE 1.5提供了另一种形式的for循环。借助这种形式的for循环,可以用更简单地方式来遍历数组和Collection等类型的对象。本文介绍使用这种循环的具体方式,说明如何自行定义能被
阅读全文
摘要:源码分析 HashMap 采用一种所谓的“Hash 算法”来决定每个元素的存储位置。当程序执行 map.put(String,Obect)方法 时,系统将调用String的 hashCode() 方法得到其 hashCode 值——每个 Java 对象都有 hashCode() 方法,都可通过该方法
阅读全文
摘要:在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性。本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享
阅读全文
摘要:一、背景 天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可 用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MR
阅读全文
摘要:Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。 令人欣慰的是
阅读全文
摘要:1 概述 在hadoop2.0之前,namenode只有一个,存在单点问题(虽然hadoop1.0有 secondarynamenode,checkpointnode,buckcupnode这些,但是单点问题依然存在),在hadoop2.0引入了 HA机制。hadoop2.0的HA机制官方介绍了有2
阅读全文
摘要:一、建表指令 比如创建一个学生表student,它由学号Sno,姓名Sname,性别Ssex,年龄Sage,所在系Sdept五个属性组成。其中学号不能为空,值是唯一的,并且姓名取值也唯一。 CREATE TABLE Student (Sno CHAR(10) NOT NULL UNIQUE, Sna
阅读全文
摘要:SQL Server管理 (1) SQL Server的两种验证方式:用户名验证和Windows验证,开发时用Windows验证就行了。 (2) 常用字段类型:bit(可选值0,1),datetime,int,varchar,nvarchar(可能含有中文用nvarchar)。 (3) varcha
阅读全文
摘要:1Python的数据结构: 1:序列: 列表(可改变) 元祖 (不可改变) 2:映射:字典 3:无序:集合 ASCII:八位 Unicode:16位 2Python的函数 abs:绝对值 match.sqrt:开方 match.ceil:上入 match.floor:下入 pow:幂 repr:字符
阅读全文
摘要:(1):先将上述代码保存为kNN.py (2):再在IDLE下的run菜单下run一下,将其生成python模块 (3):import kNN(因为上一步已经生成knn模块) (4):kNN.classify0([0,0],group,labels,3) (讨论[0,0]点属于哪一个类) 注:其中【
阅读全文
摘要:本来预计的打算是一天一个十大挖掘算法,然而由于同时要兼顾数据结构面试的事情,所以 很难办到,但至少在回家前要把数据挖掘十大算法看完,过个好年,在course上学习老吴的课程还是帮了我很大的忙,虽然浪费了时间,但是也无形中帮助我 很多,所以说还是很值得的,今天就总结KNN算法的一部分,这部分老吴的课程
阅读全文
摘要:刚刚安装完numpy,看完书又涉及到matplotlib,哎,安装它浪费了我很多时间,但收获很多呀 下面介绍一下具体的安装过程: (1)http://matplotlib.org/downloads.html 可以选择pypi或者sourceforge选择下载 我选择 sourceforge,点击后
阅读全文
摘要:因为最*在搞机器学*,涉及到python,因为我的python版本还是windoes下的2.7版本,在学*K临*算法的时候,需要安装numpy函数,下面就把自己的安装方法写下来 1:登录网址 http://sourceforge.net/projects/numpy/files/NumPy/ 2:下
阅读全文
摘要:MYSQL学习总结: 数据库DB 数据库管理系统:DBMS 数据库系统:DBS 关系数据库:Oracle、 DB2、 SQL Server、MySQL、 安装文件夹:C:\Program Files\MySQL C:\Program Files\MySQL\MySQL Server 5.7\bin
阅读全文
摘要:免费的虚拟机软件:vmware server Ubuntu下切换到root用户: 1,su 2, sudo -s 3, sudo+命令 Ubuntu下切换到一般用户: su chennan 软件包的安装: sudo apt-get update sudo apt-get install Ubuntu
阅读全文
摘要:如何查看hadoop源码 1解压hadoop安装压缩文件成为文件夹,再进入解压后的文件夹下的src文件夹,选中core,hdfs,mapred三个文件夹 2打开eclipse新建一个Java工程项目 3将步骤1中的三个文件夹复制到新建的工程的src目录下 此时会出现2个问题:1是因为缺少工程文件的j
阅读全文
摘要:作为一名程序员,图灵书籍是对我们很重要的,奈何这些书籍不能只是读读就好了,还要动手实践呀,因为有很多是外籍书籍翻译过来的,源代码很难得到,我知道一个方法可以方便得到源代码,就是登录 http://www.ituring.com.cn/book/ 搜索即可 一般人我不告诉他
阅读全文
摘要:Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark S
阅读全文
摘要:一、DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失。内存中
阅读全文
摘要:一:安装Scala 二:安装IDEA开发环境
阅读全文
摘要:随着android的大热,基于linux的开发也更热了。linux的开发包括driver的开发以及应用程序的开发。 由于我们习惯了windows,在开始使用linux的时候可能感觉很茫然,不知道如何下手。这里就介绍下过来者的一些经验。 1.学会使用linux 要学习linux,首先你得会使用linu
阅读全文
摘要:Vim相当于vi的升级版 Find p*.txt支持查找通配符 Echo 回显命令 echo hello 》1.txt 追加命令,不覆盖 echo hello >1.txt 覆盖命令 帮助命令:ls --help cd --help
阅读全文
摘要:Ubuntu server配置IP地址 第一种方法:常规方法 1、登录Ubuntu Server,然后通过“sudo -s” 切换到root用户。 2、输入“cd /etc/network/”,回车,到network目录。 3、输入“ls”,回车,看看是否存在interfaces文件。 4、输入“v
阅读全文
摘要:一:修改IP地址:vi /etc/sysconfig/network-scripts/ifcfg-eth0 IPADDR=192.168.80.100 NETMASK=255.255.255.0 GATEWAY=192.168.80.1 ONBOOT=yes IPADDR=192.168.80.10
阅读全文
摘要:1:查看系统的使用状态: 谁在线:who 网络连接状态:netstat –a 后台执行程序:ps –aux 2:关机 关机:shutdown 或者 shutdown –h now 重启:reboot 3:切换执行等级 init 0 关机 3 命令行 5 图形化 6 重启 注:使用init 0同样可以
阅读全文
摘要:前言 Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。 Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基
阅读全文
摘要:前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。 让我们把Hive的环境构建起来,帮助非开
阅读全文
摘要:前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来
阅读全文
摘要:The HRegionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened it sets up a Store instance for each HColumn
阅读全文
摘要:MapReduce 中如何处理HBase中的数据?如何读取HBase数据给Map?如何将结果存储到HBase中? Mapper类:包括一个内部类(Context)和四个方法(setup,map,cleanup,run); setup,cleanup用于管理Mapper生命周期中的资源。setup -
阅读全文
摘要:一,基本命令: 建表:create 'table','t1','t2' 也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10',
阅读全文
摘要:说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差, 但有利于后
阅读全文
摘要:Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好had
阅读全文
摘要:Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 (1) 可靠性 end-to-end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如
阅读全文
摘要:课程内容 本文链接: 张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载:https://github.com/bsspirit/maven_hadoop_template
阅读全文
摘要:今天下午在东一食堂吃饭的时候,偶尔看到央视的新闻报道,引起了自己的反思。关于因为大家的善心之举,所以部分人会选择放生的的方式表达自己的善心,但有时候好心会反而办了坏事,因为放生反而会促尽捕猎的产业链加大捕猎量,使更多的鸟反而被捕猎,这些被捕猎的鸟在放生的时候反而可能会因为之前的群居生活造成一些疾病,
阅读全文
摘要:数据金字塔与角色 数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果 数据挖掘 数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联数据挖掘思想来源:假设检验,模式识别,人工智能,机
阅读全文
摘要:淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为: 1.总容量为9.3PB,利用率77.09%。 2.共有1100台机器。 3.Master:8CPU,48GB内存,SAS Raid。 4.Slave节点异
阅读全文
摘要:1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3]。 虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS
阅读全文
摘要:编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变
阅读全文
摘要:常用的分布式日志收集系统 一:flume概述参考官方网址:http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快,完全可以用于生产环境。flume的核心是agent。age
阅读全文
摘要:SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 一:安装步骤1.解压、设置环境变量,略2.把mysql.............ja
阅读全文
摘要:为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程 一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类
阅读全文
摘要:1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的
阅读全文
摘要:1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。一步一步来的,跟SQL不一样,SQL一步就得到答案,3.Pig基本数据
阅读全文
摘要:查询1.按RowKey查询2.按手机号码查询3.按手机号码的区域查询
阅读全文
摘要:public static void main(String[] args) throws IOException { String tableName="hbase_tb"; String columnFamily="cf"; HBaseTestCase.create(tableName, columnFamily); HBaseTestCase....
阅读全文
摘要:1.hbase的机群搭建过程(在原来的hadoop上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop,从节点(region server)是hadoop1和hadoop21.2 修改hadoop上的hbase的几个文件 (1)修改hbase-env.sh的最
阅读全文
摘要:hbase提供了一个shell的终端给用户交互 名称 命令表达式 创建表 create '表名称', '列族名称1','列族名称2','列族名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '表
阅读全文
摘要:1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。 H
阅读全文
摘要:1.ZooKeeper 1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。 2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,重命名
阅读全文
摘要:1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文件 1.3
阅读全文
摘要:1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3关闭防火墙的自动运行 执行命令 chkconfig iptab
阅读全文
摘要:引言 PayPal高级工程总监Anil Madan写了这篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手。当然主要是了解大数据技术的整个框架,对于我们学习大数据有莫大好处。 开 源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技
阅读全文
摘要:逻辑回归、决策树和支持向量机 2015-12-03 CSDN大数据 CSDN大数据 分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中,我们将从众多技术中挑选出三种主要技术展开讨论,逻辑回归(Logistic Regression)、决策树(Decision Trees)和支持向量机(
阅读全文
摘要:1、现状: 深度学习现在非常热,各种会议都要和这个沾点边。百度大脑,谷歌大脑计划搞的都是这个。在一些领域取得了非常不错的效果,如图片识别,语音识别,在安全领域甚至还有识别加密的协议等。如图片,语音领域实验室准确率都超过了90%。 2、深度学习的本质 一个典型的机器学习样例如上,从开始的通过传感器(例
阅读全文
摘要:2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起很大的反响。的确,过去一年的时间里,深度学习正在改变越来越多的人工智能领域。Google DeepMind 工程师 Jack Rae 预测说
阅读全文
摘要:阿里、腾讯、京东、微软,各家算法&数据挖掘岗位面经大起底! 2016-02-24 36大数据 36大数据 作者: 江少华 摘要: 从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团、阿里蚂蚁金服、京东、腾讯、今日头条、Growing IO、微软这7个公司的面试,同时参加
阅读全文
摘要:原文:http://www.kuqin.com/shuoit/20151130/349205.html 书籍 各种书~各种ppt~更新中~ http://pan.baidu.com/s/1EaLnZ 机器学习经典书籍小结 http://www.cnblogs.com/snake-hand/archi
阅读全文
摘要:本文来自:http://jmozah.github.io/links/ Following is a growing list of some of the materials i found on the web for Deep Learning beginners. Free Online B
阅读全文
摘要:早已注定,我只能在荆棘中采拾鲜花。但重要的是,要对胜利和信念充满执着。”——穆里尼奥 轻轻地你走了,正如你轻轻的来。你挥一挥衣袖,不带走一片云彩。 狂人永存!穆里尼奥传记:戎马半生 何以安家 未完成的梦想 踢不了职业足球 菲 利克斯-穆里尼奥,老魔力鸟。作为一名职业球员,他在球场上担当门将。34岁,
阅读全文
摘要:可能,当贾樟柯远离了《小武》《站台》那几部早期的、灰蒙蒙的粗粝作品之后,影迷们对于他的评判就注定分裂了。这与人们的见识和成长速度有关,也与贾樟柯自己的奔跑节奏有关。总体上而言,很多观众停在了原地,而贾科长自己提拔了自己。 大多数人最初爱上贾樟柯,是因为他身上与生俱来的、呛人的尘土气息。很多人觉得,贾
阅读全文
摘要:我的集群使用的hadoop版本是hadoop-1.1.2。对应的eclipse版本也是:hadoop-eclipse-plugin-1.1.2_20131021200005 (1)在eclipse的dropins文件夹下建立hadoop-plugin的文件夹,将插件放入里面即可。再次重启eclips
阅读全文