zourui4271

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 55 下一页

2018年9月23日 #

摘要: 事务(Transaction)是并发控制的基本单位。所谓事务,它是一个操作序列,这些操作要么都执行,要么都不执行,它是一个不可分割的工作单位。例如,银行转帐工作:从一个帐号扣款并使另一个帐号增款,这两个操作要么都执行,要么都不执行。所以,应该把他们看成一个事务。事务是数据库维护数据一致性的单位,在每 阅读全文
posted @ 2018-09-23 07:49 zourui4271 阅读(116) 评论(0) 推荐(0)

2018年9月22日 #

摘要: 今天开始聊一些微服务的实践,第一块,RPC框架的原理及实践,为什么说要搞定微服务架构,先搞定RPC框架呢? 一、需求缘起 服务化的一个好处就是,不限定服务的提供方使用什么技术选型,能够实现大公司跨团队的技术解耦,如下图: 服务A是欧洲团队提供服务,欧洲团队的技术背景是Java,可以用Java实现服务 阅读全文
posted @ 2018-09-22 15:56 zourui4271 阅读(159) 评论(0) 推荐(0)

摘要: 今天跟大伙一起聊聊分布式系统的架构的套路。在开始说套路之前,大家先思考一个问题,为什么要进行分布式架构? 大多数的开发者大多数的系统可能从来没接触过分布式系统,也根本没必要进行分布式系统架构,为什么?因为在访问量或者QPS没有达到单台机器的性能瓶颈的时候,根本没必要进行分布式架构。那如果业务量上来了 阅读全文
posted @ 2018-09-22 09:03 zourui4271 阅读(157) 评论(0) 推荐(0)

2018年9月9日 #

摘要: HDFS是用来解决什么问题?怎么解决的? 如何在命令行下操作HDFS? 如何使用Java API来操作HDFS? 在了解基本思路和操作方法后,进一步深究HDFS具体的读写数据流程 学习并实践本文教程后,可以对HDFS有比较清晰的认识,并可以进行熟练操作,为后续学习Hadoop体系打好基础。 目录: 阅读全文
posted @ 2018-09-09 10:27 zourui4271 阅读(468) 评论(0) 推荐(0)

2018年9月5日 #

摘要: 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒 阅读全文
posted @ 2018-09-05 19:49 zourui4271 阅读(664) 评论(0) 推荐(0)

摘要: 特征分类 对特征进行分类,对于不同的特征应该有不同的处理方法。 根据不同的分类方法,可以将特征分为 (1)Low level特征和High level特征。 Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。 例如文本特征中的词向量特征,图像特征中的像素 阅读全文
posted @ 2018-09-05 19:46 zourui4271 阅读(3232) 评论(0) 推荐(0)

摘要: 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种 阅读全文
posted @ 2018-09-05 19:25 zourui4271 阅读(451) 评论(0) 推荐(0)

2018年8月31日 #

摘要: 背景 数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质 阅读全文
posted @ 2018-08-31 06:29 zourui4271 阅读(1163) 评论(0) 推荐(0)

2018年8月28日 #

摘要: 前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专家。当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家。那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术。大数据其实是个非常笼 阅读全文
posted @ 2018-08-28 20:22 zourui4271 阅读(494) 评论(0) 推荐(0)

2018年8月26日 #

摘要: 导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。 本文依次从spark生态,原理,基 阅读全文
posted @ 2018-08-26 13:47 zourui4271 阅读(179) 评论(0) 推荐(0)

上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 55 下一页