随笔分类 - 大数据
摘要:说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角大数据的概念:1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间...
阅读全文
摘要:《读书报告 – Elasticsearch入门 》'第四章 分布式文件存储这章的主要内容是理解数据如何在分布式系统中存储。4.1 路由文档到分片创建一个新文档时,它是如何确定应该存储在分片1还是分片2上的呢?这个过程不是随机的,因为将来要检索文档。事实上,它根据一个简单的算法决定:s...
阅读全文
摘要:《读书报告 – Elasticsearch入门 》第一章 Elasticsearch入门Elasticsearch是一个实时的分布式搜索和分析引擎,使得人们可以在一定规模上和一定速度上实现数据检索,常用于全文本检索,结构化检索、分析以及三种的结合应用。Wikipedia、Guardi...
阅读全文
摘要:作者:维克托·迈尔-舍恩伯格最近看了一本有历史的书《大数据时代》(拿研究成果来说三年前的已经是老成果了),作者对 我们这个大数据时代产生了很多颇有意思的洞见,为了保持原汁原味,我就直接原封不懂的把他们保留下来了,有空的话推荐大家去看看,顺便看看书中提到的电影《少数派报告》,和《点球成...
阅读全文
摘要:Sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:mysql,oracle,等)中的数据导入到hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。1.简介首先切换到到hadoop用户:su - hadoop温馨提示...
阅读全文
摘要:第十三章 全文检索这一章开始介绍 全文检索 :怎样对全文字段(full-text fields)进行检索以找到相关度最高的文档。全文检索最重要的两个方面是:相关度(Relevance)根据文档与查询的相关程度对结果集进行排序的能力。相关度可以使用TF/IDF、地理位置相近程度、模糊相...
阅读全文
摘要:Part II 深入搜索搜索不仅仅是全文本搜索:数据的很大部分是结构化的值例如日期、数字。这部分开始解释怎样以一种高效地方式结合结构化搜索和全文本搜索。第十二章 结构化搜索结构化搜索_ 是指查询包含内部结构的数据。日期,时间,和数字都是结构化的:它们有明确的格式给你执行逻辑操作...
阅读全文
摘要:目前对中文分词精度影响最大的主要是两方面:未登录词的识别和歧义切分。据统计:未登录词中中文姓人名在文本中一般只占2%左右,但这其中高达50%以上的人名会产生切分错误。在所有的分词错误中,与人名有关的错误占到了将近90%,这中国人名都是根据人的想法起的名字,有很大的随意性,并且数量巨大...
阅读全文
摘要:1.使用python fabric进行Linux基础配置使用python,可以让任何事情高效起来,包括运维工作,fabric正式这样一套基于python2的类库,它执行本地或远程shell命令提供了操作的基本套件(正常或通过sudo)和上传/下载文件,如提示用户输入运行辅助功能,或中...
阅读全文
摘要:绪论最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。不同版本pytho...
阅读全文
浙公网安备 33010602011771号