左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

03 2018 档案

摘要:目前国内的hadoop商业发行版也是比较多,这些hadoop商业版大部分都是由国外发行的,纯国产的发行版不是很多,比如DKhadoop,可以说是目前国内自主做hadoop商业版比较好的了。下面就以大快搜索DKhadoop为例来给大家介绍一下hadoop框架结构! 阅读全文

posted @ 2018-03-30 17:00 左手中倒影 阅读(1272) 评论(0) 推荐(1)

摘要:Hadoop集群环境搭建是很多学习hadoop学习者或者是使用者都必然要面对的一个问题,网上关于hadoop集群环境搭建的博文教程也蛮多的。对于玩hadoop的高手来说肯定没有什么问题,甚至可以说事“手到擒来”的事情,但对于hadoop的初学者来说,hadoop集群环境的搭建着实压力不小。 阅读全文

posted @ 2018-03-27 16:46 左手中倒影 阅读(316) 评论(0) 推荐(1)

摘要:NLP是什么 在计算机领域, NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言。这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。所以,这项技术往往体现了人工智能的最高任 阅读全文

posted @ 2018-03-26 15:43 左手中倒影 阅读(417) 评论(0) 推荐(1)

摘要:我们目前在用的hadoop版本并不是原生态的版本,我们在用的是国内的一款商业发行版,叫DKhadoop。大快搜索推出的一款原生态开发的Hadoop集成生态环境。从使用的效果上看DKhadoop与开源环境是可以做到完全兼容的。准备过段时间抽个空,试着写一下以DKhadoop为切入点关于学习hadoop需要掌握什么基础。 阅读全文

posted @ 2018-03-24 17:41 左手中倒影 阅读(1349) 评论(0) 推荐(1)

摘要:Dkhadoop发行版是我目前接触的以及使用一个版本。与市场的其他第三方的发行版本相比较,整合程度要更高,但同样也保持了开源系统的全部优点。综合目前使用的情况看,在性能上相较于以往使用的一些第三方hadoop发行版要提升很多的!关于DKhadoop发行版的问题,感兴趣的可以自己去查阅收集一些资料看看。 阅读全文

posted @ 2018-03-23 11:32 左手中倒影 阅读(1401) 评论(0) 推荐(1)

摘要:一、Hadoop是什么? 首次听到hadoop这次单词,相信很多人跟我当时是一样,不免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。换句话说就是hadoop是一个能够对大量数据进行分布式处理的软件框架。 阅读全文

posted @ 2018-03-22 16:12 左手中倒影 阅读(769) 评论(0) 推荐(1)

摘要:大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。 大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与 阅读全文

posted @ 2018-03-16 14:16 左手中倒影 阅读(663) 评论(0) 推荐(1)

摘要:自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域 阅读全文

posted @ 2018-03-15 10:51 左手中倒影 阅读(393) 评论(0) 推荐(1)

摘要:什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于 阅读全文

posted @ 2018-03-14 11:08 左手中倒影 阅读(209) 评论(0) 推荐(1)

摘要:hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduc 阅读全文

posted @ 2018-03-13 10:10 左手中倒影 阅读(264) 评论(0) 推荐(1)

摘要:如今有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,来探索对数据的深入利用。 大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因。另外一个难题是如何判断数据是否有价值。尤其是在大数据 阅读全文

posted @ 2018-03-12 11:48 左手中倒影 阅读(281) 评论(0) 推荐(1)

摘要:一、什么是大数据 进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB( 阅读全文

posted @ 2018-03-10 13:28 左手中倒影 阅读(4750) 评论(0) 推荐(1)