文章分类 -  DATA

摘要:大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生、传递、存储、运算到应用的。其实我一直感觉大数据这个东西有时候真的不是一般企业可以玩的溜的,特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如... 阅读全文
posted @ 2014-09-02 10:07 luckc# 阅读(731) 评论(0) 推荐(0)
摘要:1.1.1 摘要如果说要对数据库进行优化,我们主要可以通过以下五种方法,对数据库系统进行优化。1. 计算机硬件调优2. 应用程序调优3. 数据库索引优化4. SQL语句优化5. 事务处理调优在本篇博文中,我们将想大家讲述数据库中索引类型和使用场合,本文以SQL Server为例,对于其他技术平台的朋友也是有参考价值的,只要替换相对应的代码就行了!索引使数据库引擎执行速度更快,有针对性的数据检索,而不是简单地整表扫描(Full table scan)。为了使用有效的索引,我们必须对索引的构成有所了解,而且我们知道在数据表中添加索引必然需要创建和维护索引表,所以我们要全局地衡量添加索引是否能提高数 阅读全文
posted @ 2012-04-23 09:44 luckc# 阅读(275) 评论(0) 推荐(0)
摘要:作者:July。出处:http://blog.csdn.net/v_JULY_v。前言 经典算法研究系列已经写了十三个算法,共计22篇文章(详情,见这:十三个经典算法研究与总结、目录+索引),我很怕我自己不再把这个算法系列给继续写下去了。沉思良久,到底是不想因为要创作狂想曲系列而耽搁这个经典算法研究系列,何况它,至今反响还不错。 ok,狂想曲第三章提出了一个算法,就是快速选择SELECT算法,关于这个SELECT算法通过选取数组中中位数的中位数作为枢纽元能保证在最坏情况下,亦能做到线性O(N)的时间复杂度的证明,在狂想曲第三章也已经给出。 本文咱们从快速排序算法分析开始(因为如你所知,快速选择 阅读全文
posted @ 2012-03-28 12:49 luckc# 阅读(238) 评论(0) 推荐(0)
摘要:BY:http://blog.csdn.net/v_july_v/article/details/6890054前言 咱们先来看两个问题: 第一个问题来自编程之美上,Tango是微软亚洲研究院的一个试验项目,如图1所示。研究院的员工和实习生们都很喜欢在Tango上面交流灌水。传说,Tango有一大“水王”,他不但喜欢发帖,还会回复其他ID发的每个帖子。坊间风闻该“水王”发帖数目超过了帖子总数的一半。如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗? 图1Tango 第二个问题来自各位... 阅读全文
posted @ 2012-03-28 12:47 luckc# 阅读(270) 评论(1) 推荐(0)
摘要:作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。------------------------------------------第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模 阅读全文
posted @ 2012-03-28 12:43 luckc# 阅读(127) 评论(0) 推荐(0)
摘要:作者:July出处:结构之法算法之道blog前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题。最后,有一点必须强调的是,全文行文是基于面试题的分析基础之上的,具体实践过程中,还是得具体情况具体分析,且场景也远比本文所述的任何一种情况复杂得多。 OK,若有任何问题,欢迎.. 阅读全文
posted @ 2012-03-28 12:41 luckc# 阅读(146) 评论(0) 推荐(0)
摘要:2月18日,CSDN在北京举行了TUP第19期活动:大数据系列研讨会——从12306谈起。本次研讨会汇集了来自百度、豆瓣网、搜狗、淘宝、土豆、凡客诚品、新浪微博、IBM等公司的众多业内技术高管,就大数据及海量并发用户网络的需求分析、架构设计、产品研发、系统运维等话题和与会者进行了深度探讨。与会者包括来自互联网/IT公司技术高管、研发精英、运维管理、对高并发网站解决方案有研究的技术人员,共计三百人参与了此次研讨会。本次研讨会分为上下午两部分,上午为高端讨论,下午为集中讲座。在下午的讲座上,针对网站在突发高负载和高增长的情况下,如何承载巨大访问量,来自百度(移动·云)的首席架构师林仕鼎、 阅读全文
posted @ 2012-02-20 19:02 luckc# 阅读(237) 评论(0) 推荐(0)
摘要:根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。大数据时代的数据格式特性首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展, 阅读全文
posted @ 2012-02-07 10:59 luckc# 阅读(284) 评论(0) 推荐(0)
摘要:导读:随着大数据时代浪潮的到来数据科学家这一新兴职业也越来越受到人们的关注。本文作者Alexandru Nedelcu就将数学挖掘算法与大数据有机的结合起来,并无缝的应用在面临大数据浪潮的网站之中。数据科学家需要具备专业领域知识并研究相应的算法以分析对应的问题,而数据挖掘是其必须掌握的重要技术。以帮助创建推动业务发展的相应大数据产品和大数据解决方案。EMC最近的一项调查也证实了这点。调查结果显示83%的人认为大数据浪潮所催生的新技术增加了数据科学家的需求。本文将为您展示如何基于一个简单的公式查找相关的项目。请注意,此项技术适用于所有的网站(如亚马逊),以个性化用户体验、提高转换效率。查找相关项 阅读全文
posted @ 2012-02-04 17:17 luckc# 阅读(195) 评论(0) 推荐(0)
摘要:当数据以成百上千TB不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。 大数据分析迎来大时代 全球各行各业的组织机构已经意识到,最准确的商务决策来自于事实,而不是凭空臆想。这也就意味着,他们需要在内部交易系统的历史信息之外,采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。 极具... 阅读全文
posted @ 2011-11-18 13:16 luckc# 阅读(326) 评论(0) 推荐(0)
摘要:毫无疑问,世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦。现实是,许多问题阻碍了大数据技术的发展和实际应用。因为一种成功的技术,需要一些衡量的标准。现在我们可以通过几个基本要素来衡量一下大数据技术,这就是——流处理、并行性、摘要索引和可视化。谁会用到大数据呢?一年前,大数据技术的一些主要用户是大型Web企业,例如Facebook和雅虎,它们需要分析点击流数据。但是今天,“大数据技术已经超出了Web,是要是有大量数据需要处理的企业都有可能用到它。”例如银行、公用事业机构、情报部门等都在搭乘大数据这辆车。实际上, 阅读全文
posted @ 2011-10-25 13:24 luckc# 阅读(181) 评论(0) 推荐(0)