yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  数据分析,统计

上一页 1 2 3 4 5 6 7 下一页

摘要:1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模 阅读全文
posted @ 2016-04-30 12:39 xxxxxxxx1x2xxxxxxx 阅读(155) 评论(0) 推荐(0)

摘要:八大排序算法 概述 排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 我们这里说说八大排序就是内部排序。 当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。 快速 阅读全文
posted @ 2016-04-30 12:37 xxxxxxxx1x2xxxxxxx 阅读(151) 评论(0) 推荐(0)

摘要:海量数据处理 算法总结 前面我们说海量数据处理提到,从算法的角度去考虑处理海量数据。 1. Bloom Filter 【Bloom Filter】Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否 阅读全文
posted @ 2016-04-30 12:31 xxxxxxxx1x2xxxxxxx 阅读(190) 评论(0) 推荐(0)

摘要:Trie树:应用于统计和排序 Trie树:应用于统计和排序 1. 什么是trie树 1.Trie树 (特例结构树) Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(135) 评论(0) 推荐(0)

摘要:海量数据处理算法—Bit-Map 1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 2、 Bit Map的基本思想 我们先来看一个具体的例 阅读全文
posted @ 2016-04-30 12:28 xxxxxxxx1x2xxxxxxx 阅读(197) 评论(0) 推荐(0)

摘要:用Redis bitmap统计活跃用户、留存 用Redis bitmap统计活跃用户、留存 Spool的开发者博客,描述了Spool利用Redis的bitmaps相关的操作,进行网站活跃用户统计工作。 原文:http://blog.getspool.com/2011/11/29/fast-easy- 阅读全文
posted @ 2016-04-30 12:27 xxxxxxxx1x2xxxxxxx 阅读(471) 评论(0) 推荐(0)

摘要:6个用于大数据分析的最好工具 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军 阅读全文
posted @ 2016-04-30 12:26 xxxxxxxx1x2xxxxxxx 阅读(188) 评论(0) 推荐(0)

摘要:摘要:Admaster数据挖掘总监 随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 随着互联网、移动互联网和物联网的发展,谁也无法否认, 阅读全文
posted @ 2016-04-30 12:15 xxxxxxxx1x2xxxxxxx 阅读(206) 评论(0) 推荐(0)

摘要:数据分析≠Hadoop+NoSQL 数据分析≠Hadoop+NoSQL 目录(?)[+] 目录(?)[+] Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代方案,省时、省 阅读全文
posted @ 2016-04-30 12:12 xxxxxxxx1x2xxxxxxx 阅读(178) 评论(0) 推荐(0)

摘要:海量数据处理算法—Bloom Filter 海量数据处理算法—Bloom Filter 1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据 阅读全文
posted @ 2016-04-30 12:09 xxxxxxxx1x2xxxxxxx 阅读(169) 评论(0) 推荐(0)

摘要:这个列表包含数据分析经常使用的Python库,供大家使用。1. 网络通用urllib -网络库(stdlib)。requests -网络库。grab – 网络库(基于pycurl)。pycurl – 网络库(绑定libcurl)。urllib3 – Python HTTP库,安全连接池、支持文件po 阅读全文
posted @ 2016-04-19 13:53 xxxxxxxx1x2xxxxxxx 阅读(351) 评论(0) 推荐(0)

摘要:Our API directory now includes 96 stocks APIs. The newest is the Eurex VALUES API. The most popular, in terms of directory page views, is the Bloomber 阅读全文
posted @ 2016-02-01 00:12 xxxxxxxx1x2xxxxxxx 阅读(1957) 评论(0) 推荐(0)

摘要:实时股票数据接口 股票数据的获取目前有如下两种方法可以获取:1. http/javascript接口取数据2. web-service接口1.http/javascript接口取数据1.1Sina股票数据接口以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据接口 阅读全文
posted @ 2016-02-01 00:05 xxxxxxxx1x2xxxxxxx 阅读(1102) 评论(0) 推荐(0)

摘要:周末两天在家闲着没事,于是整理了一下之前的的文档和一些琐碎的测试代码,居然发现了几个月前写的一个新闻类主题型网页正文文本自动抽取模块。当时 写的比较简单和粗糙,虽然抽取结果差强人意,但是也还勉强说得过去。于是清理一下代码上的灰尘,做了一个小Demo,分享一下。 作者写这篇文章的主要目的在于抛砖引玉, 阅读全文
posted @ 2016-01-27 14:58 xxxxxxxx1x2xxxxxxx 阅读(396) 评论(0) 推荐(0)

摘要:http://yshjava.iteye.com/blog/1560661 为何要计算文档相似性 在今年年初的时候,我开始尝试做文本的自动聚类,当时是从网上,找到的一个K-Means算法,稍作了修改。从测试结果来看,分类效果 不太好,究其原因,我认为有两个,一个是词库的问题,停用词词库太小,没有噪音 阅读全文
posted @ 2016-01-27 14:49 xxxxxxxx1x2xxxxxxx 阅读(453) 评论(0) 推荐(0)

摘要:目录(?)[+]如何开发auto complete 智能提示功能最近网上好像流传用redis实现,其实智能提示和用什么存储关系不大 07年,我过一个类似的项目我有几千个名字,随着用户在输入框中不断输入汉字或者拼音,用一个下拉列表提示它可能的输入项下拉框,选中状态,自然是用js做,这里主要讲一下后端代... 阅读全文
posted @ 2016-01-22 00:45 xxxxxxxx1x2xxxxxxx 阅读(302) 评论(0) 推荐(0)

摘要:2012210344男12金融分析师华一银行交易员2012210345男12金融分析师中国工商银行股份有限公司重庆市分行公司职员2012210346女12金融分析师博时基金管理有限公司固定收益研究员2012210347女12金融分析师北大方正物产集团(上海)有限公司助理研究员2012210348女1... 阅读全文
posted @ 2015-12-01 01:33 xxxxxxxx1x2xxxxxxx 阅读(282) 评论(0) 推荐(0)

摘要:[Journals]1.ACM Transactions on Knowledge Discovery from Data (TKDD)2.IEEE Transactions on Knowledge and Data Engineering (TKDE)3.Data Mining and Know... 阅读全文
posted @ 2015-11-15 06:05 xxxxxxxx1x2xxxxxxx 阅读(489) 评论(0) 推荐(0)

摘要:本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器,不同的分词器有不同的用法,定义 阅读全文
posted @ 2015-11-15 04:36 xxxxxxxx1x2xxxxxxx 阅读(4403) 评论(0) 推荐(0)

摘要:去掉word中向下的箭头在网页上复制文章到word中,会发现有很多向下的箭头,这些 符号叫做软回车符。如何去掉这些向下的箭头呢。步骤如下:方法/步骤按Ctrl+H,弹出全局替换窗口,输入查找内容框中输入:^l,替换为框中输入:^p。如图所示:2按全部替换按钮,则将全文中所有的软回车符替换成硬回车符号... 阅读全文
posted @ 2015-10-31 21:15 xxxxxxxx1x2xxxxxxx 阅读(2235) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 下一页