算法 - 随笔分类 - lanceyan

数据挖掘-分词入门

摘要：谷歌4亿英镑收购人工智能公司DeepMind，百度目前正推进“百度大脑”项目，腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术，不过买来的数据挖掘书籍一打开全是... 阅读全文

posted @ 2014-09-16 09:01 lanceyan 阅读(348) 评论(0) 推荐(0)

摘要：在上一篇文章《搭建高可用mongodb集群（二）—— 副本集》介绍了副本集的配置，这篇文章深入研究一下副本集的内部机制。还是带着副本集的问题来看吧！副本集故障转移，主节点是如何选举的？能否手动干涉下架某一台主节点。官方说副本集数量最好是奇数，为什么？mongodb副本集是如何同步的？如果同步不及时会出现什么情况？会不会出现不一致性？mongodb的故障转移会不会无故自动发生？什么条件会触发？频繁触发可能会带来系统负载加重？Bully算法mongodb副本集故障转移功能得益于它的选举机制。选举机制采用了Bully算法，可以很方便从分布式节点中选出主节点。一个分布式集群架构中一般都有一个所谓的主节阅读全文

posted @ 2014-02-18 13:41 lanceyan 阅读(1987) 评论(2) 推荐(6)

海量数据相似度计算之simhash短文本查找

摘要：在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢，还在秒级别。给大家算一笔账就知道了：随着业务增长需要一个小时处理100w次，一个小时为3600 *1000 = 360w毫秒，计算一下一次相似度比较最多只能消耗 360w / 100w = 3.6毫阅读全文

posted @ 2013-09-09 07:32 lanceyan 阅读(1476) 评论(5) 推荐(2)

海量数据相似度计算之simhash和海明距离

摘要：通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代阅读全文

posted @ 2013-08-26 07:30 lanceyan 阅读(2380) 评论(5) 推荐(7)

一致性hash和solr千万级数据分布式搜索引擎中的应用

摘要：互联网创业中大部分人都是草根创业，这个时候没有强劲的服务器，也没有钱去买很昂贵的海量数据库。在这样严峻的条件下，一批又一批的创业者从创业中获得成功，这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件，通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以，用什么没关系，只要能够在合理的情况下采用合理的解决方案。那怎么搭建一个好的系统架构呢？这个话题太大，这里主要说一下数据分流的方式。比如我们的数据库服务器只能存储200个数据，突然要搞一个活动预估达到600个数据阅读全文

posted @ 2013-05-13 09:13 lanceyan 阅读(3416) 评论(5) 推荐(10)

lanceyan

随笔分类 - 算法

数据挖掘-分词入门

搭建高可用mongodb集群（三）—— 深入副本集内部机制

海量数据相似度计算之simhash短文本查找

海量数据相似度计算之simhash和海明距离

一致性hash和solr千万级数据分布式搜索引擎中的应用

导航

公告