大数据分析(一)探索性分析
摘要:最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop、hive、storm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。 我们对...
阅读全文
posted @
2015-12-30 02:31
成都笨笨
阅读(8704)
推荐(0)
centos7安装CDH5.5.0
摘要:1、安装jdk mkdir -p /usr/java tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/java/ vi /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_80 export PATH=$PATH:$...
阅读全文
posted @
2015-12-22 01:30
成都笨笨
阅读(1190)
推荐(0)
将博客搬至CSDN
摘要:在csdn也开通了博客。以博客园为主,本博客会第一时间持续更新最新的文章和算法研究
阅读全文
posted @
2015-12-04 21:43
成都笨笨
阅读(179)
推荐(0)
mapreduce导出MSSQL的数据到HDFS
摘要:今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误 奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻...
阅读全文
posted @
2015-12-03 23:38
成都笨笨
阅读(1262)
推荐(1)
基于信息熵的无字典分词算法
摘要:这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集...
阅读全文
posted @
2015-12-02 22:43
成都笨笨
阅读(3608)
推荐(1)
搜索引擎手记(三)之网页的去重
摘要:015年4月1日(星期二)晴南风 今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!MyGOD!通过和群里进行技术交流,大概明白了解决...
阅读全文
posted @
2015-12-02 13:02
成都笨笨
阅读(521)
推荐(0)
算法之常用的距离和相似度度量
摘要:在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个...
阅读全文
posted @
2015-12-01 12:04
成都笨笨
阅读(492)
推荐(0)
搜索引擎手记(二)之爬虫的开发
摘要:2015年3月23日(星期一)晴、南风 今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路...
阅读全文
posted @
2015-12-01 01:19
成都笨笨
阅读(571)
推荐(0)
搜索引擎手记(一)之引擎工作的开始
摘要:2015年3月06日(星期五) 阴、南风,天空依旧没有太阳。 项目的进展好比这天气一样,说变就变。搜索引擎的会议开完了。会议开完了的同时,也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划,项目的失败也必然的。虽然项目开始时候,大家都预见到了结局,但是当结局来临的那一刻,...
阅读全文
posted @
2015-12-01 00:09
成都笨笨
阅读(188)
推荐(0)