2015 年 12月随笔档案 - 成都笨笨

大数据分析(一)探索性分析

摘要：最近，大数据风靡一时，也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境，翻看各种hadoop技术的书，浏览hadoop、hive、storm等技术。过了一段时间，当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据，要么束手无策，要么不管三七二十一就来一个统计回归模型。我们对... 阅读全文

posted @ 2015-12-30 02:31 成都笨笨阅读(8704) 评论(0) 推荐(0)

centos7安装CDH5.5.0

摘要：1、安装jdk mkdir -p /usr/java tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/java/ vi /etc/profile export JAVA_HOME=/usr/java/jdk1.7.0_80 export PATH=$PATH:$... 阅读全文

posted @ 2015-12-22 01:30 成都笨笨阅读(1190) 评论(0) 推荐(0)

将博客搬至CSDN

摘要：在csdn也开通了博客。以博客园为主，本博客会第一时间持续更新最新的文章和算法研究阅读全文

posted @ 2015-12-04 21:43 成都笨笨阅读(179) 评论(0) 推荐(0)

mapreduce导出MSSQL的数据到HDFS

摘要：今天想通过一些数据，来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误奇怪了，我的SQL语句中没有LIMIT，这LIMIT哪来的。我翻... 阅读全文

posted @ 2015-12-03 23:38 成都笨笨阅读(1262) 评论(0) 推荐(1)

基于信息熵的无字典分词算法

摘要：这几天在研究如何用统计方法来发现新词，扩充自己的词典。看到了几篇很有想法的文章，作者阐述了一下思路。文章里面的数据，我计算了一下，发现文有很多数据不够严谨，最主要的问题，并没有给出很详细的理论方面的说明。结合作者的思路，我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集... 阅读全文

posted @ 2015-12-02 22:43 成都笨笨阅读(3608) 评论(1) 推荐(1)

搜索引擎手记（三）之网页的去重

摘要：015年4月1日(星期二)晴南风今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！MyGOD！通过和群里进行技术交流，大概明白了解决... 阅读全文

posted @ 2015-12-02 13:02 成都笨笨阅读(521) 评论(0) 推荐(0)

算法之常用的距离和相似度度量

摘要：在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个... 阅读全文

posted @ 2015-12-01 12:04 成都笨笨阅读(492) 评论(0) 推荐(0)

搜索引擎手记（二）之爬虫的开发

摘要：2015年3月23日(星期一)晴、南风今天数据组开会说爬虫已经开发完毕，在尝试爬网站。由于我们采集的网站，网址都是固定的，并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库，爬虫的架构思路借鉴了下面的思路... 阅读全文

posted @ 2015-12-01 01:19 成都笨笨阅读(571) 评论(0) 推荐(0)

搜索引擎手记（一）之引擎工作的开始

摘要：2015年3月06日(星期五) 阴、南风，天空依旧没有太阳。项目的进展好比这天气一样，说变就变。搜索引擎的会议开完了。会议开完了的同时，也宣告去年一年的引擎项目的开发以失败而告终。没有思路、没有规划、没有计划，项目的失败也必然的。虽然项目开始时候，大家都预见到了结局，但是当结局来临的那一刻，... 阅读全文

posted @ 2015-12-01 00:09 成都笨笨阅读(188) 评论(0) 推荐(0)