05 2015 档案
摘要:UTF-8:Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编...
阅读全文
摘要:在Android 应用中使用assets目录下存放的资源文件,assets目录下存放的资源代表应用无法直接访问的原生资源,应用程序通过AssetManager以二 进制流的形式来读取资源。此应用是查看/assets/目录下的图片查看器(图片格式为:.jpg),在assets目录下放几张jpg格式...
阅读全文
摘要:1.MainActivity.javaimport android.app.Activity;import android.content.ContentValues;import android.database.Cursor;import android.database.sqlite.SQLi...
阅读全文
摘要:网站从构建之初的很少有人问津,用户数量较少,并发量较低,到之后的拥有千万上亿用户,数万量级的高并发,之间经历了怎样的过程,小型网站架构是怎样逐步演化的,本文简单探讨下这方面的内容,主要参考《大型网站架构设计》,这本书知识点总结的还是比较全面的。来源:http://www.cnblogs.com/...
阅读全文
摘要:1、Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,S...
阅读全文
摘要:原文:http://www.cnblogs.com/whitewolf/p/4491707.html黄金定律一个项目应该永远遵循同一套编码规范!不管有多少人共同参与同一项目,一定要确保每一行代码都像是同一个人编写的。HTML语法用两个空格来代替制表符(tab) – 这是唯一能保证在所有环境下获得一致...
阅读全文
摘要:1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/...
阅读全文
摘要:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现。 HDFS和Ma...
阅读全文
摘要:1、安装eclipse准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz安装 1、解压文件。 2、创建图标。ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录vim /usr/share...
阅读全文
摘要:1、WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configur...
阅读全文
摘要:本文仅作为学习笔记,供大家初学Hadoop时学习参考。初学Hadoop,欢迎有经验的朋友进行指导与交流!1、安装CentOS7准备 CentOS系统镜像CentOS-7.0-1406-x86_64-Everything.iso vmware workstation 11安装 1、点击创建一...
阅读全文

浙公网安备 33010602011771号