蜗牛123

2016年9月1日

摘要： #!/usr/bin/python#encoding=utf-8from bs4 import BeautifulSoup as bsimport requestsheaders = { "host": "www.jd.com", "User-Agent": "Mozilla/5.0 (Window 阅读全文

posted @ 2016-09-01 16:44 蜗牛123 阅读(315) 评论(0) 推荐(0) 编辑

2013年4月1日

Hbase数据备份导入导出

摘要：查阅了几篇中英文资料，发现有的地方说的不是很全部，总结在此，共有两种命令行的方式来实现数据的导入导出功能，即备份和还原。1 HBase本身提供的接口其调用形式为：1）导入./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名数据文件位置其中数据文件位置可为本地文件目录，也可以分布式文件系统hdfs的路径。当其为前者时，直接指定即可，也可以加前缀file:///而当其伟后者时，必须明确指明hdfs的路径，例如hdfs://mymaster:9000/path2)导出./hbase org.apache.hadoop.hbase.ma 阅读全文

posted @ 2013-04-01 10:19 蜗牛123 阅读(707) 评论(0) 推荐(0) 编辑

2013年3月27日

hadoop用法之mapreduce的应用场景

摘要：本节和大家一起学习一下Hadoop，通过它的实际应用来向大家展示它的功能，从而使读者更容易了解，希望通过本节的介绍大家对Hadoop有初步的了解。Hadoop最佳实践1.简介Hadoop是Apache自由软件基金会资助的顶级项目，致力于提供基于map-reduce计算模型的高效、可靠、高扩展性分布式计算平台。2.Map-Reduce应用场景作为一种受限的分布式计算模型，Map-Reduce计算模型有其擅长的领域，也有其不擅长的方面：条款1：map-reduce计算模型适用于批处理任务，即在可接受的时间内对整个数据集计算某个特定的查询的结果，该计算模型不适合需要实时反映数据变化状态的计算环境。条阅读全文

posted @ 2013-03-27 17:25 蜗牛123 阅读(5147) 评论(0) 推荐(0) 编辑

2013年3月6日

mapreduce

摘要： Map-Reduce工作原理1 client run job2 get new job ID3 copy job resources4 submit job5 initialize job6 retrieve input splits7 heartbeat (return task)8 retrieve job resource9 lunch10 runJobClient的runJob()方法是用于新建JobClient实例和调用其submitJob()方法。提交作业后，runJob（）将每秒轮询作业的进度，如果发现与上一个记录不同，便把报告显示到控制台。作业完成后，如果成功，就显示作业计数器阅读全文

posted @ 2013-03-06 17:58 蜗牛123 阅读(365) 评论(0) 推荐(0) 编辑

2013年1月9日

google论文四 Bigtable:结构化数据的分布式存储系统(上)

摘要：摘要Bigtable 是设计用来管理那些可能达到很大大小(比如可能是存储在数千台服务器上的数PB的数据)的结构化数据的分布式存储系统。Google的很多项目都将数据存储在Bigtable中，比如网页索引，google 地球，google金融。这些应用对Bigtable提出了很多不同的要求，无论是数据大小(从单纯的URL到包含图片附件的网页)还是延时需求。尽管存在这些各种不同的需求，Bigtable成功地为google的所有这些产品提供了一个灵活的，高性能的解决方案。在这篇论文中，我们将描述 Bigtable所提供的允许客户端动态控制数据分布和格式的简单数据模型，此外还会描述Bigtable 阅读全文

posted @ 2013-01-09 21:58 蜗牛123 阅读(322) 评论(0) 推荐(0) 编辑

公告