会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xbk6
博客园
首页
新随笔
联系
订阅
管理
2019年6月17日
Hadoop综合大作业
摘要: 1.这是爬虫大作业的csv数据表,共计2万条数据左右。 2、导入数据表并且去掉头部的第一条数据,然后查看签名10条数据 3、再进行预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换: 4、转换后的txt表,可以看见有中文的地区名 5、开启Hadoop和hive 6、在hdf
阅读全文
posted @ 2019-06-17 09:00 xbk6
阅读(188)
评论(0)
推荐(0)
2019年6月3日
分布式并行计算MapReduce
摘要: HDFS在Hadoop上的作用、工作原理和工作过程: 作用:HDFS 天生是为大规模数据存储与计算服务的,而对大规模数据的处理目前还有没比较稳妥的解决方案。 HDFS 将将要存储的大文件进行分割,分割到既定的存储块(Block)中进行了存储,并通过本地设定的任务节点进行预处理,从而解决对大文件存储与
阅读全文
posted @ 2019-06-03 17:45 xbk6
阅读(168)
评论(0)
推荐(0)
2019年5月27日
分布式文件系统HDFS 练习
摘要: 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个
阅读全文
posted @ 2019-05-27 15:26 xbk6
阅读(109)
评论(0)
推荐(0)
2019年5月6日
安装关系型数据库MySQL 安装大数据处理框架Hadoop
摘要: 1、简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商;国内外Hadoop应用的典型案例。Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Goog
阅读全文
posted @ 2019-05-06 10:23 xbk6
阅读(98)
评论(0)
推荐(0)
2019年4月28日
爬虫综合大作业
摘要: 一.把爬取的内容保存取MySQL数据库 代码如下: 接着我们将获取到的数据保存到本地,并转化为Excel,方便到时候生成云词。 以下是爬取爬取猫眼电影网站上的评论保存到Excel文件里,如下图: 将采集到的数据可视化,采用pyecharts,按照地理位置制作了毒液观众群的分布图。代码如下: 从可视化
阅读全文
posted @ 2019-04-28 09:09 xbk6
阅读(302)
评论(0)
推荐(0)
2019年4月11日
爬取全部的校园新闻
摘要: 1.从新闻url获取新闻详情: 字典,anews 代码如下: 运行效果: 2.从列表页的url获取新闻url:列表append(字典) alist 代码如下: 运行效果: 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页,代
阅读全文
posted @ 2019-04-11 22:16 xbk6
阅读(135)
评论(0)
推荐(0)
2019年4月2日
获取一篇新闻的全部信息
摘要: 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newClick(用字符串处理,或正则表达式) int() 主要
阅读全文
posted @ 2019-04-02 11:15 xbk6
阅读(157)
评论(0)
推荐(0)
2019年3月25日
理解爬虫原理
摘要: 1、简单说明爬虫原理 请求网站并提取数据的自动化程序 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器的主要功能就是向服务器发出请求,在浏览器窗口中展示您想要访问的网络资源。 2).使用 requests 库抓取网站数据 3).了解网页 写一个简单的html文件,包含多个标签,类,id
阅读全文
posted @ 2019-03-25 16:39 xbk6
阅读(167)
评论(0)
推荐(0)
2019年3月18日
中文词频统计
摘要: 红楼梦高频词: 红楼梦整篇小说: 成功排序出高频词: 生成词云如下:
阅读全文
posted @ 2019-03-18 16:18 xbk6
阅读(442)
评论(0)
推荐(0)
2019年3月12日
复合数据类型
摘要: 列表,元组,字典,集合分别如何增删改查及遍历。 列表是有序的,我们可以用之前学过的for循环遍历它,然后输出列表中的每一个值。元组属于特殊的列表 S=(,,,),其内部元素不可以编辑,只可以S[0]方式查询。字典是python中唯一的映射类型,采用键值对的形式存储数据。 总结列表,元组,字典,集合的
阅读全文
posted @ 2019-03-12 09:01 xbk6
阅读(227)
评论(0)
推荐(0)
下一页
公告
昵称:
xbk6
园龄:
6年10个月
粉丝:
1
关注:
1
+加关注
<
2025年7月
>
日
一
二
三
四
五
六
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔档案
2019年6月(2)
2019年5月(2)
2019年4月(3)
2019年3月(4)
2019年2月(1)
2018年10月(3)
2018年9月(3)
阅读排行榜
1. 中文词频统计(442)
2. 第二次作业-git的基本操作(344)
3. 爬虫综合大作业(302)
4. 小学四则运算 “软件”之初版(251)
5. 复合数据类型(227)
评论排行榜
1. 小学四则运算 “软件”之初版(4)
2. 第二次作业-git的基本操作(4)
3. 读《构建之法》1-5章有感(3)
4. 新机遇,新开始,新挑战(3)
最新评论
1. Re:小学四则运算 “软件”之初版
同学,用到的文件目录名是否出现中文名?阅读下我的一篇随笔,希望对你有帮助。
。
--何铠江
2. Re:小学四则运算 “软件”之初版
@ xbk6具体报了什么错误信息?...
--Grey Zeng
3. Re:小学四则运算 “软件”之初版
@ Grey Zeng在刘老师的帮助下,也无法将代码上传到远程仓库。刘老师说个别情况她自己批改...
--xbk6
4. Re:小学四则运算 “软件”之初版
请对关键代码进行说明
--Grey Zeng
5. Re:读《构建之法》1-5章有感
@ Grey Zeng好的,谢谢老师...
--xbk6
点击右上角即可分享