摘要: 本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 作业要求 1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS 2.把hdfs中的文本文件最终导入到数据仓库Hive中,在 阅读全文
posted @ 2019-06-18 18:57 梁运金 阅读(460) 评论(0) 推荐(0) 编辑
摘要: HDFS特点 1.数据冗余,软件容错很高。 2.流失数据访问,也就是HDFS一次写入,多次读写,并且没办法进行修改,只能删除之后重新创建 3.适合存储大文件。如果是小文件,而且是很多小文件,连一个块都装不满,并且还需要很多块,就会极大浪费空间。 HDFS的适用性和局限性: 1.数据批量读写,吞吐量高 阅读全文
posted @ 2019-06-05 21:57 梁运金 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 4. 简述Hadoop平台的起源、发展历史与应用现状。 Hadoop平台的起源: 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Do 阅读全文
posted @ 2019-05-06 20:39 梁运金 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 爬了一下腾讯漫画的网页,因为腾讯漫画中的国漫是非常多的,也想看看国漫的近况: url:http://ac.qq.com/Comic/all/search/time/page/1 实现过程: 2、从漫画中的列表页中提取所有漫画 3、从尾页列表页中获取总的漫画列表页数 4、获取详情并保存在execl文档 阅读全文
posted @ 2019-04-28 20:24 梁运金 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 爬取全部的校园新闻 1.从新闻url获取新闻详情: 字典,anews import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(url): id=re.findall 阅读全文
posted @ 2019-04-28 20:05 梁运金 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time i 阅读全文
posted @ 2019-04-12 21:43 梁运金 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使 阅读全文
posted @ 2019-04-01 16:44 梁运金 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 1. 简单说明爬虫原理 什么是爬虫? 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫原理: 阅读全文
posted @ 2019-03-27 19:12 梁运金 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 中文词频统计 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word( 阅读全文
posted @ 2019-03-18 18:02 梁运金 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合分别如何增删改查及遍历。 (1)列表 显示结果: (2)元组 显示结果: (3)字典 显示结果: (4)集合 显示结果: 2.总结列表,元组 阅读全文
posted @ 2019-03-14 20:17 梁运金 阅读(143) 评论(0) 推荐(0) 编辑