06 2019 档案

摘要:作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.将爬虫大作业产生的csv文件上传到HDFS 此次作业选取的是爬虫《人性的弱点全集》短评数据生成的cm.csv文件;爬取的数据总数为10991条。 cm.csv 阅读全文
posted @ 2019-06-20 22:20 momo墨羽 阅读(613) 评论(0) 推荐(0)
摘要:分布式文件系统HDFS 练习 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 使用vim编辑器,在本地Linux文件系统的“/home/ 阅读全文
posted @ 2019-06-18 15:54 momo墨羽 阅读(238) 评论(0) 推荐(0)
摘要:一、简述Hadoop平台的起源、发展历史与应用现状。 1.起源: 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutti 阅读全文
posted @ 2019-06-18 15:52 momo墨羽 阅读(194) 评论(0) 推荐(0)
摘要:作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 1.爬取内容保存到数据库中的代码如下: import sqlite3 with sqlite3.connect(r'F:\ 阅读全文
posted @ 2019-06-18 15:50 momo墨羽 阅读(414) 评论(0) 推荐(0)
摘要:爬取全部的校园新闻 作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 要求: 1、从新闻url获取新闻详情 2、从列表页的url获取新闻url 3、生成所页列表页的url并获取全部新闻 4、设置合理的爬取间隔 5、 阅读全文
posted @ 2019-06-18 15:49 momo墨羽 阅读(431) 评论(0) 推荐(0)
摘要:给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-06-18 15:47 momo墨羽 阅读(293) 评论(0) 推荐(0)
摘要:理解爬虫原理 改作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 一、简单说明爬虫原理 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫 阅读全文
posted @ 2019-06-18 15:46 momo墨羽 阅读(152) 评论(0) 推荐(0)
摘要:作业要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 1. 下载一长篇中文小说。 此处下载的是网络小说--全职高手 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 4. 更新词库,加入所分析对 阅读全文
posted @ 2019-06-18 15:45 momo墨羽 阅读(241) 评论(0) 推荐(0)
摘要:复合数据类型,英文词频统计 作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合的增删改查及遍历 列表 操作 方法 示例 增加 list.append(obj) 增加元素到末尾 list=[ 阅读全文
posted @ 2019-06-18 15:43 momo墨羽 阅读(162) 评论(0) 推荐(0)
摘要:作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646解析身份证号:生日、性别、出生地等。 #! /use/bin/python # -*- coding: UTF-8 -*- def check_idcard(id_ 阅读全文
posted @ 2019-06-18 15:41 momo墨羽 阅读(129) 评论(0) 推荐(0)
摘要:了解大数据的特点、来源与数据呈现方式 作业要求源自https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2620 1.分析所采用数据的来源有哪些? 浏览了2019春节各种大数据分析报告,数据的来源大概分为以下几类: 交易数据。包括POS机数据 阅读全文
posted @ 2019-06-18 15:39 momo墨羽 阅读(852) 评论(0) 推荐(0)
摘要:分布式版本控制系统Git的安装与使用 一、下载安装配置用户名和邮箱。 1.下载并且安装了git bash 2.使用命令配置用户名和邮箱 git config --global user.name "cmh"和 git config --global user.email "454432788@qq. 阅读全文
posted @ 2019-06-18 15:36 momo墨羽 阅读(166) 评论(0) 推荐(0)
摘要:这个作业的要求来自于:http://www.cnblogs.com/greyzeng/p/9581624.html 第一部分:结缘计算机 推荐博客:博客I 你为什么选择计算机专业?你认为你的条件如何?和这些博主比呢?(必答) 我是个比较懒的人到高三要报学校的时候才考虑要读什么专业,我听了身边很多人的 阅读全文
posted @ 2019-06-18 15:27 momo墨羽 阅读(87) 评论(0) 推荐(0)