摘要: <?php /** * ZFile Class * 文件管理类 */class File{ /** * 文件上传函数 * @param string $file 表单提交的文件 * @param string $save_dir 文件保存路径,相对于当前目录 * @return array $res 阅读全文
posted @ 2019-11-21 09:23 momo墨羽 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 1、返回当前时间戳:time() 从1970-1-1零点(计算机元年)到此时的总秒数 返回时间戳 2、 带微妙的时间戳:microtime(true); 返回时间戳 当设置为 TRUE 时,规定函数应该返回一个浮点数,否则返回一个字符串。默认为 FALSE。 3、 设置时区:date_default 阅读全文
posted @ 2019-11-15 10:19 momo墨羽 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.将爬虫大作业产生的csv文件上传到HDFS 此次作业选取的是爬虫《人性的弱点全集》短评数据生成的cm.csv文件;爬取的数据总数为10991条。 cm.csv 阅读全文
posted @ 2019-06-20 22:20 momo墨羽 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 分布式文件系统HDFS 练习 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 使用vim编辑器,在本地Linux文件系统的“/home/ 阅读全文
posted @ 2019-06-18 15:54 momo墨羽 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 一、简述Hadoop平台的起源、发展历史与应用现状。 1.起源: 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutti 阅读全文
posted @ 2019-06-18 15:52 momo墨羽 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 1.爬取内容保存到数据库中的代码如下: import sqlite3 with sqlite3.connect(r'F:\ 阅读全文
posted @ 2019-06-18 15:50 momo墨羽 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 爬取全部的校园新闻 作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 要求: 1、从新闻url获取新闻详情 2、从列表页的url获取新闻url 3、生成所页列表页的url并获取全部新闻 4、设置合理的爬取间隔 5、 阅读全文
posted @ 2019-06-18 15:49 momo墨羽 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-06-18 15:47 momo墨羽 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 理解爬虫原理 改作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 一、简单说明爬虫原理 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫 阅读全文
posted @ 2019-06-18 15:46 momo墨羽 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 作业要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 1. 下载一长篇中文小说。 此处下载的是网络小说--全职高手 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 4. 更新词库,加入所分析对 阅读全文
posted @ 2019-06-18 15:45 momo墨羽 阅读(217) 评论(0) 推荐(0) 编辑