摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hadoop 把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了) 启动hive 建立表docs 把hdfs文件系统中input文件夹里的文本文件load进去,写hiv 阅读全文
posted @ 2018-05-21 09:57 098-谢家豪 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1. A.编写map函数,reduce函数 B.将其权限作出相应修改 C.本机上测试运行代码 D.放到HDFS上运行 a.将之前爬取的文本文件上传到hdfs上 b.用Hadoop Streaming命令提交任务 E.查看运行结果 2. A.气象数据集下载地址为:ftp://ftp.ncdc.noaa 阅读全文
posted @ 2018-05-07 21:19 098-谢家豪 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1、 2、 阅读全文
posted @ 2018-05-04 18:49 098-谢家豪 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6 阅读全文
posted @ 2018-04-27 19:51 098-谢家豪 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 首先定义获取总页面、获取页面所有链接、获取页面信息、生成词云等的函数,过程中就是获取所有页面所有链接出现点问题,归结于找标签问题。这次爬取的是一个电影网站,将网站里面的电影名、主演、年代、地区,然后进行词云生成 阅读全文
posted @ 2018-04-22 19:28 098-谢家豪 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand 阅读全文
posted @ 2018-04-16 11:29 098-谢家豪 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl 阅读全文
posted @ 2018-04-09 17:20 098-谢家豪 阅读(135) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime url="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(url) res.encoding="utf-8" soup=BeautifulSoup(res.text,"ht... 阅读全文
posted @ 2018-04-02 11:41 098-谢家豪 阅读(155) 评论(0) 推荐(0) 编辑
摘要: import requests newsurl = 'http://localhost:63342/bd/aaa.html?_ijt=7pd1hi6n7j1ue90de4jivbr31k' res = requests.get(newsurl) # 返回response对象 res.encoding = 'utf-8' print(res.text) from bs4 import Beaut... 阅读全文
posted @ 2018-03-29 19:13 098-谢家豪 阅读(112) 评论(0) 推荐(0) 编辑
摘要: song =''' There's a girl in my mirror I wonder who she is Sometimes I think I know her Sometimes I really wish I did But there's a story in her eyes Lullabies and goodbyes When she’s lookin’ back at ... 阅读全文
posted @ 2018-03-26 11:06 098-谢家豪 阅读(115) 评论(0) 推荐(0) 编辑