摘要: 一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 1、文本操作 由于我爬的是贴吧的回复,所以爬取出来的内容都是中文的 所以我下要在windows平台先把爬取到的文本进行分词,然后再在虚拟机里进行词频统计 以下是我爬取的文本内容: 分词前: 分词后: 分词所 阅读全文
posted @ 2018-05-25 11:16 087林金龙 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1. 用Python编写WordCount程序并提交任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 2. 用mapreduce 处理气象数据集 编写程序求每日最高最低气温 阅读全文
posted @ 2018-05-14 09:45 087林金龙 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-04 18:35 087林金龙 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. cd home/jinlong/hadoop touch one.txt echo '1'>one.txt echo 'aaaaa1'>> 阅读全文
posted @ 2018-04-26 17:06 087林金龙 阅读(110) 评论(0) 推荐(0) 编辑
摘要: 要求: 1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交 阅读全文
posted @ 2018-04-23 22:06 087林金龙 阅读(743) 评论(0) 推荐(0) 编辑
摘要: 从230页开始爬取: 由于是从第230页开始爬取,所以并无满足后两个条件的新闻: 阅读全文
posted @ 2018-04-16 19:56 087林金龙 阅读(141) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup import string import time import datetime import re #获取文章详情 def getNewDetail(newsrrl): #点击次数 def getClic 阅读全文
posted @ 2018-04-10 20:29 087林金龙 阅读(125) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup import string import time import datetime head = {} head['user-agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr... 阅读全文
posted @ 2018-04-02 11:37 087林金龙 阅读(129) 评论(0) 推荐(0) 编辑
摘要: import requests import re from bs4 import BeautifulSoup head = {} head['user-agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' ... 阅读全文
posted @ 2018-03-29 15:33 087林金龙 阅读(84) 评论(0) 推荐(0) 编辑
摘要: import operator import string f=open("a.txt","r") a=f.read() a1=f.read() s=string.punctuation+string.digits for i in s: #标点符号换成空格 a=a.replace(i," ") print(s) print(a) print() print(a.lower()... 阅读全文
posted @ 2018-03-26 11:30 087林金龙 阅读(96) 评论(0) 推荐(0) 编辑