2018年5月25日

摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文本文件load进去。 (4)进入hive,并查看所有的表 (5)创建表word,,写hiveQL命令 阅读全文
posted @ 2018-05-25 21:47 181冯荣彬 阅读(101) 评论(0) 推荐(0) 编辑

2018年5月16日

摘要: 通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 好文要顶 关注我 收藏该文 好文要顶 关注我 收藏该文 阅读全文
posted @ 2018-05-16 21:58 181冯荣彬 阅读(88) 评论(0) 推荐(0) 编辑

2018年5月9日

摘要: 编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) 解压数据集,并保存在文本文 阅读全文
posted @ 2018-05-09 21:50 181冯荣彬 阅读(134) 评论(0) 推荐(0) 编辑

2018年5月8日

摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-08 20:57 181冯荣彬 阅读(92) 评论(0) 推荐(0) 编辑

2018年4月30日

摘要: # -*- coding: UTF-8 -*-# -*- import requests import re import jieba import locale locale=locale.setlocale(locale.LC_CTYPE, 'chinese') from bs4 import 阅读全文
posted @ 2018-04-30 19:50 181冯荣彬 阅读(151) 评论(0) 推荐(0) 编辑

2018年4月12日

摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')... 阅读全文
posted @ 2018-04-12 20:44 181冯荣彬 阅读(110) 评论(0) 推荐(0) 编辑

2018年4月9日

摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re res = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding = 'utf-8' soup = BeautifulSoup(res.te... 阅读全文
posted @ 2018-04-09 20:25 181冯荣彬 阅读(109) 评论(0) 推荐(0) 编辑

2018年3月29日

摘要: import requests from bs4 import BeautifulSoup res = requests.get('https://www.bilibili.com/') res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') # 取出h1标签的文本 for h1 in soup.find_all... 阅读全文
posted @ 2018-03-29 20:58 181冯荣彬 阅读(115) 评论(0) 推荐(0) 编辑

2018年3月28日

摘要: import jieba file=open('pingfandeshijie','r',encoding = 'utf-8') wordList=list(jieba.cut(file.read()))wordDict={}for word in wordList: if(len(word)==1 阅读全文
posted @ 2018-03-28 21:53 181冯荣彬 阅读(85) 评论(0) 推荐(0) 编辑

2018年3月15日

摘要: # -*- coding:utf-8 -*- from turtle import * def mygoto(x,y): up() goto(x,y) down() def drawStar(r): begin_fill() for i in range(5): forward(r) right(144) end_f... 阅读全文
posted @ 2018-03-15 21:25 181冯荣彬 阅读(88) 评论(0) 推荐(0) 编辑

导航