2018年5月25日
摘要: 开启功能 启动hive 导入文件内容到表docs并查看 显示数据 阅读全文
posted @ 2018-05-25 21:33 121林伟聪 阅读(76) 评论(0) 推荐(0) 编辑
  2018年5月10日
摘要: 1. 用Python编写WordCount程序并提交任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 阅读全文
posted @ 2018-05-10 21:16 121林伟聪 阅读(91) 评论(0) 推荐(0) 编辑
  2018年5月4日
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 LiSI male 26 2015003 Marr 阅读全文
posted @ 2018-05-04 21:25 121林伟聪 阅读(111) 评论(0) 推荐(0) 编辑
  2018年4月27日
摘要: 一、Hadoop提供的Shell命令完成相同任务: 二、 1、向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; 2、从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名; 3、将HDFS中指定文件的 阅读全文
posted @ 2018-04-27 21:56 121林伟聪 阅读(366) 评论(0) 推荐(0) 编辑
  2018年4月24日
摘要: 1.选一个自己感兴趣的主题或网站: 广州地铁官网:http://www.gzmtr.com/ygwm/xwzx/gsxw/ 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云: 4.对文本分析结果进行解释说明: 4.1主要功能:查阅文章内容 4.2 阅读全文
posted @ 2018-04-24 12:36 121林伟聪 阅读(167) 评论(0) 推荐(0) 编辑
  2018年4月16日
摘要: 2. 3. 阅读全文
posted @ 2018-04-16 17:50 121林伟聪 阅读(110) 评论(0) 推荐(0) 编辑
  2018年4月9日
摘要: re.match("(\w)+@(\w{2,4}).[a-z]{3,4}","linweicong@sohu.com")#邮箱 re.match("^(\d){3}-(\d){8}$","321-84124291")#电话 def onclick(url): identify = re.search("_(\d+)/(\d+)",url).group(2) url1 = "htt... 阅读全文
posted @ 2018-04-09 20:35 121林伟聪 阅读(121) 评论(0) 推荐(0) 编辑
  2018年4月2日
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime url="http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res 阅读全文
posted @ 2018-04-02 22:05 121林伟聪 阅读(131) 评论(0) 推荐(0) 编辑
  2018年3月29日
摘要: import requests from bs4 import BeautifulSoup url="http://www.gzcc.cn/html/xygk/xrld/" res = requests.get(url) res.encoding="utf-8" soup = BeautifulSoup(res.text,"html.parser") h1 = soup.h1 a = soup... 阅读全文
posted @ 2018-03-29 17:53 121林伟聪 阅读(117) 评论(0) 推荐(0) 编辑
  2018年3月26日
摘要: dict={}>>> for i in newList1: dict[i]=newList1.count(i) dictList = list(item.items()) dictList.sort(key= lambda x:x[1],reverse=True) [('', 58), ('to', 阅读全文
posted @ 2018-03-26 21:07 121林伟聪 阅读(207) 评论(0) 推荐(0) 编辑