090伍明航 - 博客园

2018年5月

摘要： 1·开启服务，打开文件夹 2·查看目录下所有文件夹（3）增加hdfs文件系统中文件夹里的文本文件。 4·进入LIVE，查看所有文件夹 5·创建表WORD,写HIVE QL语句 6·运行结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。将数据以cs 阅读全文

posted @ 2018-05-28 20:16 090伍明航阅读(134) 评论(0) 推荐(0)

理解MapReduce

摘要： 1、用Python编写WordCount程序并提交任务程序WordCount输入一个包含大量单词的文本文件输出编写map函数；reduce函数 2、将其权限修改 3、查看本机代码文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔 4、放到H 阅读全文

posted @ 2018-05-10 21:48 090伍明航阅读(113) 评论(0) 推荐(0)

熟悉常用的HBase操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-04 20:33 090伍明航阅读(119) 评论(0) 推荐(0)

2018年4月

第三章熟悉常用HDFS操作

摘要： 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt，里面可以随意输入一些单词. 2.在本地查看文件位置（ls） 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6 阅读全文

posted @ 2018-04-27 20:56 090伍明航阅读(312) 评论(0) 推荐(0)

爬虫大作业

摘要：文本生成阅读全文

posted @ 2018-04-24 18:01 090伍明航阅读(221) 评论(0) 推荐(0)

数据结构化与保存

摘要： 2 将新闻数据结构转化为字典列表import pandas import requests import re from bs4 import BeautifulSoup from datetime import datetime def writeNewsDatail(content): f=open('gzccnews1.txt','a',encoding='utf-8') ... 阅读全文

posted @ 2018-04-17 19:44 090伍明航阅读(148) 评论(0) 推荐(0)

使用正则表达式，取得点击次数，函数抽离

摘要： 1、用正则表达式判断邮箱输入是否正确 2、用正则表达式识别出全部电话号码 3、用正则表达式进行英文分词 4、用正则表达式获取新闻编号 5、生成点击次数的request.URL 6、获取点击次数 7、阅读全文

posted @ 2018-04-11 21:11 090伍明航阅读(172) 评论(0) 推荐(0)

爬取校园新闻首页的新闻

摘要： 1. 用requests库和BeautifulSoup库，爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串，获取每篇新闻的发布时间，作者，来源，摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。阅读全文

posted @ 2018-04-03 20:31 090伍明航阅读(272) 评论(0) 推荐(0)

2018年3月

网络爬虫基本练习

摘要： 1：取出hi标签的文本 2、取出a标签链接 3、取出li标签的所有内容 4、取出新闻链接，发布时间，来源，标题阅读全文

posted @ 2018-03-29 17:00 090伍明航阅读(155) 评论(0) 推荐(0)

综合练习：词频统计

摘要： f = open('C:\\Users\\Administrator\\Desktop\\14.txt', 'r', encoding='utf-8') a = f.read() d = {} h = '''.'!?:,''' D = ['the', 'and', 'a'] for j in h: 阅读全文

posted @ 2018-03-26 11:39 090伍明航阅读(149) 评论(0) 推荐(0)

公告