2018年5月24日

摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 在网上下载英文小说,下载到本地home/hadoop/wc 首先要启动dfs: 在user/hadoop/上创建文件夹EnglishWord: 上传下载文档到user/hadoop/EnglishWord文 阅读全文
posted @ 2018-05-24 18:52 范楚广 阅读(150) 评论(0) 推荐(0) 编辑

2018年5月9日

摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-09 11:02 范楚广 阅读(97) 评论(0) 推荐(0) 编辑

2018年4月30日

摘要: 本人选取的主题是电影。 本次爬取的网址是电影票房网:http://58921.com/alltime?page=0 一、查看网页结构,我们需要先爬取排行榜中电影的链接 可以看到每一电影由'.media-body'装着,所以可以获取其标题连接: 进入电影详情界面,查看页面结构 可以看出导演是在第二个l 阅读全文
posted @ 2018-04-30 21:04 范楚广 阅读(438) 评论(0) 推荐(0) 编辑

2018年4月27日

摘要: 一、Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的inp 阅读全文
posted @ 2018-04-27 20:01 范楚广 阅读(878) 评论(0) 推荐(0) 编辑

2018年3月30日

摘要: 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 5.练习: 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出一条新闻的标题、链 阅读全文
posted @ 2018-03-30 21:59 范楚广 阅读(133) 评论(0) 推荐(0) 编辑

2018年3月28日

摘要: 一、英文词频统计 二、中文词频统计 阅读全文
posted @ 2018-03-28 21:59 范楚广 阅读(212) 评论(0) 推荐(0) 编辑

2018年3月13日

摘要: 请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr -a mkdir命 阅读全文
posted @ 2018-03-13 17:28 范楚广 阅读(221) 评论(0) 推荐(0) 编辑

2018年3月11日

摘要: 安装virtualbox右键选择以管理员的身份打开即可 阅读全文
posted @ 2018-03-11 17:02 范楚广 阅读(2733) 评论(1) 推荐(0) 编辑
 
摘要: 此地址下载你所需要的library版本http://archive.apache.org/dist/tomcat/tomcat-connectors/native/ 点击binaries 点win32.zip下载 把下载的zip文件名包括扩张名改成你电脑配置环境的tomcat/bin路径下的tomc 阅读全文
posted @ 2018-03-11 16:56 范楚广 阅读(1620) 评论(0) 推荐(0) 编辑

2018年3月6日

摘要: 1.大数据有利于我们对一切行为直观化,并精准化,高效化,在面对同样一件事情上,有了大数据,我们可以更精准更高效的预测和判断结果。 2.物联网对应了互联网的感觉和运动神经系统。云计算是互联网的核心硬件层和核心软件层的集合,也是互联网中枢神经系统萌芽。大数据代表了互联网的信息层,是互联网智慧和意识产生的 阅读全文
posted @ 2018-03-06 21:43 范楚广 阅读(194) 评论(0) 推荐(0) 编辑