范楚广 - 博客园

Hadoop综合大作业

摘要： 1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。在网上下载英文小说，下载到本地home/hadoop/wc 首先要启动dfs：在user/hadoop/上创建文件夹EnglishWord：上传下载文档到user/hadoop/EnglishWord文阅读全文

posted @ 2018-05-24 18:52 范楚广阅读(158) 评论(0) 推荐(0)

熟悉HBase基本操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-09 11:02 范楚广阅读(106) 评论(0) 推荐(0)

爬虫大作业

摘要：本人选取的主题是电影。本次爬取的网址是电影票房网：http://58921.com/alltime?page=0 一、查看网页结构，我们需要先爬取排行榜中电影的链接可以看到每一电影由'.media-body'装着，所以可以获取其标题连接：进入电影详情界面，查看页面结构可以看出导演是在第二个l 阅读全文

posted @ 2018-04-30 21:04 范楚广阅读(461) 评论(0) 推荐(0)

熟悉常用的HDFS操作

摘要：一、Hadoop提供的Shell命令完成相同任务： 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt，里面可以随意输入一些单词. 2.在本地查看文件位置（ls） 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的inp 阅读全文

posted @ 2018-04-27 20:01 范楚广阅读(897) 评论(0) 推荐(0)

网络爬虫基础练习

摘要： 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器，生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 5.练习：取出h1标签的文本取出a标签的链接取出所有li标签的所有内容取出一条新闻的标题、链阅读全文

posted @ 2018-03-30 21:59 范楚广阅读(140) 评论(0) 推荐(0)

综合练习：词频统计

摘要：一、英文词频统计二、中文词频统计阅读全文

posted @ 2018-03-28 21:59 范楚广阅读(247) 评论(0) 推荐(0)

熟悉常用的Linux操作

摘要：请按要求上机实践如下linux基本命令。 cd命令：切换目录（1）切换到目录 /usr/local cd /usr/local （2）去到目前的上层目录 cd .. （3）回到自己的主文件夹 cd ~ ls命令：查看文件与目录（4）查看目录/usr下所有的文件 ls /usr -a mkdir命阅读全文

posted @ 2018-03-13 17:28 范楚广阅读(235) 评论(0) 推荐(0)

安装virtualbox出现2503、2502的错误提示解决方法

摘要：安装virtualbox右键选择以管理员的身份打开即可阅读全文

posted @ 2018-03-11 17:02 范楚广阅读(2890) 评论(1) 推荐(0)

配置maven环境出现ARP tomcat native library 版本安装跟需求版本不一致时的解决方法An incompatible version xxxx of the APR based Apache Tomcat Native library is installed, while Tomcat requires version xxxx

摘要：此地址下载你所需要的library版本http://archive.apache.org/dist/tomcat/tomcat-connectors/native/ 点击binaries 点win32.zip下载把下载的zip文件名包括扩张名改成你电脑配置环境的tomcat/bin路径下的tomc 阅读全文

posted @ 2018-03-11 16:56 范楚广阅读(1662) 评论(0) 推荐(0)

大数据概述

摘要： 1.大数据有利于我们对一切行为直观化，并精准化，高效化，在面对同样一件事情上，有了大数据，我们可以更精准更高效的预测和判断结果。 2.物联网对应了互联网的感觉和运动神经系统。云计算是互联网的核心硬件层和核心软件层的集合，也是互联网中枢神经系统萌芽。大数据代表了互联网的信息层，是互联网智慧和意识产生的阅读全文

posted @ 2018-03-06 21:43 范楚广阅读(216) 评论(0) 推荐(0)

导航

公告

2018年5月24日

2018年5月9日

2018年4月30日

2018年4月27日

2018年3月30日

2018年3月28日

2018年3月13日

2018年3月11日

2018年3月6日