网络采集与数据分析1

网络采集与数据分析

#修改云主机host文件,添加内网IP,对应映射名为hadoop000,实现云主机自身使用root用户ssh访问hadoop000免密登陆

vi /etc/hosts

172.18.39.103 hadoop000


#配置免密###############################################################
systemctl stop firewalld
ssh-keygen -t dsa  -P '' -f  ~/.ssh/id_dsa 

cd .ssh
cat id_dsa.pub >> authorized_keys

ssh hadoop000

exit

ssh hadoop000


#2.格式化HDFS文件系统########################################################

hdfs namenode -format


#3.启动Hadoop集群############################################################


#在本机上使用以下指令启动 NameNode 进程:
hadoop-daemon.sh start namenode  
 
 
#在本机上使用以下指令启动 SecondaryNameNode 进程:


hadoop-daemon.sh start secondarynamenode


#脚本一键启动和关闭
start-dfs.sh


#下面二选一

#单节点逐个启动和关闭
yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager


#脚本一键启动和关闭
start-yarn.sh

#4.开启mysql服务###############################################################
#启动MySQL:
systemctl start mysqld.service
#开机自起:
systemctl enable mysqld.service

#查看默认密码得到密码登录:
grep "password" /var/log/mysqld.log

#Lh-q1mk<otA_
#进入mysql,输入默认密码:
mysql -uroot -p


#5.初始化Hive元数据库(数据库类型为mysql),进入Hive客户端,创建hive数据库#########################
schematool -dbType mysql -initSchema

#进入hive库:
hive
#查看数据库:
show databases;

#创建text数据库:
create database hive;

use hive;


#数据分析

#1.创建project数据库
create database project;

#2.project数据库下创建theft数据表,字段见任务说明,分割字符为‘,’
use project;

create table theft(
id string
,case_type string
,case_subtype string
,casename string
,loss string
,case_source string
,time_toplimit timestamp
,time_lowerlimit timestamp
,address string
,accept_time timestamp
,report_time timestamp
)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;

show tables;


#3.使用load data子句加载云主机数据/root/college/theft.csv据至管理表theft




#4.统计2021年5月份发生的案件总数(以报案时间为准),结果写入云主机/root/theft/result01/000000_0文件中

#5.统计2021年4月份经济损失总额(以报案时间为准),结果写入云主机/root/theft/result02/000000_0文件中


#6.查询案发频次最高的地区及对应的案发频次,结果写入云主机/root/theft/result03/000000_0文件中

#7.统计"经济损失"最少的案件副类别,结果写入云主机/root/theft/result04/000000_0文件中

#8.统计在A市C区案件中的各案件损失金额前三的副类别,结果写入云主机/root/theft/result05/000000_0文件中

#9.统计盗窃居民小区车辆案件数,结果写入云主机/root/theft/result06/000000_0文件中

#10.分析2021年6月经济损失最多的案件副类别,结果写入云主机/root/theft/result07/000000_0文件中



posted @ 2023-06-09 23:24  Cuckoo~  阅读(78)  评论(0)    收藏  举报