随笔分类 - 大型数据库
Exception in thread "main" kafka.zookeeper.ZooKeeperClientTimeoutException: Timed out waiting for connection while in state: CONNECTING
摘要:遇到问题: 今天在启动kafka后创建topic时遇到如下错误: [hadoop@node01 kafka_2.11-2.4.1]$ bin/kafka-topics.sh --create --zookeeper node01:2181 --replication-factor 1 --parti
阅读全文
jieba分词与词云图展示
摘要:一、文章分词: 主要利用jieba进行分词。首先需要下载相关插件,然后在python下运行分词代码。 将分词的结果以及数目存放在数据库中,如图所示: 在eclipse编写代码: 实体层: Dao层: Servlet层: 界面渲染云图: 结果展示: 二、选择某一类文章,绘制该类型新闻文章词云图,例如汽
阅读全文
中文新闻分词——导入与统计
摘要:1、数据导入展示 (1)将excel导入到navicat中 (2)在eclispe中编写代码: 实体层封装新闻: Dao层实现查找新闻: Servlet层实现界面与后台交互: 页面调用框架: 结果展示: 实现分页: 2、点击查看可看到文章内容: 2、文章统计 首先根据sql语句得到每一种类型文章数目
阅读全文
python数据化中文是方块显示
摘要:遇到问题: 用python进行数据可视化展示时,中文却变成了方框 问题解决: 添加如下代码即可: from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei']
阅读全文
问题:object has no attribute"convert_objects"
摘要:遇到问题: 今天用python将object数据转化为float数据时,用代码 df.runtime = df.runtime.convert_objects(convert_numeric=True) df.runtime.describe() 出现如下错误: 问题解决: 查找资料后发现“.con
阅读全文
新闻树形展示
摘要:一、问题描述 将所有类别的新闻导入数据库中。以树形目录形式展示新闻类别,每个树形节点代表新闻分类,选择每个新闻,以列表形式显示新闻标题,点击新闻标题,可以查看详细信息。 二、实现 1、将excel导入到navicat中 2、在eclispe中编写代码: 实体层封装新闻: 1 public class
阅读全文
柱状图实现文章统计
摘要:一、问题描述: 统计各个类别的文章总数,以柱状图表示。 二、实现 (1)首先根据sql语句得到每一种类型文章数目统计,并存放在表中。如下所示: (2)在eclipse中编写代码实现柱状图: 实体层: 1 public class BarBean { 2 public String name; 3 4
阅读全文
机器学习——决策树
摘要:一、决策树 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。 非叶子节点:代表测试的条件,对数据属性的测试 分支:代表测试的结果 叶子节点:代表分类
阅读全文
NoSQL和关系数据库的操作比较
摘要:MongoDB数据库操作 1、以管理员身份运行cmd,输入命令:net start MongoDB 2、进入bin命令:E:\user\大型数据库\mongoDB\bin输入mongo 、关闭MongoDB:net stop MongoDB Student文档如下: { “name”: “zhang
阅读全文
数据清洗——地域维度
摘要:1、数据导入 要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。分别将地域维度表导入数据仓库中。 (1)将改名且设置字符集为UTF-8后的文件上传到本地 (2)在hive中创建表aa_2019 create table aa_2019( ID String, QA04
阅读全文
Hive数据分析(五)
摘要:处理结果入库 要求:将上述统计分析的结果数据保存到 mySQL 数据库中。 步骤: (1)确定Mysql服务开启正常 (2)通过navicat在Mysql中新建表格 create table jichang( day_id varchar(255), sale_nbr varchar(255), c
阅读全文
Hive数据分析(四)
摘要:数据分析处理 3、统计每天各个代理商的销售活跃度。 要求的输出字段 day_id,sale_nbr, sale_number 日期编号,卖出方代码,交易次数(买入或者卖出均算交易次数) (1)创建表存放每天代理商卖出的活跃度 create table dailishang_mc(day_id str
阅读全文
Hive数据分析(三)
摘要:数据分析处理 1、统计每天各个机场的销售数量和销售金额。 要求的输出字段 day_id,sale_nbr,,cnt,round 日期编号,卖出方代码,数量,金额 (1)、创建jichang表存放信息: create table jichang(day_id string,sale_nbr strin
阅读全文
Hive数据分析(二)
摘要:数据清洗: 一、要求 要求将 day_id 一列中的数值清洗为真实的日期格式,可用字符串表示。 数据 1 对应日期 2021-09-01,依次类推,15 对应日期 2021-09-15 二、操作 1、创建表格存放清洗后的数据: create table sales_y(day_id string,s
阅读全文
HIVE 数据分析(一)
摘要:数据导入: 要求将样表文件中的(sales_sample_20170310)数据导入 HIVE 数据仓库中。 1、启动hadoop: Hadoop.sh start 2、启动hive: 先启动元数据服务:hive --service metastore (若使用元数据服务,则直接bin/hive进入
阅读全文
hive数据导入mysql时出现中文乱码
摘要:hive数据导入mysql时出现中文乱码 今天将hive中清洗完的数据导出到mysql时遇到问题: 可以发现所有的中文全部变成了乱码。 根据网上查找到的教程,步骤如下: 1.在mysql中执行语句: show variables like 'character%'; 看到如下结果: 2、执行以下命令
阅读全文
beeline 客户端启动失败
摘要:遇到问题: User: hadoop is not allowed to impersonate hadoop (state=08S01,code=0) 解决方法: 在hadoop的core-site.xml中添加如下内容,然后重启hadoop,再使用beeline连接即可 <property> <
阅读全文
编程实现hadoop相关功能
摘要:1、将HDFS中指定文件的内容输出到终端中; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.FileSystem; import java
阅读全文
HDFS操作
摘要:1、向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件; hadoop fs -put test.txt /user 2、从HDFS中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名; if $(hadoo
阅读全文
Hadoop操作
摘要:1、登录Linux系统,启动Hadoop(Hadoop的安装目录为“/usr/local/hadoop”),在HDFS中创建用户目录“/user/hadoop” 命令: hadoop fs -mkdir /user/hadoop/ 2、接着在HDFS的目录“/user/hadoop”下,创建test
阅读全文
浙公网安备 33010602011771号