大型数据库 - 随笔分类 - 戈瑾

Exception in thread "main" kafka.zookeeper.ZooKeeperClientTimeoutException: Timed out waiting for connection while in state: CONNECTING

摘要：遇到问题：今天在启动kafka后创建topic时遇到如下错误： [hadoop@node01 kafka_2.11-2.4.1]$ bin/kafka-topics.sh --create --zookeeper node01:2181 --replication-factor 1 --parti 阅读全文

posted @ 2022-03-06 17:17 戈瑾阅读(2237) 评论(0) 推荐(0)

jieba分词与词云图展示

摘要：一、文章分词：主要利用jieba进行分词。首先需要下载相关插件，然后在python下运行分词代码。将分词的结果以及数目存放在数据库中，如图所示：在eclipse编写代码：实体层： Dao层： Servlet层：界面渲染云图：结果展示：二、选择某一类文章，绘制该类型新闻文章词云图，例如汽阅读全文

posted @ 2021-12-13 08:04 戈瑾阅读(169) 评论(0) 推荐(0)

中文新闻分词——导入与统计

摘要：1、数据导入展示（1）将excel导入到navicat中（2）在eclispe中编写代码：实体层封装新闻： Dao层实现查找新闻： Servlet层实现界面与后台交互：页面调用框架：结果展示：实现分页： 2、点击查看可看到文章内容： 2、文章统计首先根据sql语句得到每一种类型文章数目阅读全文

posted @ 2021-12-12 20:37 戈瑾阅读(49) 评论(0) 推荐(0)

python数据化中文是方块显示

摘要：遇到问题：用python进行数据可视化展示时，中文却变成了方框问题解决：添加如下代码即可： from pylab import mpl mpl.rcParams['font.sans-serif'] = ['SimHei'] 阅读全文

posted @ 2021-12-10 15:37 戈瑾阅读(486) 评论(0) 推荐(0)

问题：object has no attribute"convert_objects"

摘要：遇到问题：今天用python将object数据转化为float数据时，用代码 df.runtime = df.runtime.convert_objects(convert_numeric=True) df.runtime.describe() 出现如下错误：问题解决：查找资料后发现“.con 阅读全文

posted @ 2021-12-09 14:53 戈瑾阅读(1417) 评论(0) 推荐(0)

新闻树形展示

摘要：一、问题描述将所有类别的新闻导入数据库中。以树形目录形式展示新闻类别，每个树形节点代表新闻分类，选择每个新闻，以列表形式显示新闻标题，点击新闻标题，可以查看详细信息。二、实现 1、将excel导入到navicat中 2、在eclispe中编写代码：实体层封装新闻： 1 public class 阅读全文

posted @ 2021-11-29 22:22 戈瑾阅读(76) 评论(0) 推荐(0)

柱状图实现文章统计

摘要：一、问题描述：统计各个类别的文章总数，以柱状图表示。二、实现（1）首先根据sql语句得到每一种类型文章数目统计，并存放在表中。如下所示：（2）在eclipse中编写代码实现柱状图：实体层： 1 public class BarBean { 2 public String name; 3 4 阅读全文

posted @ 2021-11-28 22:30 戈瑾阅读(154) 评论(0) 推荐(0)

机器学习——决策树

摘要：一、决策树决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。非叶子节点：代表测试的条件，对数据属性的测试分支：代表测试的结果叶子节点：代表分类阅读全文

posted @ 2021-11-17 23:57 戈瑾阅读(93) 评论(0) 推荐(0)

NoSQL和关系数据库的操作比较

摘要：MongoDB数据库操作 1、以管理员身份运行cmd，输入命令：net start MongoDB 2、进入bin命令：E:\user\大型数据库\mongoDB\bin输入mongo 、关闭MongoDB：net stop MongoDB Student文档如下: { “name”: “zhang 阅读全文

posted @ 2021-11-04 11:01 戈瑾阅读(303) 评论(0) 推荐(0)

数据清洗——地域维度

摘要：1、数据导入要求将样表文件中的（AA_GXJSQYDC2019）数据导入HIVE数据仓库中。分别将地域维度表导入数据仓库中。（1）将改名且设置字符集为UTF-8后的文件上传到本地（2）在hive中创建表aa_2019 create table aa_2019( ID String, QA04 阅读全文

posted @ 2021-10-14 14:48 戈瑾阅读(230) 评论(0) 推荐(0)

Hive数据分析（五）

摘要：处理结果入库要求：将上述统计分析的结果数据保存到 mySQL 数据库中。步骤：（1）确定Mysql服务开启正常（2）通过navicat在Mysql中新建表格 create table jichang( day_id varchar(255), sale_nbr varchar(255), c 阅读全文

posted @ 2021-10-13 16:21 戈瑾阅读(249) 评论(0) 推荐(0)

Hive数据分析（四）

摘要：数据分析处理 3、统计每天各个代理商的销售活跃度。要求的输出字段 day_id,sale_nbr, sale_number 日期编号，卖出方代码，交易次数（买入或者卖出均算交易次数）（1）创建表存放每天代理商卖出的活跃度 create table dailishang_mc(day_id str 阅读全文

posted @ 2021-10-12 15:57 戈瑾阅读(340) 评论(0) 推荐(0)

Hive数据分析（三）

摘要：数据分析处理 1、统计每天各个机场的销售数量和销售金额。要求的输出字段 day_id,sale_nbr,,cnt,round 日期编号，卖出方代码，数量，金额（1）、创建jichang表存放信息： create table jichang(day_id string,sale_nbr strin 阅读全文

posted @ 2021-10-11 15:52 戈瑾阅读(253) 评论(0) 推荐(0)

Hive数据分析（二）

摘要：数据清洗：一、要求要求将 day_id 一列中的数值清洗为真实的日期格式，可用字符串表示。数据 1 对应日期 2021-09-01，依次类推，15 对应日期 2021-09-15 二、操作 1、创建表格存放清洗后的数据： create table sales_y(day_id string,s 阅读全文

posted @ 2021-10-10 15:45 戈瑾阅读(306) 评论(0) 推荐(0)

HIVE 数据分析（一）

摘要：数据导入：要求将样表文件中的（sales_sample_20170310）数据导入 HIVE 数据仓库中。 1、启动hadoop： Hadoop.sh start 2、启动hive：先启动元数据服务：hive --service metastore （若使用元数据服务，则直接bin/hive进入阅读全文

posted @ 2021-10-09 15:30 戈瑾阅读(346) 评论(0) 推荐(0)

hive数据导入mysql时出现中文乱码

摘要：hive数据导入mysql时出现中文乱码今天将hive中清洗完的数据导出到mysql时遇到问题：可以发现所有的中文全部变成了乱码。根据网上查找到的教程，步骤如下： 1.在mysql中执行语句： show variables like 'character%'; 看到如下结果： 2、执行以下命令阅读全文

posted @ 2021-10-08 15:18 戈瑾阅读(706) 评论(1) 推荐(1)

beeline 客户端启动失败

摘要：遇到问题： User: hadoop is not allowed to impersonate hadoop (state=08S01,code=0) 解决方法：在hadoop的core-site.xml中添加如下内容，然后重启hadoop，再使用beeline连接即可 <property> < 阅读全文

posted @ 2021-09-28 10:08 戈瑾阅读(297) 评论(0) 推荐(0)

编程实现hadoop相关功能

摘要：1、将HDFS中指定文件的内容输出到终端中； import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.FileSystem; import java 阅读全文

posted @ 2021-09-18 08:04 戈瑾阅读(348) 评论(0) 推荐(0)

HDFS操作

摘要：1、向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，则由用户来指定是追加到原有文件末尾还是覆盖原有的文件； hadoop fs -put test.txt /user 2、从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名； if $(hadoo 阅读全文

posted @ 2021-09-17 09:03 戈瑾阅读(648) 评论(0) 推荐(0)

Hadoop操作

摘要：1、登录Linux系统，启动Hadoop（Hadoop的安装目录为“/usr/local/hadoop”），在HDFS中创建用户目录“/user/hadoop” 命令： hadoop fs -mkdir /user/hadoop/ 2、接着在HDFS的目录“/user/hadoop”下，创建test 阅读全文

posted @ 2021-09-16 21:01 戈瑾阅读(1008) 评论(0) 推荐(1)

随笔分类 - 大型数据库