05 2019 档案

摘要:题目1:计算用户发过多少朋友圈、获得多少点赞 用你擅长的语言计算,数据如下: T1:10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2:1000w行数据,注:没有被点赞的日记不记录 log_i 阅读全文
posted @ 2019-05-31 20:27 bioamin 阅读(550) 评论(0) 推荐(0)
摘要:依赖: <properties> <scala.version>2.11.12</scala.version> <spark.version>2.3.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.sc 阅读全文
posted @ 2019-05-31 17:18 bioamin 阅读(434) 评论(0) 推荐(0)
摘要:hive的写法和sql类似,却又有一点不一样,本次采用模拟数据编写hql统计访问次数: 求出当月的访问次数,截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。 数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0 阅读全文
posted @ 2019-05-31 00:13 bioamin 阅读(1334) 评论(0) 推荐(0)
摘要:cloudera公司发行的CDH中 hive的有三种角色:gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接 默认端口hive server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)ga 阅读全文
posted @ 2019-05-31 00:09 bioamin 阅读(772) 评论(0) 推荐(0)
摘要:基础每天学习: 1.行转列: case ... when ...then....else ...end as xxx 2. “fields terminated by”:字段与字段之间的分隔符。“collection items terminated by”:一个字段中各个子元素 item 的分隔符 阅读全文
posted @ 2019-05-30 23:33 bioamin 阅读(252) 评论(0) 推荐(0)
摘要:hive练习第6天 1.hive基础:order by,sort by,distribute by,cluster by order by 全局排序 所有的map结果提交至一个reduce里,如果在严格模式下,order by 需要指定 limit 数据条数,不然数据量巨大的情况下 会造成崩溃无输出 阅读全文
posted @ 2019-05-30 23:15 bioamin 阅读(642) 评论(1) 推荐(0)
摘要:hadoop2.x主要分为hdfs和yarn 与hdfs上相关的角色:namenode(高可用情况下有2个)、datanode(若干个)、journal node(奇数个,一般为3个,用于高可用集群故障转移)、Failover Controller (这个角色向下监控name node,向上向zoo 阅读全文
posted @ 2019-05-26 18:36 bioamin 阅读(1360) 评论(0) 推荐(0)
摘要:nohup命令与& nobup投递的程序关闭shell页面,程序终止;ctrl+c不终止 命令+&,这种类型投递的命令关闭页面程序不终止、ctrl+c终止 最好的办法就是nohup +commond+& 阅读全文
posted @ 2019-05-26 18:17 bioamin 阅读(638) 评论(0) 推荐(0)
摘要:首先我也不知道这个练习有什么用,就是玩一玩,很多东西都是不知道有啥用,玩玩或许就有用了,开心就好。今天看到大家发的马总的一个朋友圈截图:腾讯成立之初就是为了做一个好的产品,不是为了赚钱。哈哈哈哈哈哈哈 TF-IDF(term frequency–inverse document frequency) 阅读全文
posted @ 2019-05-26 17:35 bioamin 阅读(314) 评论(0) 推荐(0)
摘要:一、 生成密码的密文: 1、利用别人的轮子,生成一个 : 2、自己造一个轮子: pop.xml添加依赖: <dependency> <groupId>org.springframework.security</groupId> <artifactId>spring-security-core</ar 阅读全文
posted @ 2019-05-24 13:19 bioamin 阅读(1854) 评论(0) 推荐(0)
摘要:一个不写代码的码农不是好码农 emm 可是这么多好的分析工具呢 背景:cdh5.15.1 redhat7.3 kylin2.5 目前kylin运行过程中有1个报错: 第一个报错:failed on local exception: org.apache.hadoop.hbase.ipc.CallTi 阅读全文
posted @ 2019-05-22 18:57 bioamin 阅读(4398) 评论(2) 推荐(1)
摘要:启动 创建topic ./kafka-topics.sh --create --zookeeper dip005:2181,dip006:2181,dip007 --replication-factor 1 --partitions 1 --topic test2 ./kafka-topics.sh 阅读全文
posted @ 2019-05-22 18:22 bioamin 阅读(268) 评论(0) 推荐(0)
摘要:记录一次hdfs磁盘满了的非常规操作 研发环境最近压测一个东西,导了一个月的数据,3备份,对数据进行一些加工后,数据量直接把hdfs压满了。 我的天,太恐怖了,和领导请示后,给集群解压(咱们也没办法呀,资源不够) 怎么解压呢?首先通过cdh的hdfs的配置选项:将dfs.replication由3改 阅读全文
posted @ 2019-05-22 15:14 bioamin 阅读(1674) 评论(2) 推荐(0)
摘要:#auther bioamin #nlp of 电商评论 #-*- conding = utf-8 -*- import numpy as np import pandas as pd #画图的包 import matplotlib.pyplot as plt import seaborn as s 阅读全文
posted @ 2019-05-07 21:00 bioamin 阅读(1264) 评论(0) 推荐(0)
摘要:1.登录百度云平台,创建应用 2.编写代码 from aip import AipOcr import codecs import os #读取图片函数 def ocr(path): with open(path,'rb') as f: return f.read() def main(): fil 阅读全文
posted @ 2019-05-07 17:24 bioamin 阅读(2828) 评论(0) 推荐(0)
摘要:1.四个文件 cat A.关系图.xlsx Source Target Weight A B 6 A C 6 A D 7 A E 7 A F 6 A G 5 A H 5 A I 3 A J 6 cat B.关系图.xlsx Source Target Weight B C 7 B D 7 B E 5 阅读全文
posted @ 2019-05-06 21:06 bioamin 阅读(558) 评论(0) 推荐(0)
摘要:使用networkx.rom_pandas_dataframe()报错:改正:使用networkx.from_pandas_edgelist 阅读全文
posted @ 2019-05-06 18:54 bioamin 阅读(2014) 评论(0) 推荐(0)
摘要:1.从网上下载一份 天龙八部的txt文档以及一份通用的jieba停用词表 2.下载一个背景 图片.jpg 3.检查一个字体文件 C:/Windows/Fonts/simsun.ttc # -*- coding:utf-8 -*- import jieba import jieba.analyse f 阅读全文
posted @ 2019-05-06 17:32 bioamin 阅读(1454) 评论(0) 推荐(0)