2019 年 5月随笔档案 - bioamin

hive学习08天-map及reduce共有几次排序

摘要：题目1：计算用户发过多少朋友圈、获得多少点赞用你擅长的语言计算，数据如下： T1：10w行数据 uid(用户id) log_id(日记id) uid1 log_id1 uid1 log_id2 uid2 log_id3 ... ... T2：1000w行数据，注：没有被点赞的日记不记录 log_i 阅读全文

posted @ 2019-05-31 20:27 bioamin 阅读(550) 评论(0) 推荐(0)

spark学习第一天-词频统计demo

摘要：依赖： <properties> <scala.version>2.11.12</scala.version> <spark.version>2.3.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.sc 阅读全文

posted @ 2019-05-31 17:18 bioamin 阅读(434) 评论(0) 推荐(0)

hive学习02天-访问次数统计

摘要：hive的写法和sql类似，却又有一点不一样，本次采用模拟数据编写hql统计访问次数：求出当月的访问次数，截至当月前的每个月最大访问次数、截至当月前每个用户总的访问次数。数据表如下 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-0 阅读全文

posted @ 2019-05-31 00:13 bioamin 阅读(1334) 评论(0) 推荐(0)

Hive学习01-快速了解hive以及常见的面试问题

摘要：cloudera公司发行的CDH中 hive的有三种角色：gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接默认端口hive server2 主要用于jdbc连接（很多bi产品都靠jdbc连接，比如hue，帆软等软件）ga 阅读全文

posted @ 2019-05-31 00:09 bioamin 阅读(772) 评论(0) 推荐(0)

hive学习07-常见的优化

摘要：基础每天学习： 1.行转列： case ... when ...then....else ...end as xxx 2. “fields terminated by”：字段与字段之间的分隔符。“collection items terminated by”：一个字段中各个子元素 item 的分隔符阅读全文

posted @ 2019-05-30 23:33 bioamin 阅读(252) 评论(0) 推荐(0)

hive学习06-youtube数据集

摘要：hive练习第6天 1.hive基础：order by，sort by，distribute by，cluster by order by 全局排序所有的map结果提交至一个reduce里，如果在严格模式下，order by 需要指定 limit 数据条数，不然数据量巨大的情况下会造成崩溃无输出阅读全文

posted @ 2019-05-30 23:15 bioamin 阅读(642) 评论(1) 推荐(0)

hadoop 常见的运维命令 hdfs fsck

摘要：hadoop2.x主要分为hdfs和yarn 与hdfs上相关的角色：namenode（高可用情况下有2个）、datanode（若干个）、journal node（奇数个，一般为3个，用于高可用集群故障转移）、Failover Controller （这个角色向下监控name node，向上向zoo 阅读全文

posted @ 2019-05-26 18:36 bioamin 阅读(1360) 评论(0) 推荐(0)

nohup 后台运行 & 运行情况分析

摘要：nohup命令与& nobup投递的程序关闭shell页面，程序终止；ctrl+c不终止命令+&，这种类型投递的命令关闭页面程序不终止、ctrl+c终止最好的办法就是nohup +commond+& 阅读全文

posted @ 2019-05-26 18:17 bioamin 阅读(638) 评论(0) 推荐(0)

算法学习02天nlp之TF-IDF

摘要：首先我也不知道这个练习有什么用，就是玩一玩，很多东西都是不知道有啥用，玩玩或许就有用了，开心就好。今天看到大家发的马总的一个朋友圈截图：腾讯成立之初就是为了做一个好的产品，不是为了赚钱。哈哈哈哈哈哈哈 TF-IDF（term frequency–inverse document frequency）阅读全文

posted @ 2019-05-26 17:35 bioamin 阅读(314) 评论(0) 推荐(0)

kylin 密码修改

摘要：一、生成密码的密文： 1、利用别人的轮子，生成一个： 2、自己造一个轮子： pop.xml添加依赖： <dependency> <groupId>org.springframework.security</groupId> <artifactId>spring-security-core</ar 阅读全文

posted @ 2019-05-24 13:19 bioamin 阅读(1854) 评论(0) 推荐(0)

kylin报错： failed on local exception: org.apache.hadoop.hbase.ipc.CallTimeoutException : Call id=xxxxx waitTime=xxxxx,operationTimeout = 5000 expired

摘要：一个不写代码的码农不是好码农 emm 可是这么多好的分析工具呢背景：cdh5.15.1 redhat7.3 kylin2.5 目前kylin运行过程中有1个报错：第一个报错：failed on local exception: org.apache.hadoop.hbase.ipc.CallTi 阅读全文

posted @ 2019-05-22 18:57 bioamin 阅读(4398) 评论(2) 推荐(1)

kafka 练习

摘要：启动创建topic ./kafka-topics.sh --create --zookeeper dip005:2181,dip006:2181,dip007 --replication-factor 1 --partitions 1 --topic test2 ./kafka-topics.sh 阅读全文

posted @ 2019-05-22 18:22 bioamin 阅读(268) 评论(0) 推荐(0)

hdfs 3备份 2备份

摘要：记录一次hdfs磁盘满了的非常规操作研发环境最近压测一个东西，导了一个月的数据，3备份，对数据进行一些加工后，数据量直接把hdfs压满了。我的天，太恐怖了，和领导请示后，给集群解压（咱们也没办法呀，资源不够）怎么解压呢？首先通过cdh的hdfs的配置选项：将dfs.replication由3改阅读全文

posted @ 2019-05-22 15:14 bioamin 阅读(1674) 评论(2) 推荐(0)

nlp 电商评论处理 -史诗级长文

摘要：#auther bioamin #nlp of 电商评论 #-*- conding = utf-8 -*- import numpy as np import pandas as pd #画图的包 import matplotlib.pyplot as plt import seaborn as s 阅读全文

posted @ 2019-05-07 21:00 bioamin 阅读(1264) 评论(0) 推荐(0)

调用百度OCR模块进行文字识别

摘要：1.登录百度云平台，创建应用 2.编写代码 from aip import AipOcr import codecs import os #读取图片函数 def ocr(path): with open(path,'rb') as f: return f.read() def main(): fil 阅读全文

posted @ 2019-05-07 17:24 bioamin 阅读(2828) 评论(0) 推荐(0)

简单的社交网络

摘要：1.四个文件 cat A.关系图.xlsx Source Target Weight A B 6 A C 6 A D 7 A E 7 A F 6 A G 5 A H 5 A I 3 A J 6 cat B.关系图.xlsx Source Target Weight B C 7 B D 7 B E 5 阅读全文

posted @ 2019-05-06 21:06 bioamin 阅读(558) 评论(0) 推荐(0)

module 'networkx' has no attribute 'from_pandas_dataframe'

摘要：使用networkx.rom_pandas_dataframe()报错：改正：使用networkx.from_pandas_edgelist 阅读全文

posted @ 2019-05-06 18:54 bioamin 阅读(2014) 评论(0) 推荐(0)

jieba分词以及wordcloud词云

摘要：1.从网上下载一份天龙八部的txt文档以及一份通用的jieba停用词表 2.下载一个背景图片.jpg 3.检查一个字体文件 C:/Windows/Fonts/simsun.ttc # -*- coding:utf-8 -*- import jieba import jieba.analyse f 阅读全文

posted @ 2019-05-06 17:32 bioamin 阅读(1454) 评论(0) 推荐(0)

bioamin

追寻创业的梦想

05 2019 档案

公告