机器学习
    
            
摘要:Mitchell对机器学习的定义:一个计算机程序,它在某一个task里面,根据以前的经验experience,可以通过计算来提高performance。总结一下就是:在一定的场景里面,我们定义一个指标,如果我们有标记好的数据,也就是样本,然后通过计算得到一个模型。模型的输入是样本,输出是预测的概率。
        
阅读全文
                posted @ 
2020-01-08 10:16 
凌度
        
阅读(322) 
         
        推荐(0)     
             
            
            
    数据仓库和数据湖
    
            
摘要:早期的数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。 数据仓库的设计目标是决策支持。历史的,摘要的,聚合的数据比原始的记录重要的多。查询负
        
阅读全文
                posted @ 
2019-12-18 10:45 
凌度
        
阅读(1288) 
         
        推荐(0)     
             
            
            
    tornado多进程模式不同进程写不同日志
    
            
摘要:#coding: utf-8 ''' Author: Time: Target: ''' import logging import logging.handlers import os import json import tornado.httpserver import tornado.ioloop import tornado.web from tornado.option...
        
阅读全文
                posted @ 
2019-09-26 10:43 
凌度
        
阅读(1031) 
         
        推荐(0)     
             
            
            
    jdbc批量写入
    
            
摘要:jdbc加了rewriteBatchedStatements=true就可以提升很多倍,
        
阅读全文
                posted @ 
2019-09-10 11:40 
凌度
        
阅读(369) 
         
        推荐(0)     
             
            
            
    java查看线程的堆栈信息
    
            
摘要:通过使用jps 命令获取需要监控的进程的pid,然后使用jstack pid 命令查看线程的堆栈信息。 通过jstack 命令可以获取当前进程的所有线程信息。 每个线程堆中信息中,都可以查看到线程ID、线程的状态(wait、sleep、running 等状态)、是否持有锁信息等。
        
阅读全文
                posted @ 
2019-08-29 10:11 
凌度
        
阅读(8492) 
         
        推荐(0)     
             
            
            
    使用MSCK命令修复Hive表分区
    
            
摘要:通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,也可以用这个语句替代执行多条alter语句。
        
阅读全文
                posted @ 
2019-08-19 17:47 
凌度
        
阅读(1601) 
         
        推荐(0)     
             
            
            
    hive匹配中文
    
            
摘要:select regexp_extract('ab中文123测试55。。', '[\u4e00-\u9fa5]+', 0) 只提出成功第一段中文汉字,结果为: 中文 select regexp_replace('ab中文123测试55。。', '[\u4e00-\u9fa5]+', "") 只去掉了
        
阅读全文
                posted @ 
2019-05-22 17:01 
凌度
        
阅读(695) 
         
        推荐(0)     
             
            
            
    Flink开发环境搭建(maven)
    
            
摘要:1、下载scala sdk http://www.scala-lang.org/download/ 直接到这里下载sdk,(https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.msi) 2、下载scala for intellij id
        
阅读全文
                posted @ 
2019-03-01 10:23 
凌度
        
阅读(2457) 
         
        推荐(0)     
             
            
            
    Flink安装部署
    
            
摘要:官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/ops/deployment/cluster_setup.html cd /data1/downloadtar xzf flink-*.tgzcd flink-1.7.2 b
        
阅读全文
                posted @ 
2019-02-28 09:13 
凌度
        
阅读(239) 
         
        推荐(0)     
             
            
            
    合并hive/hdfs小文件
    
            
摘要:磁盘: heads/sectors/cylinders,分别就是磁头/扇区/柱面,每个扇区512byte(现在新的硬盘每个扇区有4K) 文件系统: 文件系统不是一个扇区一个扇区的来读数据,太慢了,所以有了block(块)的概念,它是一个块一个块的读取的,block才是文件存取的最小单位。 文件系统中
        
阅读全文
                posted @ 
2019-01-04 17:20 
凌度
        
阅读(5420) 
         
        推荐(0)     
             
            
            
    NoSql图形数据库
    
            
摘要:NoSQL数据库可以按照它们的数据模型分成4类: 图数据库源起欧拉和图理论,也可称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快
        
阅读全文
                posted @ 
2019-01-02 15:34 
凌度
        
阅读(1163) 
         
        推荐(0)     
             
            
            
    hive数据类型
    
            
摘要:复杂类型包括ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。 ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么我们可以
        
阅读全文
                posted @ 
2017-11-08 15:44 
凌度
        
阅读(1309) 
         
        推荐(0)     
             
            
            
    hive类型转化错误,会错误提示指定分区参数
    
            
摘要:select * from TRAD_LIST t WHERE t.dt >= '2017-10-18' and t.dt <= '2017-11-01' and t.con_level = 'a' -- 这个字段类型是数字 LIMIT 10; FAILED: SemanticException Queries against partitioned tables withou...
        
阅读全文
                posted @ 
2017-11-08 15:16 
凌度
        
阅读(3019) 
         
        推荐(0)     
             
            
            
    hdfs底层存储分隔符
    
            
摘要:'\r'是回车,'\n'是换行,前者使光标到行首,后者使光标下移一格,通常敲一个回车键,即是回车,又是换行(\r\n)。Unix中每行结尾只有“<换行>”,即“\n”;Windows中每行结尾是“<换行><回车>”,即“\n\r”;Mac中每行结尾是“<回车>”。
        
阅读全文
                posted @ 
2017-08-15 17:26 
凌度
        
阅读(1726) 
         
        推荐(0)     
             
            
            
    hive优化
    
            
摘要:USE VECTORIZATION 矢量查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度。可以通过设置 开启来。 具体请参考: [1] https://cwiki.apache.org/conflu
        
阅读全文
                posted @ 
2017-06-15 17:56 
凌度
        
阅读(622) 
         
        推荐(0)     
             
            
            
    hive创建orc表,使用LLAP查询
    
            
摘要:create table if not exists test_orc( name string, age int, address string ) partitioned by (dt string)STORED AS ORC; set hive.execution.engine=tez; se
        
阅读全文
                posted @ 
2017-06-15 17:54 
凌度
        
阅读(2375) 
         
        推荐(0)     
             
            
            
    Hive快捷查询:不启用Mapreduce job启用Fetch task
    
            
摘要:启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hive0.10.0版本开始,对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT n语句,不需要起MapReduce job,直接通过Fetch task获取数据
        
阅读全文
                posted @ 
2017-04-27 09:29 
凌度
        
阅读(261) 
         
        推荐(0)     
             
            
            
    GPU
    
            
摘要:import tensorflow as tf a = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c = tf.matmul(a,b) sess = tf.Session(confi...
        
阅读全文
                posted @ 
2017-04-13 12:02 
凌度
        
阅读(200) 
         
        推荐(0)