会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
落霞与孤鹜齐飞
中山桥砖厂搬砖者
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
2019年12月6日
如何评估数据质量?
摘要: 数据质量评估 在做了近一个多月的数据质量评估方案工作,基本实现了从产出原始数据、数据清洗、入库有效数据等阶段,从对质量没有任何概念到实现基本的指标展示,也算是从设计到代码到展示的流程跑通,在一定程度已经能体现公司目前的数据质量 1.为什么做数据质量? 公司数据是从Excel挖掘出来的,不确定性与未知
阅读全文
posted @ 2019-12-06 23:50 夜半钟声到客船
阅读(5307)
评论(0)
推荐(0)
2019年9月18日
java:并发编程-Callable与Future模式
摘要: 自己对线程池的理解: coresize 3 maxsize 5 blockLinkedQuenue 3 当提交的任务在<=3时,创建三个线程干活 大于3时,把任务先加入阻塞式队列,当有空闲的核心线程便去执行他们,队列中的任务执行是实际运行的线程在复用执行 如果后面有提交了很多任务,队列都放不下了,就
阅读全文
posted @ 2019-09-18 23:20 夜半钟声到客船
阅读(836)
评论(0)
推荐(0)
2019年9月2日
kafka的概念
摘要: 1.生产者: 生产者发送消息到broker,有三种确认方式(request.required.acks)acks = 0: producer不会等待broker(leader)发送ack 。因为发送消息网络超时或broker crash(1.Partition的Leader还没有commit消息 2
阅读全文
posted @ 2019-09-02 23:04 夜半钟声到客船
阅读(317)
评论(0)
推荐(0)
2019年8月29日
java的多线程:java安全问题产生的原因与JMM的关系
摘要: 一、多线程产生安全问题 1、Java内存模型 共享内存模型指的就是Java内存模型(简称JMM),JMM决定一个线程对共享变量的写入时,能对另一个线程可见。 从抽象的角度来看,JMM定义了线程和主内存之间的抽象关系: 线程之间的共享变量存储在主内存(main memory)中,每个线程都有一个私有的
阅读全文
posted @ 2019-08-29 00:10 夜半钟声到客船
阅读(503)
评论(0)
推荐(0)
2019年8月28日
java的多线程:线程安全问题
摘要: 什么是线程安全? 为什么有线程安全问题? 当多个线程同时共享,同一个全局变量或静态变量,做写的操作时,可能会发生数据冲突问题,也就是线程安全问题。但是做读操作是不会发生数据冲突问题。 抢火车的例子: 一号窗口和二号窗口同时出售火车第九九张,部分火车票会重复出售。 结论发现,多个线程共享同一个全局成员
阅读全文
posted @ 2019-08-28 23:31 夜半钟声到客船
阅读(449)
评论(0)
推荐(0)
2019年8月27日
java的多线程:线程基础
摘要: 1.线程与进程区别 每个正在系统上运行的程序都是一个进程。每个进程包含一到多个线程。线程是一组指令的集合,或者是程序的特殊段,它可以在程序里独立执行。也可以把它理解为代码运行的上下文。所以线程基本上是轻量级的进程,它负责在单个程序里执行多任务。通常由操作系统负责多个线程的调度和执行。 使用线程可以把
阅读全文
posted @ 2019-08-27 00:13 夜半钟声到客船
阅读(150)
评论(0)
推荐(0)
2019年8月7日
相似度计算方法
摘要: 1.余弦相似度 在平面系 a向量与b向量的夹角越小,说明相似度越大,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 在三维也是一个道理(x,y,z)确定的一点与点(a,b,c)一点的夹角 高中学过向量a与向量b的乘积定义为: 所以两者的夹角为 cos=a*b/|a
阅读全文
posted @ 2019-08-07 21:03 夜半钟声到客船
阅读(1506)
评论(0)
推荐(0)
推荐系统学习
摘要: 1.两种相似度的定义: •User-Based CF 计算user与user的相似度矩阵 –用户喜欢那些跟他有相似爱好的用户喜欢的东西 基于用户相似度:用户对同一商品进行购买与评分,评分越高则喜欢程度越高,进行相似度计算,后续可推荐相似用户买过的商品 •Item-Based CF 计算item-it
阅读全文
posted @ 2019-08-07 00:44 夜半钟声到客船
阅读(229)
评论(0)
推荐(0)
2019年7月24日
数仓学习1
摘要: 通常说的大数据平台主要包括三部分: 数据相关的工具、产品和技术: – 批量数据采集传输sqoop,spark – 离线数据处理Hadoop,Hive,Spark – 实时流处理Storm,Spark Streaming,Flink • 数据资产: – 公司业务本身产生和沉淀的数据 – 公司运作产生的
阅读全文
posted @ 2019-07-24 23:54 夜半钟声到客船
阅读(333)
评论(0)
推荐(0)
2019年7月17日
maven打包 依赖jar与不依赖jar
摘要: ?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3.
阅读全文
posted @ 2019-07-17 22:04 夜半钟声到客船
阅读(4279)
评论(1)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
14
下一页
公告