2018 年 4月随笔档案 - 悟法悟天

大数据的统计 etl

摘要：把数据打散，然后再不断上卷 etl: 上卷下钻上卷的过程不能跨度太大，否则一个group的计算中数据量太大，这时候可以分几步进行group 阅读全文

posted @ 2018-04-27 23:07 悟法悟天阅读(392) 评论(0) 推荐(0)

指示函数 indicator

摘要：I{true} = 1 I{false} = 0 I表示indicator 符号函数是指示函数的一种特例阅读全文

posted @ 2018-04-25 11:10 悟法悟天阅读(2123) 评论(0) 推荐(0)

数学

摘要：用几何图形来加深对函数的理解，坐标系一般在计算中，一个向量是用一个竖的1列矩阵来表示的如果需要横过来，需要做个转置阅读全文

posted @ 2018-04-20 10:33 悟法悟天阅读(139) 评论(0) 推荐(0)

朴素贝叶斯分类和拉普拉斯平滑(拉普拉斯处理 laplace smoothing)

posted @ 2018-04-20 10:04 悟法悟天阅读(5953) 评论(1) 推荐(0)

判别式和生成式

摘要：判别式：计算 p(y|x) 生成式：计算 p(x|y) 给定类目，生成特征的概率阅读全文

posted @ 2018-04-18 13:09 悟法悟天阅读(219) 评论(0) 推荐(0)

避免成为井底之蛙

摘要：多看看行业领先者前人合作伙伴竞争对手做的怎么样阅读全文

posted @ 2018-04-17 11:39 悟法悟天阅读(174) 评论(0) 推荐(0)

机器学习之最优化问题

摘要：求偏导的线性方程解和梯度下降，都是求极值的两个方法阅读全文

posted @ 2018-04-13 23:38 悟法悟天阅读(167) 评论(0) 推荐(0)

机器学习之算法学习

摘要：在看懂了之后，再盖上书，自己推导一遍公式，才算真正地懂了这个算法——andrew NG 阅读全文

posted @ 2018-04-13 23:37 悟法悟天阅读(97) 评论(0) 推荐(0)

机器学习之模型评估(损失函数的选择)

摘要：线性回归：可以用损失函数来评估模型，这个损失函数可以选择平方损失函数，将所有样本的x和y代入，只要损失函数最小，那么得到的参数就是模型参数逻辑回归：可以使用似然概率来评估模型，将所有样本的x和y代入，只要这个似然概率最大，那么得到的参数，就是模型参数也可以理解为，其实概率模型不是用损失阅读全文

posted @ 2018-04-13 13:24 悟法悟天阅读(2207) 评论(0) 推荐(0)

机器学习之二分类

摘要：二分类问题可以解决很多问题，而不是只是类似分类为男，还是女，高或矮可以是逻辑判断：是或否，0或1 比如是不是会6个月后换房子，是不是会泡妞成功这能表示各种情况这些情况下，样本空间的y，是6个月后换房子或者6个月后没换房子是泡妞成功，或者没泡妞成功，等等所以逻辑回归为什么是一种分阅读全文

posted @ 2018-04-13 12:46 悟法悟天阅读(802) 评论(0) 推荐(0)

机器学习之模型

摘要：相同的特征，可以选择不同的模型可以是线性模型比如y = b + wx，可以是曲线模型 y = b + w1x + w2x平方阅读全文

posted @ 2018-04-12 22:35 悟法悟天阅读(165) 评论(0) 推荐(0)

数学小记

摘要：数学是一种工具，也是一种思维，时间空间的抽象 n维空间，每一点都是对应一个数据坐标轴以及图形让函数变得形象，更生动，更迷人映射可以将数据从一个空间转换到另一个空间，甚至可以将时间抹去(时域频域) 各种定理，定义，公理，引理，法则都是一种约定，前人证明，后人可以享用的财富问题求解，公式证明阅读全文

posted @ 2018-04-12 10:24 悟法悟天阅读(278) 评论(0) 推荐(0)

很多问题的解决都是从简单的方式入手不断优化的

摘要：rt 阅读全文

posted @ 2018-04-11 09:55 悟法悟天阅读(110) 评论(0) 推荐(0)

哪里可以知道有哪些最新的论文？

摘要：rt 尤其是机器学习相关的论坛，知乎，大V，top公司，会议，论文网站还有别的？阅读全文

posted @ 2018-04-11 09:54 悟法悟天阅读(222) 评论(0) 推荐(0)

word2vec和one-hot

摘要：相比与bow(bag of word)，两个都是特征的降维， bow 每个词是一个文档向量中的一维而one hot是一个词本身是一个向量(一维是1，其他是0)，不同词之间的区别是1的位置不同，但是1的位置不表示实际意义而word2vec中，每个词用一个实数向量表示，语义相近的词的向量夹角余弦相似阅读全文

posted @ 2018-04-11 00:12 悟法悟天阅读(1486) 评论(0) 推荐(0)

机器学习中的降维

摘要：有两种降维一种是一个向量的维度太多了，减少维度另一种是把一个词用一个向量表示，相当于降低了一层维度这样语义相近的词，能用向量的相似度计算出来阅读全文

posted @ 2018-04-11 00:03 悟法悟天阅读(170) 评论(0) 推荐(0)

关于网络抖动

摘要：抖动就是响应时间时长时短 redis如果写并发量太大？？ hbase抖动是因为region要split和hfile的compact等？？阅读全文

posted @ 2018-04-08 22:11 悟法悟天阅读(748) 评论(0) 推荐(0)

高可用，高吞吐，低延迟

摘要：高可用ha：就是系统不会因为某台机器，或某个实例挂了，就不能提供服务了，提供了分布式，以及主备自动切换等 https://baike.baidu.com/item/%E9%AB%98%E5%8F%AF%E7%94%A8%E6%80%A7/909038?fr=aladdin 一个高可用系统中，所有组件阅读全文

posted @ 2018-04-08 14:07 悟法悟天阅读(528) 评论(0) 推荐(0)

aws 计费查询

摘要：https://console.aws.amazon.com/billing/home /bills?year=2018&month=4 在账单里有服务明细然后在服务tab里找到对应服务类型，里面有具体的实例阅读全文

posted @ 2018-04-04 10:23 悟法悟天阅读(372) 评论(0) 推荐(0)

头脑风暴

04 2018 档案

公告