04 2018 档案

摘要:把数据打散,然后 再不断上卷 etl: 上卷 下钻 上卷的过程不能跨度太大,否则一个group的计算中数据量太大, 这时候可以分几步进行group 阅读全文
posted @ 2018-04-27 23:07 悟法悟天 阅读(392) 评论(0) 推荐(0)
摘要:I{true} = 1 I{false} = 0 I表示indicator 符号函数是指示函数的一种特例 阅读全文
posted @ 2018-04-25 11:10 悟法悟天 阅读(2123) 评论(0) 推荐(0)
摘要:用几何图形来加深对函数的理解,坐标系 一般在计算中,一个向量是用一个竖的1列矩阵 来表示的 如果需要横过来,需要做个转置 阅读全文
posted @ 2018-04-20 10:33 悟法悟天 阅读(139) 评论(0) 推荐(0)
摘要:朴素贝叶斯分类是一种生成式分类 p(y|x) = p(y,x) / p(x) =p(x|y) p(y) | p(x) 在训练的时候假设x的所有特征是相互独立的,所以p(x|y) = 所有p(xi | y) 的乘积 只要通过贝叶斯展开+有xi独立 就能得到 这个模型里的参数就是,给定y这个条件下,生成 阅读全文
posted @ 2018-04-20 10:04 悟法悟天 阅读(5953) 评论(1) 推荐(0)
摘要:判别式:计算 p(y|x) 生成式:计算 p(x|y) 给定类目,生成特征的概率 阅读全文
posted @ 2018-04-18 13:09 悟法悟天 阅读(219) 评论(0) 推荐(0)
摘要:多看看 行业领先者 前人 合作伙伴 竞争对手 做的怎么样 阅读全文
posted @ 2018-04-17 11:39 悟法悟天 阅读(174) 评论(0) 推荐(0)
摘要:求偏导的线性方程解和梯度下降,都是求极值的两个方法 阅读全文
posted @ 2018-04-13 23:38 悟法悟天 阅读(167) 评论(0) 推荐(0)
摘要:在看懂了之后,再盖上书,自己推导一遍公式,才算真正地懂了这个算法——andrew NG 阅读全文
posted @ 2018-04-13 23:37 悟法悟天 阅读(97) 评论(0) 推荐(0)
摘要:线性回归: 可以用损失函数来评估模型,这个损失函数可以选择平方损失函数, 将所有样本的x和y代入, 只要损失函数最小,那么得到的参数就是模型参数 逻辑回归: 可以使用似然概率来评估模型,将所有样本的x和y代入, 只要这个似然概率最大,那么得到的参数,就是模型参数 也可以理解为,其实概率模型不是用损失 阅读全文
posted @ 2018-04-13 13:24 悟法悟天 阅读(2207) 评论(0) 推荐(0)
摘要:二分类问题可以解决很多问题, 而不是只是类似 分类为男,还是女,高或矮 可以是逻辑判断:是或否,0或1 比如 是不是 会6个月后换房子, 是不是会泡妞成功 这能表示各种情况 这些情况下,样本空间的y,是6个月后换房子 或者6个月后没换房子 是泡妞成功,或者没泡妞成功,等等 所以逻辑回归为什么是一种分 阅读全文
posted @ 2018-04-13 12:46 悟法悟天 阅读(802) 评论(0) 推荐(0)
摘要:相同的特征,可以选择不同的模型 可以是线性模型比如y = b + wx,可以是曲线模型 y = b + w1x + w2x平方 阅读全文
posted @ 2018-04-12 22:35 悟法悟天 阅读(165) 评论(0) 推荐(0)
摘要:数学是一种工具,也是一种思维,时间空间的抽象 n维空间,每一点都是对应一个数据 坐标轴以及图形 让 函数变得形象,更生动,更迷人 映射可以将数据从一个空间转换到另一个空间,甚至可以将时间抹去(时域频域) 各种定理,定义,公理,引理,法则都是一种约定,前人证明,后人可以享用的财富 问题求解,公式证明 阅读全文
posted @ 2018-04-12 10:24 悟法悟天 阅读(278) 评论(0) 推荐(0)
摘要:rt 阅读全文
posted @ 2018-04-11 09:55 悟法悟天 阅读(110) 评论(0) 推荐(0)
摘要:rt 尤其是机器学习相关的 论坛,知乎,大V,top公司,会议,论文网站 还有别的? 阅读全文
posted @ 2018-04-11 09:54 悟法悟天 阅读(222) 评论(0) 推荐(0)
摘要:相比与bow(bag of word),两个都是特征的降维, bow 每个词是一个文档向量中的一维 而one hot是一个词本身是一个向量(一维是1,其他是0),不同词之间的区别是1的位置不同,但是1的位置不表示实际意义 而word2vec中,每个词用一个实数向量表示,语义相近的词的向量夹角余弦相似 阅读全文
posted @ 2018-04-11 00:12 悟法悟天 阅读(1486) 评论(0) 推荐(0)
摘要:有两种降维 一种是一个向量的维度太多了,减少维度 另一种是 把一个词用一个向量表示,相当于降低了一层维度 这样语义相近的词,能用向量的相似度 计算出来 阅读全文
posted @ 2018-04-11 00:03 悟法悟天 阅读(170) 评论(0) 推荐(0)
摘要:抖动就是响应时间时长时短 redis如果写并发量太大?? hbase抖动是因为region要split和hfile的compact等?? 阅读全文
posted @ 2018-04-08 22:11 悟法悟天 阅读(748) 评论(0) 推荐(0)
摘要:高可用ha:就是系统不会因为某台机器,或某个实例挂了,就不能提供服务了,提供了分布式,以及主备自动切换等 https://baike.baidu.com/item/%E9%AB%98%E5%8F%AF%E7%94%A8%E6%80%A7/909038?fr=aladdin 一个高可用系统中,所有组件 阅读全文
posted @ 2018-04-08 14:07 悟法悟天 阅读(528) 评论(0) 推荐(0)
摘要:https://console.aws.amazon.com/billing/home /bills?year=2018&month=4 在账单里有服务明细 然后在服务tab里找到对应服务类型,里面有具体的实例 阅读全文
posted @ 2018-04-04 10:23 悟法悟天 阅读(372) 评论(0) 推荐(0)