04 2018 档案
摘要:把数据打散,然后 再不断上卷 etl: 上卷 下钻 上卷的过程不能跨度太大,否则一个group的计算中数据量太大, 这时候可以分几步进行group
阅读全文
摘要:I{true} = 1 I{false} = 0 I表示indicator 符号函数是指示函数的一种特例
阅读全文
摘要:用几何图形来加深对函数的理解,坐标系 一般在计算中,一个向量是用一个竖的1列矩阵 来表示的 如果需要横过来,需要做个转置
阅读全文
摘要:朴素贝叶斯分类是一种生成式分类 p(y|x) = p(y,x) / p(x) =p(x|y) p(y) | p(x) 在训练的时候假设x的所有特征是相互独立的,所以p(x|y) = 所有p(xi | y) 的乘积 只要通过贝叶斯展开+有xi独立 就能得到 这个模型里的参数就是,给定y这个条件下,生成
阅读全文
摘要:判别式:计算 p(y|x) 生成式:计算 p(x|y) 给定类目,生成特征的概率
阅读全文
摘要:在看懂了之后,再盖上书,自己推导一遍公式,才算真正地懂了这个算法——andrew NG
阅读全文
摘要:线性回归: 可以用损失函数来评估模型,这个损失函数可以选择平方损失函数, 将所有样本的x和y代入, 只要损失函数最小,那么得到的参数就是模型参数 逻辑回归: 可以使用似然概率来评估模型,将所有样本的x和y代入, 只要这个似然概率最大,那么得到的参数,就是模型参数 也可以理解为,其实概率模型不是用损失
阅读全文
摘要:二分类问题可以解决很多问题, 而不是只是类似 分类为男,还是女,高或矮 可以是逻辑判断:是或否,0或1 比如 是不是 会6个月后换房子, 是不是会泡妞成功 这能表示各种情况 这些情况下,样本空间的y,是6个月后换房子 或者6个月后没换房子 是泡妞成功,或者没泡妞成功,等等 所以逻辑回归为什么是一种分
阅读全文
摘要:相同的特征,可以选择不同的模型 可以是线性模型比如y = b + wx,可以是曲线模型 y = b + w1x + w2x平方
阅读全文
摘要:数学是一种工具,也是一种思维,时间空间的抽象 n维空间,每一点都是对应一个数据 坐标轴以及图形 让 函数变得形象,更生动,更迷人 映射可以将数据从一个空间转换到另一个空间,甚至可以将时间抹去(时域频域) 各种定理,定义,公理,引理,法则都是一种约定,前人证明,后人可以享用的财富 问题求解,公式证明
阅读全文
摘要:rt 尤其是机器学习相关的 论坛,知乎,大V,top公司,会议,论文网站 还有别的?
阅读全文
摘要:相比与bow(bag of word),两个都是特征的降维, bow 每个词是一个文档向量中的一维 而one hot是一个词本身是一个向量(一维是1,其他是0),不同词之间的区别是1的位置不同,但是1的位置不表示实际意义 而word2vec中,每个词用一个实数向量表示,语义相近的词的向量夹角余弦相似
阅读全文
摘要:有两种降维 一种是一个向量的维度太多了,减少维度 另一种是 把一个词用一个向量表示,相当于降低了一层维度 这样语义相近的词,能用向量的相似度 计算出来
阅读全文
摘要:抖动就是响应时间时长时短 redis如果写并发量太大?? hbase抖动是因为region要split和hfile的compact等??
阅读全文
摘要:高可用ha:就是系统不会因为某台机器,或某个实例挂了,就不能提供服务了,提供了分布式,以及主备自动切换等 https://baike.baidu.com/item/%E9%AB%98%E5%8F%AF%E7%94%A8%E6%80%A7/909038?fr=aladdin 一个高可用系统中,所有组件
阅读全文
摘要:https://console.aws.amazon.com/billing/home /bills?year=2018&month=4 在账单里有服务明细 然后在服务tab里找到对应服务类型,里面有具体的实例
阅读全文

浙公网安备 33010602011771号