随笔档案「2021年4月」 - nuo-o

线上线下效果不一致

摘要：1. 发生在 KAGGLE 比赛中的“地震”现象主要原因：训练集和测试集数据分布不一致检测：在训练集合和测试集合上训练一个二分类，并在测试集合上进行 auc 检测，如果 auc = 0.5，说明训练集合和测试集合没有显著差异。当 > 0.7 时，说明有较大差异。应用1：二分类预测测试集上所有样阅读全文

posted @ 2021-04-25 18:17 nuo-o 阅读(568) 评论(0) 推荐(0)

三言两语大话 - DPP

摘要：DPP 为什么当用户在我们系统中点击行为比较少的时候，我们会补充一些热门特征来丰富用户画像。所谓的热门特征，是累加了所有用户点击过的新闻特征，然后取topk得到的。会发现，尤其对于一些细粒度的特征，头部会集中在同一语义下。为了平衡热门特征的语义多样性和热门程度，我采用了DPP 的方法。举个例阅读全文

posted @ 2021-04-25 08:09 nuo-o 阅读(247) 评论(0) 推荐(0)

基石1：loss function

摘要：损失函数就是评估预测值和真实值的差距。分类：经验损失（所有样本上的平均值，所以是经验），结构损失（在经验损失的基础上添加正则项）常见分类 a. 0-1 loss 非黑即白，正确就是 loss=0，错误就是 loss = 1。有点过于严苛，所以 svm 放松到一定距离。由于是非凸函数，不适用阅读全文

posted @ 2021-04-14 11:47 nuo-o 阅读(76) 评论(0) 推荐(0)

fucking algorithm - 二叉树（东哥篇）

摘要：1. 翻转二叉树：https://leetcode-cn.com/problems/invert-binary-tree/ 2. 二叉树展开为链表，关键在于找到递归部分：https://leetcode-cn.com/problems/flatten-binary-tree-to-linked-li 阅读全文

posted @ 2021-04-13 09:00 nuo-o 阅读(93) 评论(0) 推荐(0)

fucking algorithm - 回文子串

摘要：要想到，既可以从中间向两边扩散，也可以从两头向中间聚拢！核心-> 双指针注意 left, right 一旦限定是左闭右开，right取值的时候一定要小心 s[right - 1] !!! 时间复杂度：o(n^2) 阅读全文

posted @ 2021-04-12 22:56 nuo-o 阅读(42) 评论(0) 推荐(0)

fucking algorithm - 迭代反转链表

摘要：迭代可以 o(1) 的空间复杂度，o(n) 的时间复杂度，翻转链表。 k个一组翻转链表：https://leetcode-cn.com/problems/reverse-nodes-in-k-group/ 还是可以看做递归问题，每次返回的是新的head，通过 head.next 递归调用下一个翻转组阅读全文

posted @ 2021-04-12 22:54 nuo-o 阅读(109) 评论(0) 推荐(0)

fucking algorithm - 递归反转链表（仅适合装13）

摘要：真的考了~ 搜狐上来手撕两道代码题。第一道就是这个。迭代写法可以，但是很多注意细节。递归比较简洁优美。适合装逼，但不适合考试，因为空间复杂度是O(n)。 1. 递归整个链表：https://leetcode-cn.com/problems/reverse-linked-list/ -> 判断递归阅读全文

posted @ 2021-04-12 22:10 nuo-o 阅读(123) 评论(0) 推荐(0)

调研--模型压缩

摘要：需求占内存太大：但是没有想明白哪里占？参数？那就计算一下参数：每个特征哈希出多少个结果常见方法 Pruning（修剪）: 因为神经网络很多权重几乎为0，这类参数作用不大，部分参数删掉也不影响模型预测效果 Weight Factorization（权重分解）：权重矩阵可以进行低秩矩阵分解，即lo 阅读全文

posted @ 2021-04-09 10:13 nuo-o 阅读(53) 评论(0) 推荐(0)

面试真题

摘要：百度 https://blog.csdn.net/u012991043/article/details/81707057 https://leetcode-cn.com/problems/sort-of-stacks-lcci/ https://www.nowcoder.com/questionTe 阅读全文

posted @ 2021-04-07 21:27 nuo-o 阅读(22) 评论(0) 推荐(0)

样本不均衡

摘要：危害从样本量悬殊的角度考虑 loss_function 通常都是正负例 loss 的求和，那么一旦一方样本数居多，loss就偏向于一方的loss，说明就在学习负例。造成最终结果不正确。从易分类的角度一定有些样本是特别易分类的，一旦这些样本量多起来，就对 loss 贡献不容小觑了。造成最终模型阅读全文

posted @ 2021-04-07 15:59 nuo-o 阅读(116) 评论(0) 推荐(0)

nuo-o

04 2021 档案

公告