09 2020 档案
摘要:特征工程很重要,特征工程主要包含:特征构建和提取、特征处理、特征选择等几个方面。不同应用场景下,需要有的放矢的做一些特征工程的工作。 特征构建和提取 特征构建基本上就是从原始的数据中抽取出我们需要的特征。一方面需要结合业务知识,另一方面可以结合数据分析得到一些特征的灵感。 特征处理 经过提取的特征,
阅读全文
摘要:https://www.cnblogs.com/makefile/p/pooling.html
阅读全文
摘要:https://mrfzh.github.io/2019/08/31/%E8%93%84%E6%B0%B4%E6%B1%A0%E6%8A%BD%E6%A0%B7%E7%AE%97%E6%B3%95%EF%BC%88Reservoir-Sampling%EF%BC%89/ 实践 https://lee
阅读全文
摘要:进程是什么? 进程是一个具有一定独立功能的程序在一个数据集上的一次动态执行的过程,是操作系统进行资源分配和调度的一个独立单位,是应用程序运行的载体。进程是一种抽象的概念,所以,进程也是资源分配的最小单位,每个进程有各自独立的一块内存,使得各个进程之间内存地址相互隔离 进程一般由 程序, 数据集合 进
阅读全文
摘要:这是在面试的时候写的一道题,不过当时由于把递归函数recurse里面的 <target_loc= =-1> 写成了 <target= =-1> 导致出现断错误,面完后一下子就找到bug,哎,可惜了 #include <iostream> #include <vector> #include <sta
阅读全文
摘要:给定一个含有 n 个正整数的数组和一个正整数 s ,找出该数组中满足其和 ≥ s 的长度最小的 连续 子数组,并返回其长度。如果不存在符合条件的子数组,返回 0。 示例: 输入:s = 7, nums = [2,3,1,2,4,3] 输出:2 解释:子数组 [4,3] 是该条件下的长度最小的子数组。
阅读全文
摘要:最长公共连续字串(longest common substr) 比如:“abcdefg”和“bcdfddd”的最长公共连续字串为“bcd” // 最长公共连续字串 int loggest_common_substr(string s1, string s2){ int len_s1 = s1.len
阅读全文
摘要:假如要建立这样的一颗二叉树: 建立二叉树树一共有2种比较普遍的办法: 链表法:结点伴有其左右孩子结点的指针,递归构建 数组法;数组法主要记录二叉树结点的值与数组位置的映射关系来构建。但其对二叉树的结构要求比较严格,如果二叉树变成一条线一样的话,那就比较耗费内存,会有很多空值。 #include <i
阅读全文
摘要:Python有很大实现的版本,像拿C语言实现的Cpython,以及在其基础上改进其解释执行变为即时编译(jit)的Pypy,还有一些其他的比如Jpython等。具体来说 其中使用c语言开发的叫做python,在于别的语言开发的python对比时为避免歧义通常称为CPython。同样的,使用java开
阅读全文
摘要:https://www.python.org/dev/peps/pep-0008/
阅读全文
摘要:在c++的STL中,vector实际的实现是动态存储,随着新元素的加入,它的内部机制会自动的扩充空间以容纳新的元素。vector的关键技术在于其对大小的控制以及重新配置时的数据移动效率。 vector采用的数据结构很简单:线性的连续空间。 它以两个迭代器start和finish分别指向配置得来的连续
阅读全文
摘要:内存对齐 现代计算机中内存空间都是按照 byte 划分的,也就是字节,从理论上讲似乎对任何类型的变量的访问可以从任何地址开始,但实际情况是在访问特定类型变量的时候经常在特定的内存地址访问,这就需要各种类型数据按照一定的规则在空间上排列,而不是顺序的一个接一个的排放,这就是对齐 为什么要内存对齐? 从
阅读全文
摘要:硬间隔SVM SVM被提出来, 解决模式识别中, 数据的分类问题,属于有监督算法中的一种, 如上图所示, 于其他的线性回归方式不同, SVM企图去寻找一个最完美的超平面, 因为能正确分类样本的线, 它有很多条, 有时候, 像LR一样的模型, 当数据有噪声的时候,很容易越过分类边界, 造成误分类. 而
阅读全文
摘要:迭代器 迭代是Python最强大的功能之一,是访问集合元素如list,tuple的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。 迭代器有两个基本的方法:iter() 和 next()。 迭代器最常见的就是引用于深度学习中,一个batch一个ba
阅读全文
摘要:对于一个字符串,请设计一个高效算法,计算其中最长回文子串的长度。 给定字符串A以及它的长度n,请返回最长回文子串的长度。 测试样例: "abc1234321ab",12 返回:7 思路:Manacher 算法 https://www.cxyxiaowu.com/2869.html 算法的核心还是将原
阅读全文
摘要:在ml模型的学习过程中,算法本身还是在偏差和方差上做权衡 欠拟合: 不能很好的拟合数据, 训练集上很差 过拟合: 训练集上表现好,测试集上表现差 方差: Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。 偏差: Bias反映的是模型在样本上的输
阅读全文
摘要:信息熵 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量 x 的时候,当我们观察到的这个变量的一个具体值的时候,我
阅读全文
摘要:数字开方,求平方根算法 二分查找 大致的逻辑是这样的: 比如对6求开方 初始化 low=0,high=6 mid=(low+hight)/6=3,3*3 = 9 > 6,那么上限high = 3, mid =(0+3)/2=1.5, 1.5*1.5 = 2.25 < 6,那么更新下限 low = 1
阅读全文
摘要:#include <iostream> #include <vector> #include <string> #include <algorithm> #include <climits> #include <deque> using namespace std; struct Node{ int
阅读全文
摘要:请定义一个队列并实现函数 max_value 得到队列里的最大值,要求函数max_value、push_back 和 pop_front 的均摊时间复杂度都是O(1)。若队列为空,pop_front 和 max_value 需要返回 -1 O(1) 复杂度,意味着min值需要采取特殊手段:双端队列:
阅读全文
摘要:分类损失 二分类损失 ###二分类交叉熵损失(对数似然损失,逻辑回归损失) \(L(Y,f(x))=-\frac{1}{n}\sum [y\ln f(x)+(1-y)\ln (1-f(x))]\) 多分类损失 多分类交叉熵损失 \(L(Y,f(x))=-\frac{1}{n}\sum y_i ln
阅读全文

浙公网安备 33010602011771号