摘要:RDF(Resource Description Framework 资源描述框架) 知识总是以三元组形式出现: (subject, predicate, object) 即 (主,谓,宾) 资源和属性用URI来定义(http://demo.com/KG) 属性值可以一个值,或者一个资源(URI) 阅读全文
posted @ 2020-07-27 11:25 twilight0402 阅读(9) 评论(0) 推荐(0) 编辑
摘要:编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即 阅读全文
posted @ 2020-07-27 11:24 twilight0402 阅读(11) 评论(0) 推荐(0) 编辑
摘要:WordCloud的参数: font_path:可用于指定字体路径 width:词云的宽度,默认为 400; height:词云的⾼度,默认为 200; mask:蒙版,可⽤于定制词云的形状; min_font_size:最⼩字号,默认为 4; max_font_size:最⼤字号,默认为词云的⾼度 阅读全文
posted @ 2020-07-27 11:23 twilight0402 阅读(15) 评论(0) 推荐(0) 编辑
摘要:数据处理很多需要用到pandas,有两个基本类型:Series表示一维数据,DataFrame表示多维。以下是一些常用方法的整理: pandas.Series 创建 Series pandas.Series( data, index, dtype, copy) name value data 数据采 阅读全文
posted @ 2020-07-27 11:22 twilight0402 阅读(9) 评论(0) 推荐(0) 编辑
摘要:PCA可以将数据从原来的向量空间映射到新的空间中。由于每次选择的都是方差最大的方向,所以往往经过前几个维度的划分后,之后的数据排列都非常紧密了, 我们可以舍弃这些维度从而实现降维 原理 内积 两个向量的乘积满足:\(ab= |a|\cdot |b|\cdot cos(\theta)\).如果$|b| 阅读全文
posted @ 2020-07-27 11:21 twilight0402 阅读(11) 评论(0) 推荐(0) 编辑
摘要:支持向量机可以分为三类: 线性可分的情况 ==> 硬间隔最大化 ==> 硬间隔SVM 近似线性可分的情况 ==> 软间隔最大化 ==> 线性支持向量机 线性不可分的情况 ==> 核技巧/软间隔最大化 ==> 非线性SVM 硬间隔向量机(hard margin svm) 任务:寻找一条与所有支持向量距 阅读全文
posted @ 2020-07-27 11:20 twilight0402 阅读(28) 评论(0) 推荐(0) 编辑
摘要:多项式回归就是数据的分布不满足线性关系,而是二次曲线或者更高维度的曲线。此时只能使用多项式回归来拟合曲线。比如如下数据,使用线性函数来拟合就明显不合适了。 接下来要做的就是升维,上面的真实函数是:$ y = 0.5x2 + 2x + 5$。而样本数据的形式是(x, y),以这种方式只能训练出$y = 阅读全文
posted @ 2020-07-27 11:18 twilight0402 阅读(10) 评论(0) 推荐(0) 编辑
摘要:出现过拟合时,使用正则化可以将模型的拟合程度降低一点点,使曲线变得缓和。 L1正则化(LASSO) 正则项是所有参数的绝对值的和。正则化不包含theta0,因为他只是偏置,而不影响曲线的摆动幅度。 \[ J(\theta)=\operatorname{MSE}(y, \hat{y})+\alpha 阅读全文
posted @ 2020-07-27 11:17 twilight0402 阅读(7) 评论(0) 推荐(0) 编辑
摘要:常用的梯度下降法分为: 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic Gradient Descent) 小批量梯度下降法(Mini-Batch Gradient Descent) 简单的算法示例 数据 x = np.random.unifor 阅读全文
posted @ 2020-07-27 11:16 twilight0402 阅读(39) 评论(0) 推荐(0) 编辑
摘要:计算 对于线性回归,梯度下降法的目标就是找到一个足够好的向量$\theta$,使代价函数$J(\theta) = \sum_(\hat-y_){2}\(取得最小值。线性回归的代价函数是关于\)\theta$的多元函数。如下: \[ J(\theta) = \sum_{i=1}^{m}(\hat{y} 阅读全文
posted @ 2020-07-27 11:14 twilight0402 阅读(26) 评论(0) 推荐(0) 编辑