摘要: 特征工程 文本表示模型 question:有哪些文本表示模型?它们各有什么优缺点? answer:词袋模型和N-gram模型、主题模型、词嵌入与深度学习模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子 词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开, 然后每篇文章 阅读全文
posted @ 2020-03-31 21:58 看星星的小宇 阅读(301) 评论(0) 推荐(0)
摘要: 特征工程 特征归一化 为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得 不同指标之间具有可比性。想要得到更为准确的结果,就需要进行特征归一化 (Normalization)处理,使各指标处于同一数值量级,以便进行分析。 question:为什么需要对数值类型的特征做归一化? ans 阅读全文
posted @ 2020-03-30 21:09 看星星的小宇 阅读(265) 评论(0) 推荐(0)
摘要: 改变数组的形状 >>> a = np.floor(10*np.random.random((3,4))) >>> a array([[ 2., 8., 0., 6.], [ 4., 5., 1., 1.], [ 8., 9., 3., 6.]]) >>> a.shape (3, 4) >>> a.r 阅读全文
posted @ 2020-03-10 02:12 看星星的小宇 阅读(151) 评论(0) 推荐(0)
摘要: 通函数 NumPy提供熟悉的数学函数,例如sin,cos和exp。在NumPy中,这些被称为“通函数”(ufunc)。在NumPy中,这些函数在数组上按元素进行运算,产生一个数组作为输出。 >>> B = np.arange(3) >>> B array([0, 1, 2]) >>> np.exp( 阅读全文
posted @ 2020-03-10 01:46 看星星的小宇 阅读(175) 评论(0) 推荐(0)
摘要: 基本操作 数组上的算术运算符会应用到 元素 级别。下面是创建一个新数组并填充结果的示例: >>> a = np.array( [20,30,40,50] ) >>> b = np.arange( 4 ) >>> b array([0, 1, 2, 3]) >>> c = a-b >>> c arra 阅读全文
posted @ 2020-03-09 16:49 看星星的小宇 阅读(177) 评论(0) 推荐(0)
摘要: 基础知识 numpy的主要对象是同构多维数组,是一个元素表(通常为数字),所有类型都相同。由非负整数元组索引。在numpy中维度称为轴。 numpy的数组类调用: ndarray.ndim - 数组的轴(维度)的个数。在Python世界中,维度的数量被称为rank。 ndarray.shape - 阅读全文
posted @ 2020-03-08 22:02 看星星的小宇 阅读(297) 评论(0) 推荐(0)
摘要: 先去官网下载好anaconda 地址是 https://www.anaconda.com/distribution/#download-section 我下载的是64位python3.7版本的,因为pytorch只支持3.x版本的python,在安装过程中有一个如下界面(第二幅图)建议是两个都勾选上 阅读全文
posted @ 2020-02-17 01:01 看星星的小宇 阅读(834) 评论(1) 推荐(0)