随笔分类 - Python
摘要:多元函数拟合。如 电视机和收音机价格多销售额的影响,此时自变量有两个。 python 解法: 拟合的各项评估结果和参数都打印出来了,其中结果函数为: f(sales) = β0 + β1*[TV] + β2*[radio] f(sales) = 2.9211 + 0.0458 * [TV] + 0.
阅读全文
摘要:通过 1至10 阶来拟合对比 均方误差及R评分,可以确定最优的“最大阶数”。 因为因变量 Y = 2*(X**4) + X**2 + 9*X + 2 ,自变量和因变量是完整的公式,看图很明显,degree >=4 的都符合,拟合函数都正确。(RMSE 最小,R平方非负且接近于1,则模型最好) 如果将
阅读全文
摘要:import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.patches as mpatches from scipy.interpolate import spline x = np.arange(-5,11) y = x**3 + 2*(x**2) + x + 2 y2...
阅读全文
摘要:卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(更多参考:卡方检验、卡方分布) 不讲过多理论,主要使用 python 实现卡方验证。之前
阅读全文
摘要:支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。关键词:HMM 隐马尔可夫模型 三种分词模式: 结果:中华人民共和国
阅读全文
摘要:Pandas 是 python的一个数据分析包,它提供了大量的数据模型型和函数库,对数据处理很方便。DataFrame 是一个二维表格数据结构,可以当做数据库中的一张关系表。Pandas 可以实现 SQL 中的语句,对 DataFrame 的操作相当于对二维表操作一样。 还是以股票某天的分笔记录为例
阅读全文
摘要:探索性数据分析,主要针对原始数据进行初次了解。了解数据的分布情况、了解分析方向、排除该单个变量的异常值 等。此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图。 显示图分为字符型(离散型)和数值型(连续型),示例结果如下:
阅读全文