科学计算法:通过计算相关性系数r
#coding=utf-8
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
"
两者的关系为:当p<0.05(或者0.01)的前提下,才可以参考r值,不能仅仅只看r值。
假设p=0.02,r=0.8,认为两组数据存在高度线性关系
假设p=0.5,r=0.8,认为两组数据不能进行相关性比较,更别提相关性是高还是低(此时的相关性表现可能是巧合)
|r|<0.3 不存在线性关系
0.3<|r|<0.5 低度线性关系
0.5<|r|<0.8 显著线性关系
|r|>0.8 高度线性关系
"
csv_file = "data.txt"
csv_data = pd.read_csv(csv_file,sep="\t",names=['X','y','a','b','c','d'] )#是dataframe数据格式
print(csv_data.head(),type(csv_data))
r,p = stats.pearsonr(csv_data.b,csv_data.c) # 相关系数和P值
print('相关系数r为 = %6.3f,p值为 = %6.3f'%(r,p))
#用 pandas 库相关系数。
print(csv_data.b.corr(csv_data.c))