摘要: 正则表达式元字符的用法,看完秒懂 静态网页数据包含大量字符串,需要用到正则表达式匹配。本文对正则表达式的元字符的用法进行了整理。 1、\W和\w的用法 import re str = '星期三wednesday3_@!' r1 = re.findall('\w', str) # 匹配所有字母,数字,汉字,下划线 r2 = re.fi 阅读全文
posted @ 2021-10-13 17:34 程序猿不缺对象 阅读(303) 评论(0) 推荐(0)
摘要: 爬虫:程序跑一段时间就被封了? 很容易解决 由于: 1、网站服务器在收到请求的同时还能获得请求方的IP地址,当网站服务器检测到短时间内同一IP地址发起了大量请求,就会认为该IP地址的用户是爬虫程序,并对该IP地址进行访问限制。为了规避这种“反爬”手段,可以使用代理服务器代替实际的IP地址来发起请求。 2、很多网站服务器为了防止他人 阅读全文
posted @ 2021-10-13 11:48 程序猿不缺对象 阅读(151) 评论(0) 推荐(0)
摘要: 学会了从网格爬取数据,就可以告别从网站一页一页复制表格数据的时代了。 说个亲身经历的事: 以前我的本科毕业论文是关于“燃放烟花爆竹和空气质量”之间关系的,就要从环保局官网查资料。 一个省10个市,720天的数据,我就傻乎乎地,一页一页复制数据,然后还要手动清理数据。 幸好可以复制,要不然我都可能手抄 阅读全文
posted @ 2021-08-27 15:40 程序猿不缺对象 阅读(3288) 评论(1) 推荐(0)
摘要: import requests import json import pandas as pd url = "" data = requests.get(url) data1 = json.loads(data.text) df = pd.json_normalize(data1, record_p 阅读全文
posted @ 2021-08-26 10:54 程序猿不缺对象 阅读(94) 评论(0) 推荐(0)
摘要: 1、数值型取列平均值,非数值型取众数(频数最大)。 2、加权平均 2.1 计算变量之间相关系数R,取1/R,再归一化 2.2 归一化方法:除总和,即为权重 其他多重插补、模型预测等方法,我不建议新手用,用不明白,还会把自己整懵了, 人的精力是有限的,做有意义的事。 阅读全文
posted @ 2021-08-20 17:49 程序猿不缺对象 阅读(551) 评论(0) 推荐(0)
摘要: 是网络的原因,加一个镜像服务器 pip install *** -i https://pypi.tuna.tsinghua.edu.cn/simple 阅读全文
posted @ 2021-08-18 12:35 程序猿不缺对象 阅读(804) 评论(0) 推荐(0)
摘要: 理由:可以从mysql调数据分析 1 #安装pymysql 2 >>>pip install pymysql 3 >>>import pymysql 4 #连接数据库,创建一个rkpro库 5 >>>db = pymysql.connect(host='127.0.0.1', port=3306, 阅读全文
posted @ 2021-08-17 15:41 程序猿不缺对象 阅读(52) 评论(0) 推荐(0)
摘要: 很多人不是吐槽cnki的caj界面难看嘛,这会人家给我们一个大福利了,网页版的“知网研学” 在这里登录可以直接下载所有论文的pdf版。这还不算,你还可以在线处理编辑这些pdf。 如果有朋友不在乎背景是白色的话,这真的是个不错的选择。 然后我试着下了个桌面版的E-study,好家伙,把我下一跳,至少6 阅读全文
posted @ 2021-07-31 22:48 程序猿不缺对象 阅读(622) 评论(0) 推荐(0)
摘要: 相关性分析及显著性检验 1 相关性分析 1.1 计算Pearson相关系数的变量要求 ①两变量相互独立 ②两变量为连续变量 ③两变量的分布遵循正态分布 ④两变量呈线性关系 1.2 正态分布检验方法(SPSS) 分析→描述统计→频率 统计量 图表 k (峰度)s(偏度) 接近于0,就会接近正态分布,从 阅读全文
posted @ 2021-07-31 18:52 程序猿不缺对象 阅读(4707) 评论(0) 推荐(0)
摘要: 图床网址:https://sm.ms/ 截图后直接ctrl+V到网站,选择image URL代码就可以把图片拉到自己的网站上了。 阅读全文
posted @ 2021-07-31 14:00 程序猿不缺对象 阅读(307) 评论(0) 推荐(0)