随笔分类 -  python基础

python的基础操作
pandas 遍历 dataframe 行数据
摘要:import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df = pd.DataFrame(inp) print(df) # pandas 遍历 dataframe 行数据 for 阅读全文

posted @ 2020-07-14 11:23 耀扬 阅读(3602) 评论(0) 推荐(0)

爬取素材库直接存入mysql数据库
摘要:爬取素材库。直接存入mysql数据库。 包含html源码直接存入数据库需要的转义函数。 替换掉源码中的html注释语句 import re import requests import random import time from bs4 import BeautifulSoup import p 阅读全文

posted @ 2020-07-08 22:21 耀扬 阅读(242) 评论(0) 推荐(0)

pandas快速手册
摘要:修改列名 分组语句出图 滑窗计算 转化时间函数 并按日期分组 根据所选内容出图 查看dataframe信息 删除某列信息 去除重复的行信息 1. 去除完全重复的行数据 2. 去除某几列重复的行数据 subset: 列名,可选,默认为None keep: {‘first’, ‘last’, False 阅读全文

posted @ 2020-02-29 14:21 耀扬 阅读(277) 评论(0) 推荐(0)

python常用技巧
摘要:1、 list深度拷贝 l1 = [1,2,3] l2 = list(l1) l1 == l2 #True l1 is l2 #False 2、input()采集一个字符串 ‘1 4 2 3’,将其转化为list #方法一 k4=[int(x) for x in input().split()] # 阅读全文

posted @ 2020-02-02 21:19 耀扬 阅读(192) 评论(0) 推荐(0)

Django与supervisor 管理进程
摘要:有一个项目需要持久化生产,python django 。后来就用nohup凑合着先用着。用了几个月 也没挂掉,不过心里还是有点担心。最后找到了这个supervisor。 https://www.cnblogs.com/huang-yc/p/10203492.html 这个位大神的文章还是很不错的,照 阅读全文

posted @ 2019-12-18 14:41 耀扬 阅读(619) 评论(0) 推荐(0)

python神操作将list拉平
摘要:python 神操作 将list 拉平 list_of_lists = [[1], [2, 3], [4, 5, 6]]sum(list_of_lists, []) 阅读全文

posted @ 2019-12-02 12:24 耀扬 阅读(2000) 评论(0) 推荐(0)

常用的正则表达式
摘要:最全的常用正则表达式大全 原文链接: https://www.cnblogs.com/zqifa/p/regex-1.html 1.校验数字的表达式 1. 数字:^[0-9]*$ 2. n位的数字:^\d{n}$ 3. 至少n位的数字:^\d{n,}$ 4. m-n位的数字:^\d{m,n}$ 5. 阅读全文

posted @ 2019-12-02 12:01 耀扬 阅读(166) 评论(0) 推荐(0)

转:Windows系统环境下安装dlib
摘要:原文链接 因为今天安装Face Recognition,需要先按照 dlib 。需要在windows环境下做一些图片处理,所以需要在pycharm中配置环境,而其中需要的主要是dlib的安装: 下面说一下关于dlib的配置安装: —-dlib安装—— 1、下载文件 首先需要从网上下载 dlib:ht 阅读全文

posted @ 2019-11-02 23:11 耀扬 阅读(1418) 评论(1) 推荐(0)

pyhanlp的安装
摘要:github 的官方地址:https://github.com/hankcs/pyhanlpconda install -c conda-forge jpype1 pip install pyhanlp安装成功后,第一运行时,会下载600多兆的内容。要保证网速。第一次运行,还要配置好 java jd 阅读全文

posted @ 2019-11-02 23:07 耀扬 阅读(787) 评论(0) 推荐(0)

contos7自启动django服务
摘要:研究了很多种办法 1.新建一个sh 文件 vi django_autostart.sh 2.编辑文件内容 #!/bin/bash #chkconfig:345 61 61 //此行的345参数表示,在哪些运行级别启动,启动序号(S61);关闭序号(K61) #description:django / 阅读全文

posted @ 2019-11-02 23:07 耀扬 阅读(508) 评论(0) 推荐(0)

python调用时间装饰器检测函数运行时间
摘要:用一个装饰器,监控程序的运行时间 阅读全文

posted @ 2019-11-02 22:33 耀扬 阅读(2588) 评论(0) 推荐(0)

python使用pymysql操作mysql数据库
摘要:1、安装pymysql pip install pymysql 2、数据库查询示例 3、数据增删改示例 阅读全文

posted @ 2019-11-02 22:09 耀扬 阅读(365) 评论(0) 推荐(0)

python抓取贝壳房源信息
摘要:分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的 https://tj.ke.com/chengjiao/a3l4/ a3 实际表示的 l4 表示的是 然后 将复合条件拼成一个字符串,带过去。看着真的很像加密过的。赞 import os, re import requests import 阅读全文

posted @ 2019-09-15 16:03 耀扬 阅读(2641) 评论(0) 推荐(0)

一个非常有趣的爬虫小练习带ocr识别的
摘要:有个小的想法,想找一找 形近字 。百度一搜索,百度文库有一个,收费4元。而且我觉得字数不是太多。想自己弄一个,于是找到了 这个网站 http://www.fantiz5.com/xingjinzi/ 这里面据说字数很多,开练! 主要是为了学习 chrome,开发者调试 发现 有个 zhuan() 的 阅读全文

posted @ 2019-08-11 19:58 耀扬 阅读(1206) 评论(0) 推荐(0)

python中ocr软件pytesseract使用
摘要:首先要看原版的参考 https://github.com/madmaze/pytesseract 直接上代码, import pytesseractfrom PIL import Image image = Image.open(r'D:\xingjinzi\5.jfif') result =pyt 阅读全文

posted @ 2019-08-11 17:26 耀扬 阅读(2093) 评论(0) 推荐(0)

一个多进程爬虫下载图片的demo
摘要:import os,re import pickle import requests import random import time from bs4 import BeautifulSoup from multiprocessing import Pool user_agent_list = 阅读全文

posted @ 2019-08-09 21:20 耀扬 阅读(310) 评论(0) 推荐(0)

一个爬虫的demo,requests,beatuifulsoup使用的
摘要:爬虫的demo,requests,beatuifulsoup import os,re import requests import random import time from bs4 import BeautifulSoup user_agent_list = [ "Mozilla/5.0 ( 阅读全文

posted @ 2019-08-09 18:57 耀扬 阅读(220) 评论(0) 推荐(0)

python ocr中文识别库 tesseract安装及问题处理
摘要:这个破东西,折腾了快1个小时,网上的教材太乱了。 我解决的主要是windows的问题 先下载exe。(一看到这个,我就有种预感,不妙) https://digi.bib.uni-mannheim.de/tesseract/ 选好自己的机型, 最新版的,可能会采坑啊 安装时可以添加支持的语言包,如下界 阅读全文

posted @ 2019-08-08 17:50 耀扬 阅读(6162) 评论(0) 推荐(0)

python写文件无法换行的问题
摘要:python写文件无法换行的问题,用'\n' 不行,直接打印的出来了。 网上查了查,都说是用 ‘\r\n’ ,但是这样打出来,不仅换行了,还加了一个空行。 windows平台最后结果是 直接用 '\r‘ 亲测有效 阅读全文

posted @ 2019-08-05 11:07 耀扬 阅读(1511) 评论(0) 推荐(0)

简单理解:协程、线程、进程
摘要:1、进程 进程就像是 多开几个word,各运行各的。可以充分利用多核cpu 2、线程 线程就像是浏览器里多开几个页面,各运行各的,但都是在同一个浏览器的进程下的。可以充分利用cpu主观能动机制 但是由于cpu的轮转执行的,也就是说,cpu是假的并行执行,而是 执行1秒a进程,再执行一秒b进程,再执行 阅读全文

posted @ 2019-08-01 23:01 耀扬 阅读(194) 评论(0) 推荐(0)

导航