淋哥 - 博客园

2021年5月18日

爬虫 requests ValueError: check_hostname requires server_hostname

摘要： C:\Python37\python3.exe D:/shannanai_spider/crawler_algorithm/test.pyTraceback (most recent call last): File "D:/shannanai_spider/crawler_algorithm/te 阅读全文

posted @ 2021-05-18 16:59 淋哥阅读(7746) 评论(0) 推荐(0)

2021年5月7日

MySQL 1206 - The total number of locks exceeds the lock table size

摘要：使用mysql将同一数据库的表格数据（根据条件筛选的部分数据）转换到当前数据库下另一个表格中，使用了插入和删除操作，由于数据量较大导致报错：1206 - The total number of locks exceeds the lock table size 解决方案：在进入MySQL命令行控制阅读全文

posted @ 2021-05-07 14:18 淋哥阅读(493) 评论(0) 推荐(0)

2021年4月28日

正则多个空格替换成一个空格多个相同的字符值保留一个

摘要：在爬虫有一些需求需要把多个空格替换一个或者是把多个相同的字符值保留一个，实现方法用re.sub 直接上代码 strs = "核算处期" new_strs = re.sub(r" +",' ', strs) print(new_strs) strs = "核算处期" new_strs = re.s 阅读全文

posted @ 2021-04-28 19:36 淋哥阅读(2128) 评论(0) 推荐(1)

2021年4月20日

python for 循环的速度

摘要：今天想知道for循环的速度，所以做一下测试 1. for循环一万次耗时2毫秒 2. for循环十万次耗时22毫秒 3. for循环一百万次耗时304毫秒 4. for循环一千万次耗时2337毫秒，也就是2.3秒 5. for循环一亿次耗时23468毫秒，也就是23.4秒为什么要做这个测试阅读全文

posted @ 2021-04-20 21:47 淋哥阅读(4735) 评论(0) 推荐(0)

2021年4月19日

下载器

摘要： 123 阅读全文

posted @ 2021-04-19 17:12 淋哥阅读(56) 评论(0) 推荐(0)

2021年4月15日

requests content 和text 编码格式

摘要： 1 . python3 环境 python3 content 输出是 bytes text 输出是 str python 2 环境 python2 content 输出是 str text 输出是 unicode 阅读全文

posted @ 2021-04-15 15:13 淋哥阅读(250) 评论(0) 推荐(0)

2021年4月14日

博客园积分排名

摘要： https://www.cnblogs.com/AllBloggers.aspx 阅读全文

posted @ 2021-04-14 09:21 淋哥阅读(58) 评论(0) 推荐(1)

2021年4月2日

python QQ 发送邮件功能

摘要：直接上代码备忘 import smtplib from email.mime.text import MIMEText from email.header import Header from email.mime.multipart import MIMEMultipart def send_em 阅读全文

posted @ 2021-04-02 11:07 淋哥阅读(96) 评论(0) 推荐(0)

2021年3月31日

python md5 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128)

摘要： UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 48: ordinal not in range(128) url = 'http://gasssmes.sgerisssnssssass.cssn/pc/new 阅读全文

posted @ 2021-03-31 13:33 淋哥阅读(127) 评论(0) 推荐(0)

2021年3月29日

mysqldb 插入四个字节的表情符号

摘要：以前解决这个问题，具体怎么解决的忘记了，这次有遇到同样的问题了，bing了好一段时间，这次记录下来以防止再次忘记爬虫抓取的数据有四个字节，还是表情符号使用的技术是 python2.7 mysql8.0 mysqldb 1. 创建数据表 CREATE TABLE `tests` ( `url_id 阅读全文

posted @ 2021-03-29 09:40 淋哥阅读(121) 评论(0) 推荐(0)

python 实现文件传输脚本

摘要：直接上传代码 # coding: utf-8 import paramiko import os import time def file_transfer(): start_time = time.time() host = '' port = 22 username = '' password 阅读全文

posted @ 2021-03-29 08:48 淋哥阅读(719) 评论(0) 推荐(0)

2021年3月26日

mysql 批量插入数据报错 2006, MySQL server has gone away

摘要： 1. 问题描述：往MySQL批量插入数据，一次插入六万行数据，大约是一个6M的json文件，然后报错 2006, 'MySQL server has gone away' 解决方法： 1. 执行命令 show global variables like 'max_allowed_packet'; 阅读全文

posted @ 2021-03-26 11:10 淋哥阅读(368) 评论(0) 推荐(0)

mysql 查询慢问题分析

摘要：在上篇文章中说了 mysql 查询慢的优化问题文章标题是 mysql count 统计数据行数速度慢的解决方案这篇文章着重分析selct count 为什么这么慢的原因 1。先查看MySQL数据表结构 CREATE TABLE `spider_71_ggzy_zgzfcgw_content` ( 阅读全文

posted @ 2021-03-26 11:09 淋哥阅读(195) 评论(0) 推荐(0)

Elasticsearch导出数据存入本地文件

摘要：直接上脚本 # -*- coding: utf-8 -*- from elasticsearch import Elasticsearch # 日志的配置环境 import platform import logging.handlers sys_platform = platform.system 阅读全文

posted @ 2021-03-26 11:08 淋哥阅读(944) 评论(0) 推荐(0)

2021年3月16日

mysql count 几种写法时间的比较

摘要： MySQL 数据库有一张表，数据量是6800w条，现在使用count 对数据进行统计 1. 首先看下MySQL的表结构 CREATE TABLE `business_dict` ( `url_id` int(11) NOT NULL AUTO_INCREMENT, `company_name` va 阅读全文

posted @ 2021-03-16 09:38 淋哥阅读(477) 评论(0) 推荐(0)

2021年3月15日

python 线程池的实现

摘要： 1. 安装 pip install threadpool 2. 介绍 threadpool 支持python2.7和python3.x，线程池是一个对象，它维护一个工作线程池来并行执行耗时的操作。它通过将作业放入工作请求队列中将作业分配给这些线程，在那里它们被下一个可用线程拾取。然后在后台执行请求的阅读全文

posted @ 2021-03-15 10:53 淋哥阅读(1337) 评论(1) 推荐(0)

2021年3月12日

进程和线程、协程的区别和联系

摘要：现在多进程多线程已经是老生常谈了，协程也在最近几年流行起来。python中有协程库gevent，py web框架tornado中也用了gevent封装好的协程。本文主要介绍进程、线程和协程三者之间的区别。一、概念 1、进程进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进阅读全文

posted @ 2021-03-12 19:39 淋哥阅读(445) 评论(0) 推荐(0)

daemonic processes are not allowed to have children

摘要： import multiprocessing import time def func(msg): time.sleep(1) print multiprocessing.current_process().name + '-' + msg def spider(): time.sleep(2) p 阅读全文

posted @ 2021-03-12 19:37 淋哥阅读(4311) 评论(0) 推荐(2)

python 解析 crontab

摘要： 1. 使用croniter 官方教程是：https://github.com/taichino/croniter 示例一：获得下次crontab执行的时间 from croniter import croniter from datetime import datetime print dateti 阅读全文

posted @ 2021-03-12 14:02 淋哥阅读(5448) 评论(0) 推荐(0)

2021年3月3日

crontab 每天定时启动和停止程序

摘要： 1. 需要对一个java架包每天定时重启，直接使用crontab 2. 停止程序脚本 touch top-spider.sh vim stop-spider.sh 输入如下代码 ps -ef|grep bigdata-crawler-web |grep -v grep | awk '{print $ 阅读全文

posted @ 2021-03-03 09:22 淋哥阅读(1305) 评论(0) 推荐(0)

org.elasticsearch.client.transport.NoNodeAvailableException: None of the configured nodes are available: [{#transport#-1}{Mln3wtAkTMCwR_z9QIv-tA}{20.0.0.11}{20.0.0.11:9300}]

摘要： org.elasticsearch.client.transport.NoNodeAvailableException: None of the configured nodes are available: [{#transport#-1}{Mln3wtAkTMCwR_z9QIv-tA}{20.0 阅读全文

posted @ 2021-03-03 09:04 淋哥阅读(455) 评论(0) 推荐(0)

2020年12月29日

python es 删除数据

摘要： python脚本删除es 数据附代码 from Elasticsearch import Elasticsearch host = '20.0.0.11:9200' es = Elasticsearch([host]) query = {'query': {'match': {'url': 'ht 阅读全文

posted @ 2020-12-29 17:47 淋哥阅读(2203) 评论(0) 推荐(0)

2020年11月24日

centos 7 安装mysql 8.0 详细教程（亲测有效）(想安装几个数据库就去安装几个数据库)

摘要： 1. 查看系统版本 2. 登录linux系统新建文件夹执行命令 mkdir /home/test/mysql 3. 下载mysql 数据库 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.20-el7-x86_64.tar 阅读全文

posted @ 2020-11-24 13:29 淋哥阅读(1445) 评论(0) 推荐(0)

2020年11月18日

发布时间提取正则汇总

摘要： # 日期正则匹配 DATETIME_PATTERN = [ r"(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])", r"(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[ 阅读全文

posted @ 2020-11-18 15:16 淋哥阅读(314) 评论(0) 推荐(1)

2020年10月29日

火狐Firefox浏览器的历史版本下载地址

摘要：火狐Firefox浏览器的历史版本下载地址下载地址： https://ftp.mozilla.org/pub/firefox/releases/ 火狐Firefox浏览器驱动下载地址 https://github.com/mozilla/geckodriver/releases 阅读全文

posted @ 2020-10-29 14:30 淋哥阅读(854) 评论(0) 推荐(1)

2020年10月16日

xpath提取网页的所有href标签

摘要： from lxml import etree html = "需要解析的网页" html = etree.HTML(html) #获取所有的href属性 url_list = html.xpath("//*/@href") for url in url_list: print(url) 阅读全文

posted @ 2020-10-16 17:31 淋哥阅读(3280) 评论(0) 推荐(1)

2020年10月13日

win10 安装 pyHook python2.7

摘要：第一步：打开链接 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyhook ，下载 pyHook‑1.5.1‑cp27‑cp27m‑win_amd64.whl ，把文章 pyHook‑1.5.1‑cp27‑cp27m‑win_amd64.whl 改为阅读全文

posted @ 2020-10-13 15:22 淋哥阅读(339) 评论(0) 推荐(0)

2020年10月12日

mysql count 统计数据行数速度慢的解决方案

摘要：问题描述：有一个mysql数据表，想去统计一下具体有多少行数据，于是就使用了 SELECT COUNT(url_id) FROM `spider_71_ggzy_zgzfcgw_content` 查询了好久也没有出来，有什么解决办法呢？查询速度慢的原因是什么？ innodb引擎在统计方面和my 阅读全文

posted @ 2020-10-12 11:13 淋哥阅读(7899) 评论(0) 推荐(0)

2020年10月11日

爬虫 Content-Type: text/x-gwt-rpc; charset=UTF-8

摘要： Content-Type: text/x-gwt-rpc; charset=UTF-8 下载某个统计局网站，它的 Content-Type: text/x-gwt-rpc; charset=UTF-8 请求方式是 post 请求一言不合就上代码 url = 'http://data.ahtjj.g 阅读全文

posted @ 2020-10-11 16:38 淋哥阅读(784) 评论(0) 推荐(0)

2020年7月12日

python SQLserver 查询得到字典格式数据

摘要：直接上代码吧 import pymssql conn = pymssql.connect(host='111111', database='111111', user='1111111', password='11111111', autocommit=True) #核心代码 cursor = co 阅读全文

posted @ 2020-07-12 13:50 淋哥阅读(1058) 评论(0) 推荐(0)

英雄莫问出处,富贵当思缘由

公告