摘要: 网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 阅读全文
posted @ 2018-06-05 12:23 nick560 阅读(3975) 评论(0) 推荐(0) 编辑
摘要: 整理如下:待补充mark 银行 爬虫 前端 数据库 Django excel 每一天都是新的自己 阅读全文
posted @ 2018-05-16 11:23 nick560 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 催收分案数据,邮箱开启smtp服务 阅读全文
posted @ 2019-09-09 20:20 nick560 阅读(561) 评论(0) 推荐(0) 编辑
摘要: #-*- coding:utf-8 -*- import os import os.path import csv rootdir = "/Users/ying/Documents" # folder stores csv files for parent,dirnames,filenames in os.walk(rootdir): for filename in file... 阅读全文
posted @ 2019-05-19 16:13 nick560 阅读(752) 评论(0) 推荐(0) 编辑
摘要: import pyocrimport importlibimport sysimport time importlib.reload(sys)time1 = time.time() import os.pathfrom pdfminer.pdfparser import PDFParser, PDF 阅读全文
posted @ 2019-04-10 14:36 nick560 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 1、引入 from selenium import webdriver from selenium.webdriver import ActionChains # 滑动验证码 from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By 阅读全文
posted @ 2018-10-03 16:19 nick560 阅读(510) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver from selenium.webdriver.common.keys import Keys from time #time。sleep()实现延时 profile = webdriver.FirefoxProfile() profile.set_preference('browser.download.dir', 'd:\\... 阅读全文
posted @ 2018-10-02 16:06 nick560 阅读(839) 评论(0) 推荐(0) 编辑
摘要: 担保,是债权人为保障其债权实现而采取的一种法律措施。 什么是反担保? 反担保,又可称为求偿担保,偿还约定书获反保证书。是指为保障债务人之外的担保人将来承担担保责任后对债务人的追偿权的实现而设定的担保。 打个比方:B向A借钱,由C提供担保,清偿期届满,B未履行债务,C须承担担保责任,代B清偿A的债务, 阅读全文
posted @ 2018-08-16 14:49 nick560 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 说到mysql,我们立刻想起它体积小、速度快、还开源的特点,所以它应用颇广。今天我们来总结一下mysql中最频繁的两个操作:插入和查询,的优化方法。 插入: 一、文本导入 使用LOAD DATA INFILE从文本下载数据这将比使用插入语句快20倍。 示例: load data local infi 阅读全文
posted @ 2018-06-20 00:17 nick560 阅读(3469) 评论(0) 推荐(0) 编辑
摘要: 一、numpy概述 numpy(Numerical Python)提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 二、创建ndarray数组 ndarray:N维数组对象( 阅读全文
posted @ 2018-06-16 15:35 nick560 阅读(153) 评论(0) 推荐(0) 编辑
摘要: <script type="text/javascript"> var x = 1; var y = 0; var z = 0; function add(n){n=n+1;} y = add(x); function add(n){n=n+3;} z = add(x); s=y+z; </scri 阅读全文
posted @ 2018-06-14 22:11 nick560 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 速度问题 最近工作中遇到这么一个问题,全站抓取时采用分布式:爬虫A与爬虫B,爬虫A给爬虫B喂饼,爬虫B由于各种原因运行的比较慢,达不到预期效果,所以必须对爬虫B进行优化。 提升Scrapy运行速度有很多方法,国外有大佬说过 Speed up web scraper Here's a collecti 阅读全文
posted @ 2018-06-14 21:44 nick560 阅读(1448) 评论(0) 推荐(0) 编辑