2018 年 6月随笔档案 - nick560

mysql查询插入优化

摘要：说到mysql，我们立刻想起它体积小、速度快、还开源的特点，所以它应用颇广。今天我们来总结一下mysql中最频繁的两个操作：插入和查询，的优化方法。插入：一、文本导入使用LOAD DATA INFILE从文本下载数据这将比使用插入语句快20倍。示例： load data local infi 阅读全文

posted @ 2018-06-20 00:17 nick560

numpy

摘要：一、numpy概述 numpy（Numerical Python）提供了python对多维数组对象的支持：ndarray，具有矢量运算能力，快速、节省空间。numpy支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。二、创建ndarray数组 ndarray：N维数组对象（阅读全文

posted @ 2018-06-16 15:35 nick560

js

摘要：<script type="text/javascript"> var x = 1; var y = 0; var z = 0; function add(n){n=n+1;} y = add(x); function add(n){n=n+3;} z = add(x); s=y+z; </scri 阅读全文

posted @ 2018-06-14 22:11 nick560

MongoDB插入优化

摘要：速度问题最近工作中遇到这么一个问题，全站抓取时采用分布式：爬虫A与爬虫B，爬虫A给爬虫B喂饼，爬虫B由于各种原因运行的比较慢，达不到预期效果，所以必须对爬虫B进行优化。提升Scrapy运行速度有很多方法，国外有大佬说过 Speed up web scraper Here's a collecti 阅读全文

posted @ 2018-06-14 21:44 nick560

极验验证码

摘要：from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.suppor... 阅读全文

posted @ 2018-06-11 11:13 nick560

新浪微博爬虫项目

摘要：利用scrapy、proxy_pool、cookie_pool抓取新浪微博：用户信息、关注列表、粉丝列表、微博内容，信息保存至MongoDB。以几个大V为起点，爬取个人信息、粉丝、关注、微博信息，然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息，以此类推，实现递归爬取。 1、 spider 阅读全文

posted @ 2018-06-11 11:02 nick560

time

摘要：import datetime import json dic = { 'k1':123, 'ctime':datetime.datetime.now() } class MyEncoder(json.JSONEncoder): def default(self, o): # o是数据类型 if i 阅读全文

posted @ 2018-06-10 20:07 nick560

黑客增长

摘要：全书的结构：作者首先介绍了Growth Hacker的发展历史，然后以时间轴的形式介绍了一个产品的发展过程（AARRR），产品诞生，获取种子用户，激发用户活跃度，提高用户的留存率，增加产品的利润，进行病毒传播，最后以一些产品为例介绍了相对完整的初期发展过程。读完全书的感受，Growth Hacke 阅读全文

posted @ 2018-06-10 12:19 nick560

python2 3 区别

摘要：python 2.4 与 python 3.0 的比较一、 print 从语句变为函数原: print 1, 2+3 改为: print ( 1, 2+3 ) 二、range 与 xrange 原 : range( 0, 4 ) 结果是列表 [0,1,2,3 ] 改为：list( range 阅读全文

posted @ 2018-06-08 16:57 nick560

爬虫高性能相关

摘要：1、多线程 #IO密集型程序应该用多线程 import requests from threading import Thread,current_thread def parse_page(res): print('%s 解析 %s' %(current_thread().getName(),le 阅读全文

posted @ 2018-06-08 12:44 nick560

登录_爬取并筛选拉钩网职位信息_自动提交简历

摘要：拉勾网验证流程： 1、请求登录页面：请求url为：https://passport.lagou.com/login/login.html 请求头并没有什么内容，带上简单的Host，User-Agent把自己伪装成浏览器即可响应头里包含有效的cookie信息 Set-Cookie:JSESSION 阅读全文

posted @ 2018-06-06 21:20 nick560

tesseract-ocr 传统验证码识别

摘要：mark 阅读全文

posted @ 2018-06-06 15:47 nick560

scrapy-redis

摘要：1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL（!!!!!!!!! 优先阅读全文

posted @ 2018-06-05 18:12 nick560

scrapy

摘要：1、基本命令： 2、custom_settings custom_settings值为一个字典，定义一些配置信息，在运行爬虫程序时，这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前)，由于settings会在类实例化前加载，但是后来居上cus 阅读全文

posted @ 2018-06-05 17:47 nick560

爬虫相关法律知识

摘要：网络爬虫道德的话：客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施，这个安全法在爬虫的这一块宝地上掀一阵大风波，到处都在转这篇试图解读该规定的文章：「你的爬虫会送老板进监狱吗？阅读全文

posted @ 2018-06-05 12:23 nick560

scrapy下载大文件

摘要：1、spider.py # -*- coding: utf-8 -*- import scrapy from ..items import BigfileItem class ChoutiSpider(scrapy.Spider): name = "chouti" allowed_domains = 阅读全文

posted @ 2018-06-05 11:28 nick560

Scrapy 和 scrapy-redis的区别

摘要：Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-06-04 20:53 nick560

平安简单分析

摘要：1、爬虫数据收集 import os import requests import pandas as pd headers={'User-Agent':'Mozilla 5.0'} def get_data_and_save(year_month): ''' 获取中国平安规模保费数据并保存为csv 阅读全文

posted @ 2018-06-01 10:40 nick560

requests模块

摘要：#如果URL中传参数查询关键词是中文或者有其他特殊符号，则必须进行url编码 urlencode 旧写法一介绍二基于GET请求三基于POST请求四响应Response 五高级用法一介绍 #介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，reque 阅读全文

posted @ 2018-06-01 10:39 nick560

Os Sys

摘要：这个模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话，这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动，也不会发生任何问题，就可以在Linux和Windows下运行。一个例子就是使用os.sep可以取代操作系统特定的路径分割符。下面列出了一些在os模块中比较有用的部分。阅读全文

posted @ 2018-06-01 10:39 nick560

word_python

摘要：#########################docx文件############################ ''' .docx文件有很多结构,有3种不同的类型来表示在最高一层,Document对象表示整个文档 Document对象包含一个Paragraph对象的列表,表示文档中的段落, 阅读全文

posted @ 2018-06-01 10:39 nick560

代理池&cookie池

该文被密码保护。

posted @ 2018-06-01 10:39 nick560

nick560

06 2018 档案

公告