06 2018 档案

摘要:说到mysql,我们立刻想起它体积小、速度快、还开源的特点,所以它应用颇广。今天我们来总结一下mysql中最频繁的两个操作:插入和查询,的优化方法。 插入: 一、文本导入 使用LOAD DATA INFILE从文本下载数据这将比使用插入语句快20倍。 示例: load data local infi 阅读全文
posted @ 2018-06-20 00:17 nick560
摘要:一、numpy概述 numpy(Numerical Python)提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 二、创建ndarray数组 ndarray:N维数组对象( 阅读全文
posted @ 2018-06-16 15:35 nick560
摘要:<script type="text/javascript"> var x = 1; var y = 0; var z = 0; function add(n){n=n+1;} y = add(x); function add(n){n=n+3;} z = add(x); s=y+z; </scri 阅读全文
posted @ 2018-06-14 22:11 nick560
摘要:速度问题 最近工作中遇到这么一个问题,全站抓取时采用分布式:爬虫A与爬虫B,爬虫A给爬虫B喂饼,爬虫B由于各种原因运行的比较慢,达不到预期效果,所以必须对爬虫B进行优化。 提升Scrapy运行速度有很多方法,国外有大佬说过 Speed up web scraper Here's a collecti 阅读全文
posted @ 2018-06-14 21:44 nick560
摘要:from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.suppor... 阅读全文
posted @ 2018-06-11 11:13 nick560
摘要:利用scrapy、proxy_pool、cookie_pool抓取新浪微博:用户信息、关注列表、粉丝列表、微博内容,信息保存至MongoDB。以几个大V为起点,爬取个人信息、粉丝、关注、微博信息,然后继续获取这些粉丝和关注的个人信息、粉丝、关注、微博信息,以此类推,实现递归爬取。 1、 spider 阅读全文
posted @ 2018-06-11 11:02 nick560
摘要:import datetime import json dic = { 'k1':123, 'ctime':datetime.datetime.now() } class MyEncoder(json.JSONEncoder): def default(self, o): # o是数据类型 if i 阅读全文
posted @ 2018-06-10 20:07 nick560
摘要:全书的结构:作者首先介绍了Growth Hacker的发展历史,然后以时间轴的形式介绍了一个产品的发展过程(AARRR),产品诞生,获取种子用户,激发用户活跃度,提高用户的留存率,增加产品的利润,进行病毒传播,最后以一些产品为例介绍了相对完整的初期发展过程。 读完全书的感受,Growth Hacke 阅读全文
posted @ 2018-06-10 12:19 nick560
摘要:python 2.4 与 python 3.0 的比较 一、 print 从语句变为函数 原: print 1, 2+3 改为: print ( 1, 2+3 ) 二、range 与 xrange 原 : range( 0, 4 ) 结果 是 列表 [0,1,2,3 ] 改为:list( range 阅读全文
posted @ 2018-06-08 16:57 nick560
摘要:1、多线程 #IO密集型程序应该用多线程 import requests from threading import Thread,current_thread def parse_page(res): print('%s 解析 %s' %(current_thread().getName(),le 阅读全文
posted @ 2018-06-08 12:44 nick560
摘要:拉勾网验证流程: 1、请求登录页面: 请求url为:https://passport.lagou.com/login/login.html 请求头并没有什么内容,带上简单的Host,User-Agent把自己伪装成浏览器即可 响应头里包含有效的cookie信息 Set-Cookie:JSESSION 阅读全文
posted @ 2018-06-06 21:20 nick560
摘要:1、settings.py 配置链接Redis REDIS_HOST = '192.168.11.81' # 主机名 REDIS_PORT = 6379 # 端口 # REDIS_URL = 'redis://user:pass@hostname:9001' # 连接URL(!!!!!!!!! 优先 阅读全文
posted @ 2018-06-05 18:12 nick560
摘要:1、基本命令: 2、custom_settings custom_settings值为一个字典,定义一些配置信息,在运行爬虫程序时,这些配置会覆盖项目级别的配置。所以custom_settings必须被定义成一个类属性(放在parse之前),由于settings会在类实例化前加载,但是后来居上cus 阅读全文
posted @ 2018-06-05 17:47 nick560
摘要:网络爬虫道德的话:客户授权or爬取公开数据、尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。 2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 阅读全文
posted @ 2018-06-05 12:23 nick560
摘要:1、spider.py # -*- coding: utf-8 -*- import scrapy from ..items import BigfileItem class ChoutiSpider(scrapy.Spider): name = "chouti" allowed_domains = 阅读全文
posted @ 2018-06-05 11:28 nick560
摘要:Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供 阅读全文
posted @ 2018-06-04 20:53 nick560
摘要:1、爬虫数据收集 import os import requests import pandas as pd headers={'User-Agent':'Mozilla 5.0'} def get_data_and_save(year_month): ''' 获取中国平安规模保费数据并保存为csv 阅读全文
posted @ 2018-06-01 10:40 nick560
摘要:#如果URL中 传参数 查询关键词是中文或者有其他特殊符号,则必须进行url编码 urlencode 旧写法 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,reque 阅读全文
posted @ 2018-06-01 10:39 nick560
摘要:这个模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Windows下运行。一个例子就是使用os.sep可以取代操作系统特定的路径分割符。 下面列出了一些在os模块中比较有用的部分。 阅读全文
posted @ 2018-06-01 10:39 nick560
摘要:#########################docx文件############################ ''' .docx文件有很多结构,有3种不同的类型来表示 在最高一层,Document对象表示整个文档 Document对象包含一个Paragraph对象的列表,表示文档中的段落, 阅读全文
posted @ 2018-06-01 10:39 nick560
该文被密码保护。
posted @ 2018-06-01 10:39 nick560