python - 随笔分类 - 蓝勃斐重新开始

摘要：已经爬取到的斗破苍穹文本以TXT形式存储代码结果阅读全文

posted @ 2018-05-02 14:33 蓝勃斐重新开始阅读(388) 评论(0) 推荐(0)

摘要：from selenium import webdriver url='https://www.jianshu.com/p/a64529b4ccf3' def get_info(url): include_title=[] driver=webdriver.PhantomJS() driver.get(url) driver.implicitl... 阅读全文

posted @ 2018-04-23 10:34 蓝勃斐重新开始阅读(3085) 评论(0) 推荐(0)

从照片网站pexels批量爬取照片

摘要：调试中，未成功。阅读全文

posted @ 2018-04-20 17:21 蓝勃斐重新开始阅读(1091) 评论(0) 推荐(0)

爬取豆瓣电影top250并存储到mysql数据库

摘要：import requests from lxml import etree import re import pymysql import time conn= pymysql.connect(host='localhost',user='root',passwd='root',db='mydb' 阅读全文

posted @ 2018-04-19 18:20 蓝勃斐重新开始阅读(713) 评论(0) 推荐(0)

爬取起点中文网小说介绍信息

摘要：字数的信息（word）没有得到缺失阅读全文

posted @ 2018-04-18 17:03 蓝勃斐重新开始阅读(236) 评论(0) 推荐(0)

爬取嗅事百科的段子

摘要：爬取正文（contents）时，需要转码。结果：姓名：niangaoni… 等级：23性别：男刚才看了一篇叫《抖音，快手正在毁掉我们的下一代！！》的文章，我才知道现在的00后，10后后那么逆天！我一个95后经常被他们喊着大叔的人，真的是经常被他们一些行为和语言所震惊！我从来不反感任何一个app 阅读全文

posted @ 2018-04-17 18:01 蓝勃斐重新开始阅读(345) 评论(0) 推荐(0)

爬去酷狗top500的数据

摘要：import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent... 阅读全文

posted @ 2018-04-16 15:24 蓝勃斐重新开始阅读(171) 评论(0) 推荐(0)

BeautifulSoup库测试代码

摘要：import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent... 阅读全文

posted @ 2018-04-16 11:05 蓝勃斐重新开始阅读(152) 评论(0) 推荐(0)

爬去豆瓣图书top250数据存储到csv中

摘要：from lxml import etree import requests import csv fp=open('C://Users/Administrator/Desktop/lianxi/doubanbook.csv','w+',newline='',encoding='utf-8') writer=csv.writer(fp) writer.writerow(('name','url'... 阅读全文

posted @ 2018-04-13 14:48 蓝勃斐重新开始阅读(312) 评论(0) 推荐(0)

python爬虫之路——对斗破苍穹进行关键字提取，制作噪声云图

摘要：对贴吧也可以进行同样操作阅读全文

posted @ 2018-04-09 10:11 蓝勃斐重新开始阅读(210) 评论(0) 推荐(0)

python爬虫之路——模拟登陆简单使用post方法和cookie和selenium

摘要：简单使用阅读全文

posted @ 2018-04-09 09:55 蓝勃斐重新开始阅读(540) 评论(1) 推荐(0)

python爬虫之路——使用逆行工程抓取异步加载网页数据

摘要：不断发送标志，以获得完整页面阅读全文

posted @ 2018-04-09 09:18 蓝勃斐重新开始阅读(167) 评论(0) 推荐(0)

python爬虫之路——多进程爬虫和单进程爬虫的简单对比

摘要：Cpu有几个核，就设几个进程阅读全文

posted @ 2018-04-09 09:00 蓝勃斐重新开始阅读(155) 评论(0) 推荐(0)

python爬虫之路——初识数据库存储

摘要：非关系型数据库：MongoDB。关系型数据库：MySQL 关系型和非关系型的区别：安装：使用：应用场景： mongoDB是一种非关系型数据库，分为四大类：键值存储数据库，列存储数据库，文档型数据库，图形数据库。重点学习mysql 阅读全文

posted @ 2018-04-09 08:45 蓝勃斐重新开始阅读(152) 评论(0) 推荐(0)

python爬虫之路——初识lxml库和xpath语法

摘要：lxml库：是xml解析库，也支持html文档解析功能，实用功能：自动修正补全html代码。使用流程：①导入lxml中的etree库，②利用etree.HTML(文件名)或etree.parse(本地打开，路径)进行初始化，③etree库把HTML文档解析为Element对象。 from lxml 阅读全文

posted @ 2018-04-08 16:53 蓝勃斐重新开始阅读(270) 评论(0) 推荐(0)

爬取一本小说全文

摘要：import requests import re import time headers={ #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0' 'User-Agent':'Mozilla/5.0 (Wind... 阅读全文

posted @ 2018-04-08 15:40 蓝勃斐重新开始阅读(258) 评论(0) 推荐(0)

python爬虫之路——Python的re模块及其方法

摘要：介绍常用的三种方法：search（），sub（），findall（） search（）：匹配并提取第一个符合规律的内容，然后返回一个正则表达式的对象 #提取字符串中的第一个数字 import re a='a1b2d3f4' infos=re.search('\d+',a) print(infos) 阅读全文

posted @ 2018-04-08 10:42 蓝勃斐重新开始阅读(207) 评论(0) 推荐(0)

python爬虫之路——正则表达式初识

摘要：正则表达式：是一个特殊的符号系列，检查字符串是否与指定模式匹配。 python中的re模块拥有全部的正则表达式功能。判断字符：类型：数目：有无：个数：单值区间离散判断一个字符：表示一个字符：①确定（1）字符 a,b,1,4 (2)转义字符 \. ②完全不确定（.）匹配任意单个字阅读全文

posted @ 2018-04-08 09:03 蓝勃斐重新开始阅读(164) 评论(0) 推荐(0)

案例-爬去南京地区短租房信息

摘要：啦啦,网站屏蔽太严重。很难完成阅读全文

posted @ 2018-04-03 17:12 蓝勃斐重新开始阅读(154) 评论(0) 推荐(0)

python爬虫之路——初识爬虫三大库，requests,lxml,beautiful.

摘要：三大库：requests,lxml,beautifulSoup. Request库作用：请求网站获取网页数据。 get（）的基本使用方法 #导入库 import requests #向网站发送请求，获取数据。 res= requests.get(‘http://bj.xiaozhu.com/’) # 阅读全文

posted @ 2018-03-30 11:23 蓝勃斐重新开始阅读(342) 评论(0) 推荐(0)

随笔分类 - python

公告