引言
万事开头难!勤而行之!
实现思路
爬虫就是抓取网页数据的程序
爬虫的实现流程就三部分:获取网页丶解析网页丶储存数据
1.首先通过Requests库向指定的URl地址发送HTTP请求,从而把整个网页的数据爬取下来,
2.接着通过BeautifulSoup模块对页面数据进行分析并对目标数据定位,从而将需要的信息抽取出来
3.最后通过文件操作将文件储存到指定的文本文件中
#安装库
pip install 第三方库名
##导入模块
import requests
from bs4 import BeautifulSoup
##分析url
url = "http://www.cnblogs.com/cangshuchirou/default.html?page="
##模拟浏览器浏览服务器
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;)"
headers = { "User-Agent" : user_agent }
##拼接url
for i in range( 1,5 ):
urlf = url + str( i )
print(urlf)
## 将请求内容保存在res变量中
res = requests.get( urlf, headers = headers )
## 产生解析网页的一个对象soup
soup = BeautifulSoup( res.text, "lxml" )
## 正则抽取数据
titles = soup.find_all( 'a', {'class' : 'postTitle2'} )
## 循环数据保存指定数据到指定的文件中
for item in titles:
title = item.text.strip()
link = item['href']
with open( "d:/cang_shu_blog.txt" , "a+" ) as f:
f.write(title + "\n" + link +"\n")
结果如下:
0CRM https://www.cnblogs.com/cangshuchirou/p/9133123.html 0内置常量 https://www.cnblogs.com/cangshuchirou/p/9125039.html 0python100练 https://www.cnblogs.com/cangshuchirou/p/9112872.html 0python内置函数 https://www.cnblogs.com/cangshuchirou/p/9108313.html 0python之禅 https://www.cnblogs.com/cangshuchirou/p/9047349.html 0Django https://www.cnblogs.com/cangshuchirou/p/8963286.html 0pymsql入门 https://www.cnblogs.com/cangshuchirou/p/8952726.html 0jQuery事件 https://www.cnblogs.com/cangshuchirou/p/8921037.html 0数据库(索引) https://www.cnblogs.com/cangshuchirou/p/8780786.html 0算法基础知识 https://www.cnblogs.com/cangshuchirou/p/8780267.html 0数据库(查询专项) https://www.cnblogs.com/cangshuchirou/p/8717620.html 0数据库(所有人都坐下!这是基本操作!) https://www.cnblogs.com/cangshuchirou/p/8710319.html 0协程 https://www.cnblogs.com/cangshuchirou/p/8696330.html 0IO模型 https://www.cnblogs.com/cangshuchirou/p/8696315.html 030个python常用技巧 https://www.cnblogs.com/cangshuchirou/p/8678197.html 0线程 https://www.cnblogs.com/cangshuchirou/p/8671632.html 0管道 https://www.cnblogs.com/cangshuchirou/p/8665167.html 0多进程 https://www.cnblogs.com/cangshuchirou/p/8651478.html 0进程 https://www.cnblogs.com/cangshuchirou/p/8631239.html 0验证客户端的一致性 https://www.cnblogs.com/cangshuchirou/p/8624480.html 0黏包现象 https://www.cnblogs.com/cangshuchirou/p/8617206.html 0socket模块 https://www.cnblogs.com/cangshuchirou/p/8609837.html 0网络编程基础 https://www.cnblogs.com/cangshuchirou/p/8602689.html 0面试题 https://www.cnblogs.com/cangshuchirou/p/8585078.html 0面试题合集 https://www.cnblogs.com/cangshuchirou/p/8581611.html 0异常 https://www.cnblogs.com/cangshuchirou/p/8576285.html 0三个重要的模块loggning,hashlib,configparse https://www.cnblogs.com/cangshuchirou/p/8570064.html 0面向对象进阶 https://www.cnblogs.com/cangshuchirou/p/8559046.html 0单例模式 https://www.cnblogs.com/cangshuchirou/p/8557000.html 0反射 https://www.cnblogs.com/cangshuchirou/p/8551007.html 0封装 https://www.cnblogs.com/cangshuchirou/p/8549636.html 0开发规范 https://www.cnblogs.com/cangshuchirou/p/8530447.html 0继承,多态,接口 https://www.cnblogs.com/cangshuchirou/p/8530417.html 0面向对象多态及其继承 https://www.cnblogs.com/cangshuchirou/p/8528948.html 0面向对象三大特性 https://www.cnblogs.com/cangshuchirou/p/8522417.html 0模块的出生 https://www.cnblogs.com/cangshuchirou/p/8493361.html 0python的一些常用标准库 https://www.cnblogs.com/cangshuchirou/p/8493234.html 0re模块 https://www.cnblogs.com/cangshuchirou/p/8484630.html 0random模块 https://www.cnblogs.com/cangshuchirou/p/8483743.html 0集合文件操作 https://www.cnblogs.com/cangshuchirou/p/8392062.html 0制作python游戏(一)环境搭建 https://www.cnblogs.com/cangshuchirou/p/8433589.html 0迭代器和生成器 https://www.cnblogs.com/cangshuchirou/p/8422615.html 0py2与py3差别 https://www.cnblogs.com/cangshuchirou/p/8423855.html 0装饰器 https://www.cnblogs.com/cangshuchirou/p/8406796.html 0函数基础 https://www.cnblogs.com/cangshuchirou/p/8399879.html 0深浅copy https://www.cnblogs.com/cangshuchirou/p/8377698.html 0字符串 https://www.cnblogs.com/cangshuchirou/p/8361343.html 0range https://www.cnblogs.com/cangshuchirou/p/8341872.html 0join的基本用法和while else 特性 https://www.cnblogs.com/cangshuchirou/p/8341851.html 0字典的增删改查 https://www.cnblogs.com/cangshuchirou/p/8351337.html 0python基础数据型初探 https://www.cnblogs.com/cangshuchirou/p/8337035.html 0python基础列表元组用法 https://www.cnblogs.com/cangshuchirou/p/8341661.html 0python以及计算机原理基础简要摘录 https://www.cnblogs.com/cangshuchirou/p/8329649.html 0python bif 如何自学 https://www.cnblogs.com/cangshuchirou/p/8332100.html 0基本数据类型相互转换及操作方法 https://www.cnblogs.com/cangshuchirou/p/8351714.html 0python萌新应知应会 https://www.cnblogs.com/cangshuchirou/p/8319132.html
浙公网安备 33010602011771号