python：爬取博主的所有文章的链接、标题和内容

以爬取我自己的博客为例：https://www.cnblogs.com/Mr-choa/

1、获取所有的文章的链接：

博客文章总共占两页，比如打开第一页：https://www.cnblogs.com/Mr-choa/default.html?page=1的HTML源文件

每篇博客文章的链接都在a标签下，并且具有class属性为"postTitle2"，其href属性就指向这篇博文的地址

简单爬取自己的一篇博客文章

</a>

这样我们可以通过正则表达式获取博文的地址，获取所有的文章的链接就要对博客的页数做一个遍历：

模块代码实现：

# 获取所有的链接
def get_Urls(url,pageNo):
    """
    根据url，pageNo，能够返回该博主所有的文章url列表
    :param url:
    :param pageNo:
    :return:
    """
    # 创建一个list，用来装博客文章的地址
    total_urls=[]
    # 对页数做个遍历
    for i in range(1,pageNo+1):
        # 页数的地址
        url_1=url+str(i)
        # 获取这一页的全部源代码
        html=get_html(url_1)
        # 创建一个属性
        title_pattern=r'<a.*class="postTitle2".*href="(.*)">'
        # 通过正则表达式找到所有相关属性的数据，就是所有的博客文章的链接
        urls=re.findall(title_pattern,html)
        # 把链接放到list容器内
        for url_ in urls:
            total_urls.append(url_)
    #print(total_urls.__len__())
    # 返回所有博客文章的链接
    return total_urls

2、获取全部源代码

代码实现：

# 获取网页源码
def get_html(url):
    """
    返回对应url的网页源码，经过解码的内容
    :param url:
    :return:
    """
    # 创建一个请求对象
    req = urllib.request.Request(url)
    # 发起请求，urlopen返回的是一个HTTPResponse对象
    resp = urllib.request.urlopen(req)
    # 获取HTTP源代码，编码格式为utf-8
    html_page = resp.read().decode('utf-8')
    # 返回网页源码
    return html_page

或者用requests库实现：

def get_html(url):
    # 创建一个响应对象
    response=requests.get(url)
    # 获取整个网页的HTML内容
    html_page=response.text
    # 返回网页的HTML内容
    return html_page

3、获取博客文章的标题

代码实现：

# 获取博客文章的标题
def get_title(url):
    '''
    获取对应url下文章的标题
    :param url:
    :return:
    '''
    # 通过博文的地址获取到源代码
    html_page = get_html(url)
    # 创建str变量
    title_pattern = r'(<a.*id="cb_post_title_url".*>)(.*)(</a>)'
    # 匹配到相关的数据
    title_match = re.search(title_pattern, html_page)
    # 获取标题
    title = title_match.group(2)
    # 返回标题
    return title

4、获取博客文章的所有文本

代码实现：

# 获取博客文章的文本
def get_Body(url):
    """
    获取对应url的文章的正文内容
    :param url:
    :return:
    """
    html_page = get_html(url)
    soup = BeautifulSoup(html_page, 'html.parser')
    div = soup.find(id="cnblogs_post_body")
    return div.text

5、保存文章

代码实现：

# 保存文章
def save_file(url):
    """
    根据url，将文章保存到本地
    :param url:
    :return:
    """
    title=get_title(url)
    body=get_Body(url)
    filename="Mr_choa"+'-'+title+'.txt'
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(title)
        f.write(url)
        f.write(body)
# 遍历所有的博客文章链接，保存博客的文章
def save_files(url,pageNo):
    '''
    根据url和pageNo，保存博主所有的文章
    :param url:
    :param pageNo:
    :return:
    '''
    totol_urls=get_Urls(url,pageNo)
    for url_ in totol_urls:
        save_file(url_)

显示所有的代码：

import requests
import urllib.request
import re
from bs4 import BeautifulSoup
#该作者的博文一共有多少页
pageNo=2
#后面需要添加页码
url='https://www.cnblogs.com/Mr-choa/default.html?page='
# 获取网页源码
def get_html(url):
    """
    返回对应url的网页源码，经过解码的内容
    :param url:
    :return:
    """
    # 创建一个请求对象
    req = urllib.request.Request(url)
    # 发起请求，urlopen返回的是一个HTTPResponse对象
    resp = urllib.request.urlopen(req)
    # 获取HTTP源代码，编码格式为utf-8
    html_page = resp.read().decode('utf-8')
    # 返回网页源码
    return html_page

'''# 获取网页源代码
def get_html(url):
    # 创建一个响应对象
    response=requests.get(url)
    # 获取整个网页的HTML内容
    html_page=response.text
    # 返回网页的HTML内容
    return html_page
'''

# 获取博客文章的标题
def get_title(url):
    '''
    获取对应url下文章的标题
    :param url:
    :return:
    '''
    # 通过博文的地址获取到源代码
    html_page = get_html(url)
    # 创建str变量
    title_pattern = r'(<a.*id="cb_post_title_url".*>)(.*)(</a>)'
    # 匹配到相关的数据
    title_match = re.search(title_pattern, html_page)
    # 获取标题
    title = title_match.group(2)
    # 返回标题
    return title
# 获取博客文章的文本
def get_Body(url):
    """
    获取对应url的文章的正文内容
    :param url:
    :return:
    """
    # 通过博客文章的链接,获取博客文章的源代码
    html_page = get_html(url)
    # 创建对象，基于bs4库HTML的格式输出
    soup = BeautifulSoup(html_page, 'html.parser')
    # 定义一个soup进行find（）方法处理的标签
    div = soup.find(id="cnblogs_post_body")
    # 返回博客文章内容
    return div.text
# 保存文章
def save_file(url):
    """
    根据url，将文章保存到本地
    :param url:
    :return:
    """
    title=get_title(url)
    body=get_Body(url)
    filename="Mr_choa"+'-'+title+'.txt'
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(title)
        f.write(url)
        f.write(body)
# 遍历所有的博客文章链接，保存博客的文章
def save_files(url,pageNo):
    '''
    根据url和pageNo，保存博主所有的文章
    :param url:
    :param pageNo:
    :return:
    '''
    totol_urls=get_Urls(url,pageNo)
    for url_ in totol_urls:
        save_file(url_)
# 获取所有的链接
def get_Urls(url,pageNo):
    """
    根据url，pageNo，能够返回该博主所有的文章url列表
    :param url:
    :param pageNo:
    :return:
    """
    # 创建一个list，用来装博客文章的地址
    total_urls=[]
    # 对页数做个遍历
    for i in range(1,pageNo+1):
        # 页数的地址
        url_1=url+str(i)
        # 获取这一页的全部源代码
        html=get_html(url_1)
        # 创建一个属性
        title_pattern=r'<a.*class="postTitle2".*href="(.*)">'
        # 通过正则表达式找到所有相关属性的数据，就是所有的博客文章的链接
        urls=re.findall(title_pattern,html)
        # 把链接放到list容器内
        for url_ in urls:
            total_urls.append(url_)
    #print(total_urls.__len__())
    # 返回所有博客文章的链接
    return total_urls
save_files(url,pageNo)

View Code

效果：

打开.txt:

参考博客：https://www.cnblogs.com/xingzhui/p/7845675.html

posted @ 2020-04-02 13:58 Mr_choa 阅读(3393) 评论(1) 收藏举报

刷新页面返回顶部

Mr_choa

python：爬取博主的所有文章的链接、标题和内容

公告