.Stewart - 博客园

2020年7月26日

摘要： 1：先查看豆瓣的官网 2：按f12进行解析，分析 3：:实现对豆瓣top250的影片信息爬取 4：建立Mongodb连接，用于数据保存 5：抓取top250电影的上映时间、国家、评分、类型、评价人数 def get_movie_list(url,headers): # 实例化soup对象，便于处阅读全文

posted @ 2020-07-26 14:01 .Stewart 阅读(384) 评论(0) 推荐(0)

2020年4月21日

爬取天天基金网、股票数据

摘要： 1：首先，开始分析天天基金网的一些数据。经过抓包分析，可知： ./fundcode_search.js包含所有基金的数据，同时，该地址具有反爬机制，多次访问将会失败的情况。 2：同时，经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js 阅读全文

posted @ 2020-04-21 22:08 .Stewart 阅读(3968) 评论(1) 推荐(1)

2020年4月20日

爬取大众点评

摘要： clear_data.py #!/usr/bin/env python # -*- coding: utf-8 -*- import requests from docx import Document from docx.shared import Inches,Pt from docx.oxml 阅读全文

posted @ 2020-04-20 17:27 .Stewart 阅读(797) 评论(0) 推荐(0)

2020年3月18日

python爬取百度今日热点事件排行榜

摘要： 1 导入相应的库 2 爬取网站url： http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b1 3 找到爬取的内容 4 具体的代码实现 import requestsfrom bs4 import BeautifulSoupurl = 'http:// 阅读全文

posted @ 2020-03-18 23:18 .Stewart 阅读(680) 评论(0) 推荐(0)

公告