摘要:        
本文测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:获取动态加载数据(selenium)(某站) ,本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x*    阅读全文
posted @ 2021-05-19 22:58
thoustree
阅读(185)
评论(0)
推荐(0)
        
            
        
        
摘要:        
如果网站数据是动态加载,需要不停往下拉进度条才能显示数据,用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。 本文希望找到某乎某话题下讨论较多的问题,以此再寻找每一问题涉及的话题关键词(侵删)。 下面代码采用driver.execute_script("window.scrollTo(0    阅读全文
posted @ 2021-05-19 22:01
thoustree
阅读(798)
评论(0)
推荐(0)
        
            
        
        
摘要:        
注:本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException     阅读全文
posted @ 2021-05-19 16:52
thoustree
阅读(543)
评论(2)
推荐(0)
        
            
        
        
摘要:        
1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求,常常会添加请求头"user-agent",以及登录"cookie"等参数 1.1.1 user-agent 登录网站,将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站,将    阅读全文
posted @ 2021-05-19 00:04
thoustree
阅读(790)
评论(0)
推荐(0)
        

浙公网安备 33010602011771号