随笔分类 - 爬虫
摘要:注意事项: 1 对于爬虫的每一步都要考虑到可能出现的错误,增加代码的可靠性 2 爬虫需要分析后再写代码,保证网页在有一定的修改后依然能正确的运行 3 要增加代理保证爬虫不被限制 4 在有移动端的情况下,最好去模拟手机去爬取移动端 爬取步骤 1 获取网页内容:getHTMLText() 2 提取信息到
阅读全文
摘要:普通请求 #r.request.headers 查看请求信息 import requests url='https://api.airtable.com/v0/appU9QT7BUOev35GR/iDM?maxRecords=3&view=Grid%20view' try: kv={'user-ag
阅读全文
摘要:根据搜索爬天猫、京东、当当、孔夫子的书籍信息 天猫 import requests from bs4 import BeautifulSoup import bs4 proxies = { 'http':'<http://117.135.153.10:80>' } headers = {'User-
阅读全文

浙公网安备 33010602011771号