摘要:        
# 1.定位到来电分类分区 # 2. 提取子页面的连接地址 child_href1 # 3. 在子页面提取想要的数据 # 4. 再定位到详细来电,进入二重子页面 # 5. 提取二重子页面连接地址 child_href2 # 6. 在二重子页面(来电情况)里提取想要的数据 代码如下: 1 # 1.定位    阅读全文
posted @ 2022-10-28 22:57
slowlydance2me
阅读(102)
评论(0)
推荐(0)
        
            
        
        
摘要:        
1.使用元素定位:找到一个模块的分区,复制它完整的Xpath 2. 修饰并利用循环得出每一个模块 import requests from lxml import etree # 获取源码 url = "https://chengdu.zbj.com/search/service/?kw=saas"    阅读全文
posted @ 2022-10-28 20:40
slowlydance2me
阅读(348)
评论(0)
推荐(0)
        
            
        
        
摘要:        
xpath 是在XML文档中搜索内容的一门语言 html是xml的一个子集 xml代码示例 """ <book> <id>1</id> <name>野花遍地香</name> <price>1.23</price> <author> <nick>周大枪</nick> <nick>周芷若</nick>     阅读全文
posted @ 2022-10-28 19:57
slowlydance2me
阅读(38)
评论(0)
推荐(0)
        
            
        
        
摘要:        
# 1.拿到主页面主代码,拿到子页面连接地址,href # 2.通过href拿到子页面内容,从子页面中找到图片的下载地址 img -> src # 3. 下载图片 import requests from bs4 import BeautifulSoup import time import url    阅读全文
posted @ 2022-10-28 19:30
slowlydance2me
阅读(172)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Bs4 bs4全称:beautifulsoup4,意思为美丽的汤版本4 可以在HTML或XML文件中提取数据的网页信息提取库 与re和xpath模块的区别: re模块:使用起来过于麻烦且阅读性不好 xpath模块:需要使用一些特定的语法 bs4模块:只需要记住一些方法如:find()、find_al    阅读全文
posted @ 2022-10-28 13:33
slowlydance2me
阅读(116)
评论(0)
推荐(0)
        

 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号