• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
娃
博客园    首页    新随笔    联系   管理    订阅  订阅
html页面爬虫
from bs4 import BeautifulSoup
import re
soup=BeautifulSoup('''<!DOCTYPE html>
                   <html1>
                   <head>
                   <meta charset="utf-8">
                   <title>菜鸟教程(runoob.com)</title>
                   </head>
                   <body>
                       <hl>我的第一标题</hl>
                       <p id="first">我的第一个段落。</p>
                   </body>
                           <table border="1">
                       <tr>
                           <td>row 1, cell 1</td>
                           <td>row 1, cell 2</td>
                       </tr>
                       <tr>
                           <td>row 2, cell 1</td>
                           <td>row 2, cell 2</td>
                       <tr>
                   </table>
                   </html>''')
print("打印head标签和我的学号")
print(soup.head,"我的学号:03") 
print("获取body标签内容",soup.body) 
print("获取id为first的标签对象",soup.find_all(id="first")) 
st=soup.text
pp = re.findall(u'[\u1100-\uFFFDh]+?',st)
print("获取并打印html页面中的中文字符")
print(pp)

  

posted on 2020-12-14 19:14  娃  阅读(238)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3