爬虫笔记

pattern匹配

pattern = re.compile('正则表达式', re.S)‘.*？’经常用到，匹配第一次出现，没有问号则直接匹配到最后一个
items = re.findall(pattern,html_text)返回匹配模型的各自列表的元组
pattern = re.compile('.*?([0-9]{6})', re.S)匹配6位数

html = urlopen('http://quote.eastmoney.com/stock_list.html')
bs = BeautifulSoup(html, 'lxml')

注意解析使用 lxml

posted @ 2020-05-17 15:10 开源的Boy 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

爬虫笔记

公告