爬虫笔记

一个很有趣的个人博客,不信你来撩 fangzengye.com



pattern匹配

pattern = re.compile('正则表达式', re.S)‘.*?’经常用到,匹配第一次出现,没有问号则直接匹配到最后一个
items = re.findall(pattern,html_text)返回匹配模型的各自列表的元组
pattern = re.compile('.*?([0-9]{6})', re.S)匹配6位数

html = urlopen('http://quote.eastmoney.com/stock_list.html')
bs = BeautifulSoup(html, 'lxml')

注意解析使用 lxml

posted @ 2020-05-17 15:10  开源的Boy  阅读(35)  评论(0)    收藏  举报