爬虫笔记
一个很有趣的个人博客,不信你来撩 fangzengye.com
pattern匹配
pattern = re.compile('正则表达式', re.S)‘.*?’经常用到,匹配第一次出现,没有问号则直接匹配到最后一个
items = re.findall(pattern,html_text)返回匹配模型的各自列表的元组
pattern = re.compile('.*?([0-9]{6})', re.S)匹配6位数
html = urlopen('http://quote.eastmoney.com/stock_list.html')
bs = BeautifulSoup(html, 'lxml')
注意解析使用 lxml
我的个人博客fangzengye.com, 欢迎来撩哦!
原文博主: 热衷开源的宝藏Boy
版权声明: 自由转载-非商用-禁止演绎-保持署名| CC BY-NC-ND 3.0
浙公网安备 33010602011771号