2015 年 10月随笔档案 - 简易人生

使用Beautifulsoup爬取药智网数据

摘要：使用Beautifulsoup模块爬取药智网数据Tips：1.爬取多页时，先用一页的做测试，要不然ip容易被封2.自己常用的处理数据的方法：reg=re.compile('正则表达式')data=reg.sub('要替换的字符串',data)代码（其实没多少） 1 # encoding=utf-8 ... 阅读全文

posted @ 2015-10-30 19:45 简易人生阅读(1678) 评论(0) 推荐(1)

Scrapy--1安装和运行

摘要：1.Scrapy安装问题一开始是按照官方文档上直接用pip安装的，创建项目的时候并没有报错，然而在运行scrapy crawl dmoz的时候错误百粗/(ㄒoㄒ)/~~比如：ImportError: No module named _cffi_backendUnhandled error in De... 阅读全文

posted @ 2015-10-30 16:09 简易人生阅读(2003) 评论(0) 推荐(0)

BeautifulSoup学习笔记

摘要：1.如果tag最内层只有一个 NavigableString 类型子节点,那么这个tag可以直接使用tag.string 得到子节点 1 # encoding=utf-8 2 3 from bs4 import BeautifulSoup 4 5 html=''' 6 直接是可遍历的字符串 7... 阅读全文

posted @ 2015-10-20 14:32 简易人生阅读(355) 评论(0) 推荐(0)

windows下安装beautifulsoup4

摘要：方法一：pip install beautifulsoup4方法二：在官网下载安装包后，放在python目录下--运行cmd--进入bs4安装包路径--输入setup.py install测试：from bs4 import BeautifulSoup 没有报错阅读全文

posted @ 2015-10-17 13:52 简易人生阅读(327) 评论(0) 推荐(0)

简易人生

10 2015 档案

公告