我是毛毛虫

2016年11月8日

利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集及MySQL数据库操作

摘要：转载请注明出处利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集 1.任务采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息将以上数据存入MySQL数据库采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息将以上数据存入My 阅读全文

posted @ 2016-11-08 11:06 我是毛毛虫阅读(1172) 评论(0) 推荐(0)

2016年11月4日

python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库

摘要： python2.7爬取豆瓣电影top250并分别写入到TXT，Excel，MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影中文名的采集可以阅读全文

posted @ 2016-11-04 10:11 我是毛毛虫阅读(3053) 评论(0) 推荐(0)

2016年11月3日

python2.7抓取豆瓣电影top250

摘要：利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫，利用工具（如浏览器）查看网页HTML文件的相关内容是很有必要，我使用的是Firefox浏览器，并安装了Firebug插件，这个插件可以方便查看包括HTML在内许多内容阅读全文

posted @ 2016-11-03 13:47 我是毛毛虫阅读(1787) 评论(0) 推荐(0)

2016年10月28日

python爬取糗百第一页的笑话

摘要：自学python网络爬虫，发现request比urllib还是要好用一些，因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取，当然select也是一个不错的选择。下面是临时的阅读全文

posted @ 2016-10-28 20:49 我是毛毛虫阅读(560) 评论(0) 推荐(0)

公告