会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
我是毛毛虫
博客园
首页
新随笔
联系
订阅
管理
2016年11月8日
利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集及MySQL数据库操作
摘要: 转载请注明出处 利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集 1.任务 采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息 将以上数据存入MySQL数据库 采集豆瓣电影名称、链接、评分、导演、演员、年份、国家、评论人数、简评等信息 将以上数据存入My
阅读全文
posted @ 2016-11-08 11:06 我是毛毛虫
阅读(1162)
评论(0)
推荐(0)
2016年11月4日
python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库
摘要: python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影中文名的采集可以
阅读全文
posted @ 2016-11-04 10:11 我是毛毛虫
阅读(3040)
评论(0)
推荐(0)
2016年11月3日
python2.7抓取豆瓣电影top250
摘要: 利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用的是Firefox浏览器,并安装了Firebug插件, 这个插件可以方便查看包括HTML在内许多内容
阅读全文
posted @ 2016-11-03 13:47 我是毛毛虫
阅读(1776)
评论(0)
推荐(0)
2016年10月28日
python爬取糗百第一页的笑话
摘要: 自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的
阅读全文
posted @ 2016-10-28 20:49 我是毛毛虫
阅读(553)
评论(0)
推荐(0)
公告