随笔分类 -  python爬虫

python爬虫学习
摘要:id, 名称, 上映年份,上映日期,所属类目, 导演,主演,片长,评分,星评,评价人数 2. 把这些数据做一个分类。 a..基本信息 :名称, 导演,上映年份, 所属类目, 片长 b.评价信息:评分,星评,评价人数 c.主演表: 主演(我在纠结要不要单独列一张表) 3 .表设计。现在有点蛋疼的是主键 阅读全文
posted @ 2018-08-23 23:29 早起的虫儿去吃鸟 阅读(837) 评论(0) 推荐(0)
摘要:1. 最近略忙。。java在搞soap,之前是用工具自动生成代码的。最近可能会写一个soap的java调用 2. 这个豆瓣电影的爬虫。扒信息的部分暂时先做到这了。扒到的信息如下 输出如下 把这些狗东西封装成一个方法。并且随便找几个豆瓣电影的url试一下。在多尝试几个url之后,会报一些问题,主要是没 阅读全文
posted @ 2018-08-18 14:57 早起的虫儿去吃鸟 阅读(398) 评论(0) 推荐(0)
摘要:豆瓣就比较符合这个“明人不说暗话”的原则。所以我们扒豆瓣,不多说,直接上代码 输出: 简单粗暴 阅读全文
posted @ 2018-08-16 00:57 早起的虫儿去吃鸟 阅读(299) 评论(0) 推荐(0)
摘要:上回写到一半临时有事,竟然没有保存到!!!。这几天也是因为家人过来玩。。我也不知道写到哪儿了。我发现狗东这个奸贼很多数据是请求请求再请求,然后才拿到我们看到的数据显示上去的。我尝试了一下找齐这个数据确实有点头疼(我有查到可以用一个东西模拟浏览器去得到我们最终的页面,但是本着练习为主的思想,先不搞这么 阅读全文
posted @ 2018-08-13 19:52 早起的虫儿去吃鸟 阅读(482) 评论(0) 推荐(0)
摘要:1. 上一篇我们已经稍微体验了一下用 urllib 和 BeautifulSoup 爬数据的基本操作。现在开始正式准备扒一个网站了。 1)首先确定扒谁? 由于我对狗东恨之入骨(狗贼刘强东老太可恶了,用我的钱,养我的奶茶妹,这种人,人人得而诛之!!!), 所以我们打算扒强东。 2)狗东有什么数据? 商 阅读全文
posted @ 2018-08-01 21:22 早起的虫儿去吃鸟 阅读(862) 评论(0) 推荐(0)
摘要:先写个demo获取数据,我不会做太多介绍,基本上都会写在注释里。 header 的数据一般就是在浏览器的调试工具里,有的网站访问需要登陆,就要加cookie。像Chrome的调试工具 快捷键是F12. 去到新浪首页,按F12调出开发者工具,然后刷新。在Network下拉到最上面就能看到一开始的请求信 阅读全文
posted @ 2018-07-30 20:40 早起的虫儿去吃鸟 阅读(280) 评论(0) 推荐(0)
摘要:python小白,稍微看了点语法而已, 连字典的切片都永不顺的那种。本身是写java的,其实java也写得菜, 每天下了班不是太想写java。所以下班总是乱搞,什么都涉猎一点,也没什么太实际的收获。现在打算慢慢写个python爬虫玩 1. python环境搭建。我在windows上也是搭了pytho 阅读全文
posted @ 2018-07-30 19:53 早起的虫儿去吃鸟 阅读(1294) 评论(0) 推荐(0)