Kris
❤上善若水,人淡如菊❤(2019-09-19 12:00)

记录一次天猫爬虫

记录一下天猫爬虫

我觉得天猫最坑的点是在于列表页,详情页与评论页反爬并不是特别的严格,这里来说一个列表页的抓取思路。

  • 使用淘宝搜索,然后选择天猫,返回的是Json数据,并没有什么封锁限制,但是也不要太猖狂,让程序多睡会,也不要给别人服务器很大的压力

  • 推荐睡眠时间在 20~25s 之间,这样平台也不会有太大的服务器压力,何乐而不为呢!

  • 下面是示例URL:
    https://s.taobao.com/search?q=%E5%8D%8E%E4%B8%BA&imgfile=&js=1&stats_click=search_radio_tmall%3A1&initiative_id=staobaoz_20191008&tab=mall&ie=utf8&bcoffset=0&p4ppushleft=%2C44&s=88

  • Json-url
    https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&q=华为&tab=mall&sort=sale-desc&s=0

posted @ 2019-10-08 16:29  Krise777  阅读(242)  评论(0)    收藏  举报