第三个任务 从新浪微博上抓取刘亦菲的信息(1)
第三个任务在很久以前就已经接受到了,但是因为种种个人原因(在校大学生 ,最近又遇到一些糟心的人和事)迟迟没有展开进程。最近每天晚上都在研究如何在网页上扒取信息。但是目前只是得到了一些初步的思路,具体的代码还是需要后续慢慢补上(第一次接触爬虫,有些不知所措)。我现在了解到的扒取新浪微博信息的方法也就无外乎模拟登陆和cookie值了。开始我选用的是用登录界面的cookie值来进行网页登录,这就需要找到登录界面的cookie值(百度学来的),但是我简单的试了两次之后就发现不能继续扒取下来界面的信息了。原因是新浪微博的反爬虫在作怪,如果想要继续扒取,就需要将cookie值更新一下,当然,知道如何获取cookie值之后,更新cookie值就不是一件难事了。但是如果每次要用这串代码的时候都要更新cookie值,这就很麻烦了。所以我计划着用模拟登陆的方法来进行这次的任务。具体的方法还在学习中。
这段时间的效率已经低到谷底了,但是我不会放弃的,万事开头难,我相信我可以。我知道这是个过程,是个锻炼我自学能力的过程,这个过程比代码和任务本身都更加重要。随着对这方面的了解加深,我觉得学习能力是非常非常非常重要的,我可以不会,但是不可以不学。
浙公网安备 33010602011771号