September Nine recording

日期   : September Nine

记录人  : jack.ma

specail tak   : 1

Dream Fire  : Learning Ruby & OperaterSystem & Python dev 

red or green : red 

 

questions:
1. 滑块验证 + 同步问题。

obei_spider4
一个同步的问题
大致问题是:代码里用的浏览器模拟点击的操作,因为有滑块验证。但是网站信息动态更新的很频繁,业务方说会有极个别标题和正文不符的情况,我去看代码感觉没什么问题,我蹲了一个星期去排查,发现出现问题的信息在列表页中,总是临近的,猜测是因为网站数据刷新导致的,title在列表页中去获取后拼接得到的,触发点击之前网页刚好刷新,此时再进去会出现标题与正文不符,因为title中的发布时间只能在列表页获取,所以不能将title改为在详情页中获取。
我的思路:判断列表页拼接后的标题是否包含详情页拿到的标题。如果不同就重新运行整个程序。

 

posted @ 2024-09-03 11:03  硬核小马  阅读(10)  评论(0)    收藏  举报