摘要:
在最近的数据采集研究中, 发现很多页面的内容都是在iframe中的, 这位采集带来了不少困难. 经过一番思考之后, 我想到了C#的解决办法:1. 运行Spider Studio, 加载页面http://www.w3school.com.cn/tiy/t.asp?f=html_iframe2. 编辑代码, 将iframe指向http://www.w3school.com.cn3. 这个页面具备如下结构:Page > IFrame1 -> IFrame2 (就是我们代码中写的那个IFrame)我的目标是通过C#代码先获取IFrame1的内容, 然后继续获取IFrame2的内容, 继而设 阅读全文
posted @ 2013-11-28 23:24
Ivan Zou
阅读(10566)
评论(5)
推荐(1)
摘要:
最近 @甜瓜 (QQ:1069629945)开发了一套NBA数据采集脚本, 我觉得很赞. 经他允许发布出来和大家分享一些经验:球员球队:http://data.sports.sohu.com/nba/nba_team_info.php?teamid=1 .. 30在1到30的循环中抓取球队信息, 球员信息并用id将其关联起来, 脚本如下:public void Run(){ Logger.ClearAll(); for(int i=1; ih2>span"); Logger.Log(teamname.Text()); var teamurl = Defa... 阅读全文
posted @ 2013-11-28 00:15
Ivan Zou
阅读(1356)
评论(0)
推荐(0)
浙公网安备 33010602011771号