03 2013 档案

摘要:自古网易出人才,网易评论是我每天必看的,网友的智慧是无限的,看网易评论长阅历,放松心情。刚好最近写采集 于是就分析下网易评论的数据,发现网易的数据也是json形式加载过来的。可以采集的 评论有:精彩跟帖http://tie.163.com/plaza/recommend.html精彩盖楼http://tie.163.com/plaza/build.html网友热议 http://tie.163.com/plaza/topVote.html下面只以网易精彩跟帖做例子分析采集:网易精彩跟帖http://tie.163.com/plaza/recommend.html 有3页 90条跟帖用chr.. 阅读全文
posted @ 2013-03-15 00:06 keygle 阅读(417) 评论(0) 推荐(0)
摘要:2011年时公司有这个采集电视节目预告这个需求,那时是其他同事写的,今天在网上找了一下,采集那些电视网站都需要用到正则匹配,一番查找之后终于在手机CCTV(m.cctv.com)里的找到了简单的获取节目预告的方式。点开 手机央视网在最下面 点开 电视节目 里面就有我们需要的节目预告了如http://m.46644.com/tool/tv/data/433/20130311.js点开是获得 cctv1 这周的节目单433是 电视台id;20130311.js 是 周一 的日期命名的 js采集分析:1、首先获得电视台名和其id (都在页面上可以正则获得);2、根据获得的电视台id 重组url .. 阅读全文
posted @ 2013-03-12 18:23 keygle 阅读(1804) 评论(0) 推荐(1)
摘要:采集分析见采集练习(五) php 获得chrome扩展 微度新标签页 下的云壁纸(主要是美女壁纸)以下是用python 实现同样的功能。python 版本 2.73以下是代码:# -*- coding: utf-8 -*-import urllib2,json,osdir = "D:\python\weidu\images\\"jsonUrl = "http://hao.weidunewtab.com/cloudWallpaper/index.json";req = urllib2.Request(jsonUrl)request = urllib2.ur 阅读全文
posted @ 2013-03-11 23:29 keygle 阅读(809) 评论(0) 推荐(0)
摘要:认识chrome 扩展还是去年年中,在朋友的帮助下用goagentFQ,那时才知道有chrome 扩展这玩意,当时觉得很新奇。于是自己陆续装了些chrome扩展。前不久偶然间在google play 安装了微度新标签页这个扩展,功能试了下还不错。前几天采集hao123的美女图,于是想采下微度新标签页 下的云壁纸(里面的壁纸都是整理过的很多都是1080p的,质量也非常不错尤其是美女栏目),花费几个小时终于搞定。采集分析 :打开微度新标签页 的云壁纸 时会ajax 获得一个json http://hao.weidunewtab.com/cloudWallpaper/index.json下拉加载.. 阅读全文
posted @ 2013-03-11 00:03 keygle 阅读(1120) 评论(0) 推荐(0)
摘要:python实现前几天用php 实现的下载图片功能。python 版本 2.73部分代码来自 http://www.php10086.com/2013/01/1278.html遇到的问题 :1、采集执行到30页就出错,程序中断 (问题没解决) 我只好采30页;2、 open 函数打开文件时候 'w' 模式 保存到本地的图片无法打开, 后来 使用 'wb'模式 问题得到解决;3、 没有后缀的图片,默认加上 .jpg 后缀;4、获得 json 数据必须 带上 User_Agent Referer 否则无法获得。以下是代码 :# -*- coding: utf-8 - 阅读全文
posted @ 2013-03-08 22:49 keygle 阅读(1117) 评论(0) 推荐(0)
摘要:闲来无事,刚好有这个需求。于是就练一下采集。。采集当当网的图书信息。。开始考虑 直接采集 当当网的电脑版(www.dangdang.com)但分析了下 估计正则有点难写。于是灵机一动,现在都是移动互联网时代了,肯定采当当网的 移动版网页 (m.dangdang.com) 简单 正则又好写 而且很有可能数据直接在返回的json上直接解析就行(淘宝网的移动版就是这样); 但打开当当网一分析 还是苦b的正则,而且 直到我写完了程序才知道 移动版当当网的人性化 只能翻6页 坑爹呀。。。搜索 某出版社 请求的链接:http://m.dangdang.com/gw_search.php?key=%E... 阅读全文
posted @ 2013-03-08 15:52 keygle 阅读(1952) 评论(0) 推荐(0)
摘要:昨天看到q群里群主博客获得 hao123 里的美女图的文章 于是自己复制代码试了下,发现没有成功(群主的是用file_get_contents 直接打开)。于是我在他的基础上,修改一番采集成功。预览链接 http://pic.hao123.com/meinv_meinv?style=xl用chrome 开发者工具 分析图片来源网页是瀑布流形式的 下拉到底部执行 网页ajax 加载图片 发现 图片 和文字 来自 一个 jsonhttp://pic.hao123.com/screen/meinv_meinv/2?v=1362645599936&act=type参数分析 :meinv_mei 阅读全文
posted @ 2013-03-07 16:57 keygle 阅读(1731) 评论(0) 推荐(0)
摘要:php 获得全国小学数据 阅读全文
posted @ 2013-03-06 17:48 keygle 阅读(1019) 评论(2) 推荐(1)