摘要:思路很简单,就是通过网页结构的一些特征来区分,当然也可以通过url的格式来区分,不过这个错误率较高,因为有很多小网站的url设计不规范。网页特征包括两大类:1.meta信息:一般wap页面都会为了适应手机屏幕,而设置一些特殊的meta,比如viewport等;2.doctype:doctype定义了...
阅读全文
摘要:分别定义:1、编码Unicode UTF-82、浏览器图标地址和类型3、Generator 生产者4、网页缩放比例为1:15、控制手机布局,width默认为屏幕大小,也可以为具体数字如240、480,Windows Mobile推荐设置为2406、控制手机放大缩小网页显示7、控制全屏显示(Apple...
阅读全文
摘要:转自丕子:http://www.zhizhihu.com/html/y2013/4202.html总结我用过的网页正文抽取工具: decrufthttp://t.cn/S7bVECpython-readabilityhttp://t.cn/zYeoZ8bboilerpipehttp://t.cn/h...
阅读全文
摘要:尤其是在json load的时候,字符串中的不可见控制字符可能会导致错误,应该先对字符串进行控制字符过滤。对网页文本同样适用,最好在处理网页文本时先进性控制字符清洗。Replace null bytes in html text with space char to walk around lxml...
阅读全文
摘要:匹配中文字符的正则表达式:[\u4e00-\u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^\x00-\xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)匹配空白行的正则表达式:\n\s*\r评注:可以用来删除空...
阅读全文
摘要:在做网页抓取的时候经常会遇到一个问题就是页面中的链接是相对链接,这个时候就需要对链接进行url拼接,才能得到绝对链接。 url严格按照一定的格式构成,一般为如下5个字段: 详细可参考RFC:http://tools.ietf.org/html/rfc3986 url拼接一般包含如下几种情况: 1.相
阅读全文