2017 年 11月随笔档案 - 木子子木木

常见的4种HTML5错误用法，你用错了几个？

摘要：一、不要使用section作为div的替代品人们在标签使用中最常见到的错误之一就是随意将HTML5的等价于——具体地说，就是直接用作替代品(用于样式)。在XHTML或者HTML4中，我们常看到这样的代码： Page content Secondary content Footer content 阅读全文

posted @ 2017-11-10 15:39 木子子木木阅读(442) 评论(0) 推荐(0)

入门爬虫的干货

摘要：如果学会了python的基本语法，我认为入门爬虫是很容易的。我写的第一个爬虫大概只需要10分钟，自学的 scrapyd , 看官方文档花了20分钟，因为我英文不是很好，很多单词需要搜索一下。 (scrapy 并不是入门必须的）再接触到了 requests , lxml ，配合基本库 urllib 阅读全文

posted @ 2017-11-09 10:46 木子子木木阅读(252) 评论(0) 推荐(0)

JSOUP教程，JSOUP 乱码处理，JSOUP生僻字乱码解决方案

摘要：JSOUP乱码情况产生这几天我用 JSOUP 多线程的方式，爬取了200 多万数据，数据为各地的地名相关。结果有小部分数据，不到 1 万乱码。我先检查了我的编码为UTF-8 ，觉得应该没有问题。代码基本如下如下： try{ doc = Jsoup.connect(url) .header("Use 阅读全文

posted @ 2017-11-08 17:19 木子子木木阅读(2306) 评论(1) 推荐(0)

Python丨Python 性能分析大全

摘要：虽然运行速度慢是 Python 与生俱来的特点，大多数时候我们用 Python 就意味着放弃对性能的追求。但是，就算是用纯 Python 完成同一个任务，老手写出来的代码可能会比菜鸟写的代码块几倍，甚至是几十倍（这里不考虑算法的因素，只考虑语言方面的因素）。很多时候，我们将自己的代码运行缓慢地原因归阅读全文

posted @ 2017-11-07 17:06 木子子木木阅读(592) 评论(0) 推荐(0)

记录网页爬虫注意的几个问题

摘要：设置合理的user-agent 一些站点会把这个当作很基本的过滤条件，我们就不碰壁了，直接找个浏览器粘贴一个，有些文章介绍用一些爬虫的user-agent，但是对方可能会有相关的爬虫服务器的 iplist，不过这种情况不多见，可以试一下。设置合理的爬取间隔过于频繁的流量很容易被监控到，当然除了一阅读全文

posted @ 2017-11-05 15:37 木子子木木阅读(788) 评论(0) 推荐(0)

Python爬虫入门：Cookie的使用

摘要：大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取阅读全文

posted @ 2017-11-01 10:43 木子子木木阅读(1053) 评论(0) 推荐(0)

Python爬虫入门：URLError异常处理

摘要：大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个阅读全文

posted @ 2017-11-01 10:42 木子子木木阅读(562) 评论(0) 推荐(0)

lizilin

11 2017 档案