随笔分类 -  网络爬虫

摘要:Golang 网络爬虫框架gocolly/colly 五 获取动态数据 gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种,一,最笨拙但有效的方法是字符串处理,go语言string底层 阅读全文
posted @ 2018-01-21 20:26 majianguo 阅读(12482) 评论(0) 推荐(1)
摘要:Golang 网络爬虫框架gocolly/colly 四 爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,yout 阅读全文
posted @ 2018-01-03 23:54 majianguo 阅读(26203) 评论(1) 推荐(3)
摘要:Golang 网络爬虫框架gocolly/colly 三 熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.cs 阅读全文
posted @ 2017-12-30 15:37 majianguo 阅读(7544) 评论(0) 推荐(1)
摘要:Golang 网络爬虫框架gocolly/colly 二 jQuery selector colly框架依赖goquery库,goquery将jQuery的语法和特性引入到了go语言中。如果要灵活自如地采集数据,首先要了解jQuery选择器。以下内容是翻译jQuery官方网站 《Category:  阅读全文
posted @ 2017-12-29 20:07 majianguo 阅读(5588) 评论(0) 推荐(0)
摘要:Golang 网络爬虫框架gocolly/colly 一 gocolly是用go实现的网络爬虫框架,目前在github上具有3400+星,名列go版爬虫程序榜首。gocolly快速优雅,在单核上每秒可以发起1K以上请求;以回调函数的形式提供了一组接口,可以实现任意类型的爬虫;依赖goquery库可以 阅读全文
posted @ 2017-12-29 19:57 majianguo 阅读(17297) 评论(0) 推荐(2)