代码改变世界

colly源码学习

2019-02-27 09:52 轩脉刃 阅读(...) 评论(...) 编辑 收藏

colly源码学习

colly是一个golang写的网络爬虫。它使用起来非常顺手。看了一下它的源码,质量也是非常好的。本文就阅读一下它的源码。

使用示例

func main() {
    c := colly.NewCollector()

    // Find and visit all links
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
        e.Request.Visit(e.Attr("href"))
    })

    c.OnRequest(func(r *colly.Request) {
        fmt.Println("Visiting", r.URL)
    })

    c.Visit("http://go-colly.org/")
}

从Visit开始说起

首先,要做一个爬虫,我们就需要有一个结构体 Collector, 所有的逻辑都是围绕这个Collector来进行的。

这个Collector在“爬取”一个URL的时候,我们使用的是Collector.Visit方法。这个Visit方法具体有几个步骤:

  • 组装Request
  • 获取Response
  • Response解析HTML/XML
  • 结束页面抓取
  • 在任何一个步骤都有可能出现错误

colly能让你在每个步骤制定你需要执行的逻辑,而且这个逻辑不一定要是单个,可以是多个。比如你可以在Response获取完成,解析为HTML之后使用OnHtml增加逻辑。这个也是我们最常使用的函数。它的实现原理如下:

type HTMLCallback func(*HTMLElement)

type htmlCallbackContainer struct {
    Selector string
    Function HTMLCallback
}

type Collector struct {
  ...
    htmlCallbacks     []*htmlCallbackContainer  // 这个htmlCallbacks就是用户注册的HTML回调逻辑地址
  ...
}

// 用户使用的注册函数,注册的是一个htmlCallbackContainer,里面包含了DOM选择器,和选择后的回调方法
func (c *Collector) OnHTML(goquerySelector string, f HTMLCallback) {
    ...
    if c.htmlCallbacks == nil {
        c.htmlCallbacks = make([]*htmlCallbackContainer, 0, 4)
    }
    c.htmlCallbacks = append(c.htmlCallbacks, &htmlCallbackContainer{
        Selector: goquerySelector,
        Function: f,
    })
  ...
}

// 系统在获取HTML的DOM之后做的操作,将htmlCallbacks拆解出来一个个调用函数
func (c *Collector) handleOnHTML(resp *Response) error {
    ...
    doc, err := goquery.NewDocumentFromReader(bytes.NewBuffer(resp.Body))
    ...
    for _, cc := range c.htmlCallbacks {
        i := 0
        doc.Find(cc.Selector).Each(func(_ int, s *goquery.Selection) {
            for _, n := range s.Nodes {
                e := NewHTMLElementFromSelectionNode(resp, s, n, i)
                ...
                cc.Function(e)
            }
        })
    }
    return nil
}

// 这个是Visit的主流程,在合适的地方增加handleOnHTML的逻辑。
func (c *Collector) fetch(u, method string, depth int, requestData io.Reader, ctx *Context, hdr http.Header, req *http.Request) error {
    ...

    err = c.handleOnHTML(response)

  ...
    return err
}

整体这个代码的模式我觉得是很巧妙的,简要来说就是在结构体中存储回调函数,回调函数的注册用OnXXX开放出去,内部在合适的地方进行回调函数的嵌套执行。

这个代码模式可以完全记住,适合的场景是有注入逻辑的需求,可以增加类库的扩展性。

比如我们设计一个ORM,想在Save或者Update的时候可以注入一些逻辑,使用这个代码模式大致就是这样逻辑:


// 这种模型适合流式,然后每个步骤进行设计
type SaveCallback func(*Resource)
type UpdateCallback func(string, *Resource)

type UpdateCallbackContainer struct {
    Id string
    Function UpdateCallback
}

type Resource struct {
    Id string
    saveCallbacks []SaveCallback
    updateCallbacks []*UpdateCallbackContainer
}

func (r *Resource) OnSave(f SaveCallback) {
    if r.saveCallbacks == nil {
        r.saveCallbacks = make([]SaveCallback, 0, 4)
    }
    r.saveCallbacks = append(r.saveCallbacks, f)
}

func (r *Resource) Save() {
    // Do Something

    if r.saveCallbacks != nil {
        for _, f := range r.saveCallbacks {
            f(r)
        }
    }
}

func (r *Resource) OnUpdate(id string, f UpdateCallback) {
    if r.updateCallbacks == nil {
        r.updateCallbacks = make([]*UpdateCallbackContainer, 0, 4)
    }
    r.updateCallbacks = append(r.updateCallbacks, &UpdateCallbackContainer{ id, f})
}

func (r *Resource) Update() {
    // Do something

    id := r.Id
    if r.updateCallbacks != nil {
        for _, c := range r.updateCallbacks {
            c.Function(id, r)
        }
    }
}

Collector的组件模型

colly的Collector的创建也是很有意思的,我们可以看看它的New方法

func NewCollector(options ...func(*Collector)) *Collector {
    c := &Collector{}
    c.Init()

    for _, f := range options {
        f(c)
    }

  ...
    return c
}

func UserAgent(ua string) func(*Collector) {
    return func(c *Collector) {
        c.UserAgent = ua
    }
}

func main() {
  c := NewCollector(
      colly.UserAgent("Chrome")
  )
}

参数是一个返回函数func(*Collector)的可变数组。然后它的组件就可以以参数的形式在New函数中进行定义了。

这个设计模式很适合的是组件化的需求场景,如果一个后台有不同组件,我按需加载这些组件,基本上可以参照这种逻辑:

type Admin struct {
    SideBar string
}

func NewAdmin(options ...func(*Admin)) *Admin {
    ad := &Admin{}

    for _, f := range options {
        f(ad)
    }

    return ad
}

func SideBar(sidebar string) func(*Admin) {
    return func(admin *Admin) {
        admin.SideBar = sidebar
    }
}

Collector的Debugger逻辑

创建完成Collector,但是在各种地方是需要进行“调试”的,这里的调试colly设计为可以是日志记录,也可以是开启一个web进行实时显示。

这个是怎么做到的呢?也是非常巧妙的使用了事件模型。

基本上核心代码如下:

package admin

import (
    "io"
    "log"
)

type Event struct {
    Type string
    RequestID int
    Message string
}

type Debugger interface {
    Init() error
    Event(*Event)
}

type LogDebugger struct {
    Output io.Writer
    logger *log.Logger
}

func (l *LogDebugger) Init() error {
    l.logger = log.New(l.Output, "", 1)
    return nil
}

func (l *LogDebugger) Event(e *Event) {
    l.logger.Printf("[%6d - %s] %q\n", e.RequestID, e.Type, e.Message)
}

func createEvent( requestID, collectorID uint32) *debug.Event {
    return &debug.Event{
        RequestID:   requestID,
        Type:        eventType,
    }
}

c.debugger.Event(createEvent("request", r.ID, c.ID, map[string]string{
    "url": r.URL.String(),
}))

设计了一个Debugger的接口,里面的Init其实可以根据需要是否存在,最核心的是一个Event函数,它接收一个Event结构指针,所有调试信息相关的调试类型,调试请求ID,调试信息等都可以存在这个Event里面。

在需要记录的地方,创建一个Event事件,并且通过debugger进行输出到调试器中。

colly的debugger还有个惊喜,它支持web方式的查看,我们查看里面的debug/webdebugger.go


type WebDebugger struct {
    Address         string
    initialized     bool
    CurrentRequests map[uint32]requestInfo
    RequestLog      []requestInfo
}

type requestInfo struct {
    URL            string
    Started        time.Time
    Duration       time.Duration
    ResponseStatus string
    ID             uint32
    CollectorID    uint32
}


func (w *WebDebugger) Init() error {
    ...
    if w.Address == "" {
        w.Address = "127.0.0.1:7676"
    }
    w.RequestLog = make([]requestInfo, 0)
    w.CurrentRequests = make(map[uint32]requestInfo)
    http.HandleFunc("/", w.indexHandler)
    http.HandleFunc("/status", w.statusHandler)
    log.Println("Starting debug webserver on", w.Address)
    go http.ListenAndServe(w.Address, nil)
    return nil
}

func (w *WebDebugger) Event(e *Event) {
    switch e.Type {
    case "request":
        w.CurrentRequests[e.RequestID] = requestInfo{
            URL:         e.Values["url"],
            Started:     time.Now(),
            ID:          e.RequestID,
            CollectorID: e.CollectorID,
        }
    case "response", "error":
        r := w.CurrentRequests[e.RequestID]
        r.Duration = time.Since(r.Started)
        r.ResponseStatus = e.Values["status"]
        w.RequestLog = append(w.RequestLog, r)
        delete(w.CurrentRequests, e.RequestID)
    }
}

看到没,重点是通过Init函数把http server启动起来,然后通过Event收集当前信息,然后通过某个路由handler再展示在web上。

这个设计比其他的各种Logger的设计感觉又优秀了一点。

总结

看下来colly代码,基本上代码还是非常清晰,不复杂的。我觉得上面三个地方看明白了,基本上这个爬虫框架的架构设计就很清晰了,剩下的是具体的代码实现的部分,可以慢慢看。

colly的整个框架给我的感觉是很干练,没有什么废话和过度设计,该定义为结构的地方就定义为结构了,比如Colletor,这里它并没有设计为很复杂的Collector接口啥的。但是在该定义为接口的地方,比如Debugger,就定义为了接口。而且colly也充分考虑了使用者的扩展性。几个OnXXX流程和回调函数的设计也非常合理。