Thinking in Rain 雨之遐思: Nutch抓取过程

星期日, 十一月 26, 2006

Nutch抓取过程

抓取是一个循环的过程：抓取蜘蛛从WebDB中生成了一个 fetchlist 集合；抽取工具根据fetchlist从网络上下载网页内容；蜘蛛程序根据抽取工具发现的新链接更新WebDB；然后再生成新的fetchlist；周而复始。（注：蜘蛛是分两个部分的。有一次在公司的一个讨论会上还就此争论了一番，google也是如此，以后会给出例子。）这个抓取循环在nutch中经常指： generate/fetch/update 循环。

一般来说同一域名下的 url 链接会被合成到同一个 fetchlist。这样做的考虑是：当同时使用多个蜘蛛抓取的时候，不会产生重复抓取的现象。Nutch 遵循 Robots Exclusion Protocol, 你可以用robots.txt 定义保护私有网页数据不被抓去。

上面这个抓取工具的组合是Nutch的最外层的，你也可以直接使用更底层的工具，自己组合这些底层工具的执行顺序达到同样的结果。这就是Nutch吸引人的地方吧。下面把上述过程分别详述一下，括号内就是底层工具的名字：

创建一个新的WebDB (admin db -create)。
把开始抓取的跟Url 放入WebDb (inject)。
从WebDb的新 segment 中生成 fetchlist (generate)。
根据 fetchlist 列表抓取网页的内容 (fetch)。
根据抓取回来的网页链接url更新 WebDB (updatedb)。
重复上面3-5个步骤直到到达指定的抓取层数。
用计算出来的网页url权重 scores 更新 segments (updatesegs)。
对抓取回来的网页建立索引(index)。
在索引中消除重复的内容和重复的url (dedup)。
合并多个索引到一个大索引，为搜索提供索引库(merge)。

在创建了一个新的WebDB后，抓取循环 generate/fetch/update 就根据最先第二步指定的根 url 在一定周期下自动循环了。当抓取循环结束后，就会生成一个最终的索引。从第7步到第10步。

需要说明的是：上面第 8 步中每个 segment 的索引都是单独建立的，之后才消重（第9步）。第10步就是大功告成，合并单独的索引到一个大索引库。

Dedup 工具可以从 segment 的索引中去除重复的url。因为 WebDB 中不允许重复的url ，也就是说 fetchlist 中不会有重复的url,所以不需要对 fetchlist 执行 dedup 操作。上文说过，默认的抓取周期是30天，如果已经生成的旧 fetch 没有删除，而又生成了新的fetch 这是还是会出现重复的url的。当只有一个抓取程序运行的时候是不会发生上述情况的。

从上面的介绍可以看出，一般情况下我们只要从头执行的程序就可以了，不需要接触底层的工具。但是搜索引擎有很多“意外”，很多的时间需要花费在维护上，所以底层的工具也是需要掌握的。我将会在下文给你演示如何运行上述过程。

开篇说过，本文是面向一个中型的搜索引擎的，如果做像百度这样的抓取互联网数据的引擎，你就需要参考下面的资源。

资源列表：

1、Nutch project page Nutch项目的大本营，想必大家都知道。
2、邮件列表： nutch-user 和 nutch-dev

没有评论:

发表评论

Thinking in Rain 雨之遐思

星期日, 十一月 26, 2006

Nutch抓取过程

没有评论:

博客归档

我的简介