名词解释

CrawlDatum: url的元信息,包括状态和配置等,包括爬取状态,上次爬取的时间,爬取间隔...
CrawlDB: 存储爬虫已知的所有URL及其元信息。存储格式:<Text, CrawlDatum>。其中的key表示该URL,而value则是CrawlDatum.
LinkDB: 存放url之间的关系
Segments: 存放抓取列表以及抓取回来的网页,页面内容有二进制的raw content也有parsed content,nutch也广度优先爬取策略,没爬取一轮生成一个以时间命名的Segment文件夹 
Index:

过程

Inject–>Generate–>Fetch–>Parse–>Update CrawlDB

配置

  1. 基本配置文件
    • nutch-default.xml
    • nutch-site.xml
  2. 常见配置
    • nutch 默认的下载文件大小上限是65536字节(nutch-default.xmlftp.content.limit配置),达到后智能截断,可以在nutch-site.xml中重写
TOP