爬虫高效去重之布隆过滤器

笔者最近思考如何编写高效的爬虫; 而在编写高效爬虫的时候,有一个必需解决的问题就是: url 的去重,即如何判别 url 是否已经被爬取,如果被爬取,那就不要重复爬取。 ...

四月 9, 2017 · 3 分钟 · 1345 字