从京东"窃取"150+万条数据

我最近编写了两只京东商品和评论的分布式爬虫来进行数据分析,现在就来分享一下。 1 爬取策略 众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要...

六月 21, 2017 · 5 分钟 · 2221 字 · Ramsay Leung

爬虫高效去重之布隆过滤器

笔者最近思考如何编写高效的爬虫; 而在编写高效爬虫的时候,有一个必需解决的问题就是: url 的去重,即如何判别 url 是否已经被爬取,如果被爬取,那就不要...

四月 9, 2017 · 3 分钟 · 1333 字 · Ramsay Leung