用python 来操控 sqlite3

python 与嵌入式关系数据库 sqlite3的邂逅 SQLite 是一个非常优秀的嵌入式数据库,非常轻量,可以与 Mysql, PostgreSQL 这样的 大型数据库互补使用. 而 Python 标准库中的 sqlite3 模块实...

十一月 12, 2017 · 9 分钟 · 4088 字 · Ramsay Leung

从京东"窃取"150+万条数据

我最近编写了两只京东商品和评论的分布式爬虫来进行数据分析,现在就来分享一下。 1 爬取策略 众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要...

六月 21, 2017 · 5 分钟 · 2210 字 · Ramsay Leung

你所不可或缺的 – logging

1 重要性 笔者最近都在负责项目中关于日志的部分,因为跟日志打交道比较多,所以有一些关于日 志感受和技巧想要分享一下。 笔者认为对于各种程序和应用,...

四月 9, 2017 · 6 分钟 · 2804 字 · Ramsay Leung

爬虫高效去重之布隆过滤器

笔者最近思考如何编写高效的爬虫; 而在编写高效爬虫的时候,有一个必需解决的问题就是: url 的去重,即如何判别 url 是否已经被爬取,如果被爬取,那就不要...

四月 9, 2017 · 3 分钟 · 1324 字 · Ramsay Leung

Python多线程端口扫描器

近两日,闲来无事,就写了些端口扫描器,重温TCP/IP协议栈的部分原理。 1 端口扫描器 所谓的端口扫描器,其实是用来检测目标服务器有哪些端口开放...

三月 19, 2017 · 4 分钟 · 1977 字 · Ramsay Leung