测试技能进阶(二): Parameterized Tests

1 前言 测试技巧具有普适性,大多是与语言无关的,只是不同语言的生态可能对测试技术的支持各不一样, 比如Python和Java,基本什么库都有,而...

十月 13, 2024 · 5 分钟 · 2218 字 · Ramsay Leung

用python 来操控 sqlite3

python 与嵌入式关系数据库 sqlite3的邂逅 SQLite 是一个非常优秀的嵌入式数据库,非常轻量,可以与 Mysql, PostgreSQL 这样的 大型数据库互补使用. 而 Python 标准库中的 sqlite3 模块实...

十一月 12, 2017 · 9 分钟 · 4457 字 · Ramsay Leung

从京东"窃取"150+万条数据

我最近编写了两只京东商品和评论的分布式爬虫来进行数据分析,现在就来分享一下。 1 爬取策略 众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要...

六月 21, 2017 · 5 分钟 · 2221 字 · Ramsay Leung

你所不可或缺的 – logging

1 重要性 笔者最近都在负责项目中关于日志的部分,因为跟日志打交道比较多,所以有一些关于日 志感受和技巧想要分享一下。 笔者认为对于各种程序和应用,...

四月 9, 2017 · 7 分钟 · 3019 字 · Ramsay Leung

爬虫高效去重之布隆过滤器

笔者最近思考如何编写高效的爬虫; 而在编写高效爬虫的时候,有一个必需解决的问题就是: url 的去重,即如何判别 url 是否已经被爬取,如果被爬取,那就不要...

四月 9, 2017 · 3 分钟 · 1333 字 · Ramsay Leung