从京东"窃取"150+万条数据

我最近编写了两只京东商品和评论的分布式爬虫来进行数据分析,现在就来分享一下。 1 爬取策略 众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要解析 JS, 其中比较典型的例子就是淘宝,天猫,京东,QQ 空间等。 ...

六月 21, 2017 · 5 分钟 · 2233 字

Eshell提示符优化

1 发现帅气的提示符 近日,我在浏览 Reddit 的时候,发现了一位 Emacs 用户把他的 Eshell 提示符修改得很帅,如图: 本着拿来主义的想法,我就直接把这位小哥的代码添加到了我的配置文件里面: ...

六月 7, 2017 · 3 分钟 · 1267 字

为Java瘦身 – Lombok

1 前言 几天前 Goolge 在 I/O 大会上宣布了 Android 将官方支持 Kotlin, 这意味着 Android开发者可以更好地使用 Kotlin 开发 Android. 我虽不是 Android 开发者,但是也为 Android 开发者多了一个选择而感到高兴,略显意外的是,接下来到处可以看到 “Java已死,Kotlin 当立” 之类的言论。 ...

五月 24, 2017 · 6 分钟 · 2586 字

关于分布式系统唯一ID的探究

最近我需要为运行的分布式系统某部分模块构造系统唯一的ID, 而 ID 需要是数字的形式,并应该尽量的短。不得不说,这是一个有趣的问题 1 若干实现策略 查阅完相关的资料,发现为分布式系统生成唯一 ID 方法挺多的,例如: ...

五月 23, 2017 · 4 分钟 · 1616 字

Java UUID 源码剖析

笔者近来闲来无事,又因为有需要构造全局唯一 ID 的需求,所以就去看了 UUID 这个提供稳定的系统唯一标识符的类的源码 1 UUID variant 事实上是存在很多中 UID 的不同实现的的,但是 UUID 里面默认是使用 “加盐”(Leach-Salz)实现,但是也可以使用其他的实现。 ...

五月 18, 2017 · 6 分钟 · 2623 字