Redis 数据结构之超日志 HyperLogLog

Redis 在 2.8.9 版本添加了 HyperLogLog （HLL）。
HyperLogLog 是一种高效的基数估算工具，通过概率算法和哈希化技术，在常数空间内提供了基数的估算。

eg.

传统的做法是将所有元素存储在集合中，然后进行去重、计数。但当集合的元素数量非常大时，这种方法会占用大量内存，甚至无法存储所有数据。
HyperLogLog 有一定误差，但对于海量数据来说，它的内存开销极低且精度足够高，非常适合用于大数据处理、流量统计、去重计数等场景。

Redis 中的 HyperLogLog 支持以下操作：

HyperLogLog 使用概率算法，通过哈希化数据并记录哈希值的前导零数量来估算基数。

为了将集合中的元素映射为哈希值，HyperLogLog 使用了 哈希函数。假设我们使用一个 m-bit 的哈希函数，它会把输入数据映射到一个包含 m 位二进制数字的哈希值。

例如：

HyperLogLog 并不直接存储每个哈希值，而是计算每个哈希值的前导零的数量，把这个值保存在一个桶（通过哈希值的某些位进行映射）中。

为了优化空间，HyperLogLog 使用多个桶来存储不同的哈希值。每个桶的索引是由哈希值的某些位生成的。假设我们有一个桶数量为 b 的 HyperLogLog。我们将哈希值的前 log2(b) 位作为桶的索引，其余的位用于计算前导零数量。

例如，如果我们有 16 个桶（b = 16），则桶的索引由哈希值的前 4 位决定（因为 log2(16) = 4）。如果哈希值的前 4 位为 1100，那么该哈希值将被映射到第 12 号桶（因为 1100 二进制对应 12）。

HyperLogLog 会计算所有桶中记录的前导零最大值的平均值。然后根据这个平均值来估算整个数据集的基数。
其数学公式如下：

[ \text{Estimate} = \alpha \times m^2 \times 2^{\bar{R}} ]

其中：

桶的数量 ( m ) 直接影响 HyperLogLog 的估算精度。通常，桶的数量越多精度越高，但内存消耗也会相应增加。Redis 默认使用 14 个字节来存储 HyperLogLog，这大约可以提供 0.81% 的误差。

Contents