WEB开发者-分享WEB开发知识,让开发变得更简单!

手把手带你使用Redis+Bitmap实现亿级海量数据统计

本篇文章是Redis的实战篇,介绍一下使用Redis+Bitmap实现亿级海量数据统计的方法,希望对大家有所帮助!

手把手带你使用Redis+Bitmap实现亿级海量数据统计

在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合。【相关教程推荐:《angular教程》】

常见的场景如下:

  • 给一个 userId ,判断用户登陆状态;
  • 显示用户某个月的签到次数和首次签到时间;
  • 两亿用户最近 7 天的签到情况,统计 7 天内连续签到的用户总数;

通常情况下,我们面临的用户数量以及访问量都是巨大的,比如百万、千万级别的用户数量,或者千万级别、甚至亿级别的访问信息。

所以,我们必须要选择能够非常高效地统计大量数据(例如亿级)的集合类型。

如何选择合适的数据集合,我们首先要了解常用的统计模式,并运用合理的数据了性来解决实际问题。

四种统计类型:

  • 二值状态统计;

  • 聚合统计;

  • 排序统计;

  • 基数统计。

本文将由二值状态统计类型作为实战篇系列的开篇,文中将用到 String、Set、Zset、List、hash 以外的拓展数据类型 Bitmap 来实现。

文章涉及到的指令可以通过在线 Redis 客户端运行调试,地址:try.redis.io/,超方便的说。

寄语

多分享多付出,前期多给别人创造价值并且不计回报,从长远来看,这些付出都会成倍的回报你。

特别是刚开始跟别人合作的时候,不要去计较短期的回报,没有太大意义,更多的是锻炼自己的视野、视角以及解决问题的能力。

二值状态统计

码哥,什么是二值状态统计呀?

也就是集合中的元素的值只有 0 和 1 两种,在签到打卡和用户是否登陆的场景中,只需记录签到(1)未签到(0)已登录(1)未登陆(0)

假如我们在判断用户是否登陆的场景中使用 Redis 的 String 类型实现(key -> userId,value -> 0 表示下线,1 - 登陆),假如存储 100 万个用户的登陆状态,如果以字符串的形式存储,就需要存储 100 万个字符串了,内存开销太大。

码哥,为什么 String 类型内存开销大?

String 类型除了记录实际数据以外,还需要额外的内存记录数据长度、空间使用等信息。

当保存的数据包含字符串,String 类型就使用简单动态字符串(SDS)结构体来保存,如下图所示:

手把手带你使用Redis+Bitmap实现亿级海量数据统计

结果保存到一个新 Bitmap 中,我们再通过 BITCOUNT 统计 bit = 1 的个数便得到了连续打卡 7 天的用户总数了。

Redis 提供了 BITOP operation destkey key [key ...]这个指令用于对一个或者多个 键 = key 的 Bitmap 进行位元操作。

opration 可以是 andORNOTXOR。当 BITOP 处理不同长度的字符串时,较短的那个字符串所缺少的部分会被看作 0 。空的 key 也被看作是包含 0 的字符串序列。

便于理解,如下图所示:

手把手带你使用Redis+Bitmap实现亿级海量数据统计

简单计算下 一个一亿个位的 Bitmap占用的内存开销,大约占 12 MB 的内存(10^8/8/1024/1024),7 天的 Bitmap 的内存开销约为 84 MB。同时我们最好给 Bitmap 设置过期时间,让 Redis 删除过期的打卡数据,节省内存。

小结

思路才是最重要,当我们遇到的统计场景只需要统计数据的二值状态,比如用户是否存在、 ip 是否是黑名单、以及签到打卡统计等场景就可以考虑使用 Bitmap。

只需要一个 bit 位就能表示 0 和 1。在统计海量数据的时候将大大减少内存占用。

原文地址:https://juejin.cn/post/6999908907791417351

作者:码哥字节

更多编程相关知识,请访问:编程视频!!

以上就是手把手带你使用Redis+Bitmap实现亿级海量数据统计的详细内容,更多请关注web开发者其它相关文章!

本文链接:https://www.webkfz.com/sjk/sjkzh/1kh9.html

版权声明:站内所有文章皆来自网络转载,只供分享作用,不代表本站的观点!

发表评论 共有 0 条评论)

联系客服
网站客服 业务合作 QQ
1244305267
公众号
公众号
公众号
返回顶部