面试题七
问题:怎么去重?考虑一个实时场景:双十一场景,滑动窗口长度为1小时,滑动距离为10秒钟,亿级用户,计算UV?
解答:使用类似于scala的set数据结构或者redis的set数据结构显然是不行的,因为可能有上亿个Key,内存放不下。所以可以考虑使用布隆过滤器(Bloom Filter)来去重。大数据一旦问到去重,就是在问布隆过滤器、位图。
问题:怎么去重?考虑一个实时场景:双十一场景,滑动窗口长度为1小时,滑动距离为10秒钟,亿级用户,计算UV?
解答:使用类似于scala的set数据结构或者redis的set数据结构显然是不行的,因为可能有上亿个Key,内存放不下。所以可以考虑使用布隆过滤器(Bloom Filter)来去重。大数据一旦问到去重,就是在问布隆过滤器、位图。