百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

分布式id生成器方案详细介绍(百度分布式id生成器)

cac55 2024-10-20 04:22 8 浏览 0 评论

问题描述

在物联网场景的解决方案中,通常需要将设备的信息转换为一个业务事件进行输出。在生成/升级事件的过程往往需要多次的数据库操作,且伴随着异步的逻辑。依靠数据库的自增id作为事件的id容易造成脏数据且会占用大量的数据库资源,所以需要系统内置一个轻量级的id生成器。

常见解决方案

UUID

UUID(universally unique identifier)是基于时间生成的128位随机标识符,算法保证了UUID重复的可能性接近于0,且UUID的生成不依赖中心注册单元,完全是分布式生成的。JAVA自带了生成UUID的类库。

public static void main(String[] args) { 
       String uuid = UUID.randomUUID().toString().replaceAll("-","");
       System.out.println(uuid);
}

优点:
生成足够简单,本地生成无网络消耗,具有唯一性
缺点:
无序的字符串,不具备趋势自增特性
没有具体的业务含义
长度过长16 字节128位,字符串36位,很难作为主键保存。

数据库自增ID

基于数据库的auto_increment自增ID完全可以充当分布式ID,具体实现:需要一个单独的MySQL实例用来生成ID,建表结构如下:

CREATE TABLE SEQUENCE_ID (
    id bigint(20) unsigned NOT NULL auto_increment, 
    tag char(10) NOT NULL default '',
    PRIMARY KEY (id),
) ENGINE=INNODB;

当需要一个ID的时候,向表中插入一条记录返回主键ID.

insert into SEQUENCE_ID(value)  VALUES ('tag');

数据库集群自增ID

由于单个数据库有可能造成单点故障,所以数据库自增还可以基于数据库集群来提供。可以避免因为单点造成的不可用,ID重复的问题可以通过给每个数据库设置不同的起始id和步长进行控制。

MySQL_1 配置:

set @@auto_increment_offset = 1;     -- 起始值
set @@auto_increment_increment = 2;  -- 步长

MySQL_2 配置:

set @@auto_increment_offset = 2;     -- 起始值
set @@auto_increment_increment = 2;  -- 步长

优点:
实现简单,ID单调自增,数值类型查询速度快
缺点:
无法支持高并发场景,单机模式有不可用风险,集群模式后期无法扩容。

号段模式

号段模式可以理解为从数据库批量的获取自增ID,每次从数据库取出一个号段范围,例如 (1,1000] 代表1000个ID,具体的业务服务将本号段,生成1~1000的自增ID并加载到内存。表结构如下:

CREATE TABLE SEGAMENT_ID (
  id int(10) NOT NULL,
  max_id bigint(20) NOT NULL COMMENT '当前最大id',
  step int(20) NOT NULL COMMENT '号段的步长',
  tag     varchar(8) NOT NULL COMMENT '业务标识',
  version int(20) NOT NULL COMMENT '是一个乐观锁,每次都更新version,保证并发时数据的正确性',
  PRIMARY KEY (`id`)
) 

表里插入初始化的数据,确定步长和id初始值。

insert into SEGAMENT_ID (`max_id`,`step`,`tag`,`version`) values(1,1000,'tag',1);

将(1,1000]放到内存里供系统使用。
等这批号段ID用完,再次向数据库申请新号段,对max_id字段做一次update操作,max_id= max_id + step,update成功则说明新号段获取成功,新的号段范围是(max_id ,max_id +step]。

update SEGAMENT_ID set max_id = #{max_id+step}, version = version + 1 where version = # {version} and tag ='tag'

优点:
高并发,不会占用大量数据库性能。
缺点:
当吞吐量上去后,依旧存在单点故障问题。

redis自增

基于用redis的 incr命令实现ID的原子性自增,也可视实现uid快速生成。

127.0.0.1:6379> set seq_id 1     // 初始化自增ID为1
OK
127.0.0.1:6379> incr seq_id      // 增加1,并返回递增后的数值
(integer) 2

优点:
支持较大的吞吐量,不会占用大量数据库性能。
缺点:
高并发下占用较大的网络IO资源。id完全自增,有信息安全问题。

snowflake算法

Twitter公司开源的id生成算法,基于机器的时钟服务和节点信息生成id。
Snowflake生成的是Long类型的ID,共占64个比特。
其中:正数位(占1比特)+ 时间戳(占41比特)+ 机器ID(占5比特)+ 数据中心(占5比特)+ 自增值(占12比特)。

第一个bit位(1bit):Java中long的最高位是符号位代表正负,正数是0,负数是1,一般生成ID都为正数,所以默认为0。
时间戳部分(41bit):毫秒级的时间,不建议存当前时间戳,而是用(当前时间戳 - 固定开始时间戳)的差值,可以使产生的ID从更小的值开始;41位的时间戳可以使用69年,(1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69年
工作机器id(10bit):也被叫做workId,这个可以灵活配置,机房或者机器号组合都可以。
序列号部分(12bit),自增值支持同一毫秒内同一个节点可以生成4096个ID。
在使用中,可以根据实际情况对每个部分的占比进行调整。


优点
没有网络IO开销,ID不连续,没有安全问题。
缺点
依赖时钟服务,当时间回调后会出现id重复。

混合使用

以上5种生成方案都有不同的缺点,在实际使用过程中各厂倾向于混合使用几种策略来满足自身的需求。

uid-generator

百度的uid-generator基于snowflake算法。解决了时钟回拨和瞬时高并发的问题。
uid-generator默认workNodeId持久化在数据库中,但也提供了重新实现workNodeId的接口。当时间回拨后,会自动生成新的nodeId,保证uid整体的不重复。
RingBuffer保存了当前可用的所有id序列,tail和cursor表示最新生成id和最新使用id,环状结构保证了序列的填充不用非得在正数时刻进行。由于不依赖时间服务,可以向未来借用时间生成id。解决了瞬时高并发的问题。

Leaf

美团团队根据业务场景提出了基于号段思想的 Leaf-Segment 方案和基于 Snowflake 的 Leaf-Snowflake 方案。出现两种方案的原因是Leaf-Segment并没有满足安全属性要求,容易被猜测。无法用在对外开放的场景(如订单)。Leaf-Snowflake 通过文件系统缓存降低了对 ZooKeeper 的依赖,同时通过对时间的比对和警报来应对 Snowflake 的时间回拨问题。

Seqsvr

微信并没有全局id,但他会为每个用户创建一组id,单个用户的id是顺序且唯一的。由于单个用户的吞吐量有限,该方案没有依赖时间服务,而是基于自增数和号段解决。

场景分析

基于部署成本和运维成本的考虑,事件中心被设计成既可以被集成部署,也可以独立部署的模式。所以在实际的环境中,往往会存在多个事件中心的实例。
这些情况对id生成器提出额外的要求:id的生成不能依赖单一中心组件,比如停车解决方案的数据库挂了,不能影响排水解决方案的id生成。且一个环境多个实例生成的id不能重复。
此外,应用需要在专有云,共有云等多种环境中部署。id生成器不能依赖时间服务。
最后,考虑到物联网的场景下,往往会产生事件风暴。所以id的生成还必须能够支持瞬时高并发。
综上现有的方案并不能100%的满足我们的需求,需要对其进行改造。

最终方案

id结构

基于以上的需求,我们采用snowflak算法作为基础进行了优化。我们依旧把64位分成4部分,其中:1bit符号,30bit时间偏移量,20bit机器id,13bit序列。


30bit的时间偏移量我们使用秒作为单位,可以支持34年使用。
20bit的机器id,支持每秒近50w台机器。
13bit的序列,可以支持8000qps的请求,对于单个解决方案来说足够了。

时间回拨

时间回拨通常有几个思路:
1. 缓存每毫秒的seq记录,当回拨时间时,使用之前没有用的seq创建新id,缺点是有可能会不够用。
2. 等待当前时间到lastTime,缺点是当回拨时间过长时,可用性无法保证。
3. 不再持续获取服务器最新时间,只在启动时获取一次时间,之后每个节点采取自增的方式维护自己的lastTime。当发现时间回拨时,更新一次nodeId。缺点是id中的“时间戳delta”并不代表实际生成的时间的偏移量。
经过评估第三种实现可以比较好的避免时间回拨问题。我们将nodeId持久化保存。每当机器启动时,或发现时间回拨时,在数据库里注册一个新的node记录,将新的id作为nodeId使用.

CREATE TABLE csa_work_node(
    `id` bigint unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
    `host_name` VARCHAR(64) NOT NULL COMMENT 'host name',
    `port` VARCHAR(64) NULL COMMENT 'port',
    `type` INT NOT NULL COMMENT 'node type: ACTUAL or CONTAINER',
    `gmt_modified` datetime  NOT NULL DEFAULT CURRENT_TIMESTAMP  COMMENT 'modified time',
    `gmt_create` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP on update CURRENT_TIMESTAMP  COMMENT 'created time',
    `is_deleted` bigint unsigned NOT NULL DEFAULT 0 COMMENT '是否删除0:未删除,1:删除',
    PRIMARY KEY(`id`)
) DEFAULT CHARACTER SET=utf8mb4 COMMENT='WorkNodeId';

由于需要持久化nodeId的信息,就需要考虑单点故障的问题。在这里我们将nodeId分为两部分,5bit的groupId和15bit的workId。“groupId”是由事件中心颁发给各解决方案的的分段标识,用以区分各解决方案产生的事件,“workId”用来标识每个id生成器实例的机器。


每个解决方案维护自己的workId,互相之间不影响。最终的nodeId为groupId+workId%32768。这样可以保证每秒2^15次的重启和时间回拨。

瞬时高并发

由于在解决时间回拨问题时,我们去掉了对时间服务的依赖,由每个实例维护自己的lastTime,所以具备了借用未来时间生成id的可能,在参考了uid-genenrator的实现后,我们这里直接使用uid-generator作为seqId的生成逻辑。

总结

通过上诉的设计,我们实现了不依赖时间服务的id生成器。且在多个实例同时存在的情况下,可以做到互相之间不影响,生成的id不重复。

相关推荐

正点原子开拓者FPGA开发板资料连载第四十章 SD卡图片显示实验

1)实验平台:正点原子开拓者FPGA开发板2)摘自《开拓者FPGA开发指南》关注官方微信号公众号,获取更多资料:正点原子3)全套实验源码+手册+视频下载地址:http://www.openedv.c...

东芝存储改名为铠侠了,铠侠microSD卡128GB全网首测

作为一个数码爱好者,平时总爱把玩各种科技数码产品,最近又迷上了口袋云台相机,大疆OsmoPocket、飞宇口袋相机、SnoppaVmate口袋相机什么的,不过这类产品由于设计的机身体积很小(毕竟为...

SD存储卡卡面上奇奇怪怪的图标,你知道几个?

现在对高像素照片、连拍、4K甚至8K的需求越来越多,对存储卡的传输速度、容量等,要求也越来越多了。但是,看到SD存储卡卡面上奇奇怪怪的图标,让人非常迷惑。这篇文章让你简单认识这些图标和奇奇怪怪的数字。...

拍摄4K视频上选!铠侠 EXCERIA PLUS microSD卡

大家好,我是波导终结者。今天跟大家分享的是铠侠的EXCERIAPLUS极至光速microSDXCUHS-1存储卡,名字有点长,但是不用担心,我会帮大家梳理好存储卡的选购建议。有不少刚入门的朋友...

高速稳定,一卡多用:铠侠极至光速microSD存储卡评测

Hello,大家好,我是小胖子。半个月前收到了KIOXIA铠侠寄来的一张256GB的TF卡,用了大半个月,让我们看看这款产品表现如何吧。其实很多人并不太了解铠侠,问我铠侠是什么品牌,好不好。其实,东芝...

读速205MB/s、V30规格,雷克沙SILVER系列存储卡再添新成员

IT之家6月19日消息,雷克沙今日推出3款SILVER系列SD/microSD存储卡新品,支持4K60fps录像。据介绍,该系列存储卡均符合V30标准,其中micr...

相机、无人机拍视频,选择SD存储卡有什么需要知道的?

本文章不涉及产品推荐导购行为,致力于给到小白带来基础知识。相机一般使用SD卡,无人机一般使用microSD卡(也叫TF卡),使用的标准和图标标识是一样的。相机、无人机拍视频,选择SD存储卡有什么需要知...

PNY推出适用Switch 2的microSD Express卡,读取速度高达890MB/s

任天堂Switch2开始预订,其比前代产品变得更加昂贵,各种配件的价格都高于预期,这也包括转向microSDExpress存储。此时,PNY推出了新款microSDExpress闪存卡。新款mi...

SD卡迎来25周年:全球售出120亿张,容量翻50万倍

IT之家5月21日消息,科技媒体betanews今天(5月21日)发布博文,报道称SD卡迎来了25周年的生日。自2000年首款SD存储卡问世以来,已走过25个年头...

微单相机买一款什么样的SD卡才够用?写入速度更为关键

最近,评价君朋友发现自己的卡拍摄视频时候总断流,于是感觉写入速度应该是不够的,打算换卡,评价君正好跟他说道说道。目前的SD存储卡,很多只标注读取速度,比如95MB/s,80MB/s等等,而没有写写入速...

金士顿Canvas Go!Plus 系列存储卡评测

前言2020年,金士顿推出了CanvasGo!Plus系列存储卡,凭借其优秀的读写速度和稳定性获得了广大用户的认可。时隔5年,金士顿推出了其全新升级产品:SDG4/SDCG4,可选容量覆盖64GB...

TF卡速度等级|MK米客方德(tf卡速度等级图)

TF卡(TransFlash卡,又称MicroSD卡)是一种常见的便携式存储媒体,广泛用于智能手机、相机、平板电脑等设备中。TF卡的性能通常由速度等级来衡量,这些等级反映了TF卡的数据传输速度。拓优星...

关于SD卡,看这张表就够了(sd卡的作用)

这里是溢图科技(原“相机笔记”)。这两天有不少存储产品促销,随之而来的就是关于SD卡的一些提问。文章以前已经写过很多了,这里主要给大家看一张表格:上面就是SD卡协会官方制作的“族谱”,明确给出了不同版...

轻量化储存的首选——凯侠极致光速256G microSD存储卡实测

对于摄影师而言,我们经常会接触到相关存储设备,像照片拍摄中给相机安装的SD卡,视频录制中外录高规格画面的SSD等,都属于专业的存储介质,被应用于商业拍摄、电影级别拍摄之中。而针对生活中我们日常用于拍摄...

首发1569元,读取速度可达250MB/s,闪迪推出最新2TB至尊超极速存储卡

近日,闪迪(SanDisk)正式发布了其最新的2TB至尊超极速microSDXCUHS-I存储卡。据悉,这款存储卡的读取速度可达250MB/s,写入速度则达到150MB/s。这意味着用户在处理高分辨...

取消回复欢迎 发表评论: