Алгоритм снежинки
Зачем вам нужны распределенные глобально уникальные идентификаторы и бизнес-требования для распределенных идентификаторов?
- В сложных распределенных системах часто необходимо идентифицировать большое количество пар данных и сообщений.
- Например, данные системы в Meituan, оплаты и общественного питания увеличиваются день ото дня, и необходимо определить уникальные данные или сообщение для подбазы данных и подтаблицы.
- В настоящее время очень необходима система, которая может генерировать глобально уникальный идентификатор.
Некоторые жесткие требования к правилам генерации идентификаторов
- Глобально уникальный: дубликаты идентификаторов не могут появляться и должны быть однозначно идентифицированы.
- Возрастающая тенденция: механизм InnoDB в Mysql использует кластеризованный индекс.Поскольку большинство СУБД используют структуру данных Btree для хранения данных, мы должны попытаться использовать упорядоченный первичный ключ, чтобы обеспечить запись данных при выборе первичных ключей.
- Монотонно увеличивающийся: убедитесь, что следующий идентификатор должен быть больше, чем предыдущий идентификатор, например, номер версии транзакции, добавочное сообщение
- Информационная безопасность: если идентификатор является непрерывным, злоумышленникам очень легко получить данные и загрузить указанный URL-адрес напрямую по порядку.Если это номер заказа, это еще более опасно.Конкуренты могут узнать наш ежедневный объем заказа , поэтому в некоторых сценариях приложений идентификатор должен быть нерегулярным
- С отметкой времени: это позволяет вам быстро понять время генерации этого распределенного идентификатора во время разработки.
Требования к доступности для систем генерации идентификаторов
- Высокая доступность: Отправьте запрос на получение распределенного идентификатора, и сервер должен создать для меня уникальный распределенный идентификатор в 99,99% случаев.
- Низкая задержка: отправьте запрос на получение распределенного идентификатора, сервер должен быть быстрым и чрезвычайно быстрым.
- Высокий QPS: если 100 000 запросов на создание распределенных идентификаторов одновременно уничтожаются, сервер должен выдержать и успешно создать 10 Вт распределенных идентификаторов одновременно.
Наша обычная программа
UUID, первичный ключ с автоинкрементом базы данных, глобальная стратегия ID, основанная на генерации Redis
недостатки
UUID не могут генерировать последовательные, инкрементные данные и являются длинными, что не рекомендуется.
БД саморастущая, а когда кластеров много, расширение просто кошмар
Redis реализован с использованием Redis INCR и INCRBY.
снежинка (алгоритм снежинки)
Алгоритм распределенного самоинкрементного идентификатора Twitter: снежинка (алгоритм снежинки)
Обзор
Первоначально Twitter перенес систему хранения с Mysql на Cassandra (распределенная система Nosql с открытым исходным кодом, разработанная Facebook).Поскольку Cassandra не имеет механизма последовательной генерации идентификаторов, была разработана такая глобально уникальная служба генерации идентификаторов.
Алгоритм распределенной снежинки Twitter, SnowFlake, был протестирован, и снежинка может создавать 260 000 самоувеличивающихся и сортируемых идентификаторов в секунду.
- Идентификатор поколения SnowFlake в Twitter может быть сгенерирован во времени
- Результатом идентификатора, сгенерированного алгоритмом SnowFlake, является 64-битное целое число типа Long (длина 19 бит после преобразования в символы).
- Распределенная система не генерирует коллизию идентификаторов (отличающихся по датацентру и рабочему идентификатору) и более эффективна.
структура
Анализ сегмента номера:
1 бит,
- Нет, поскольку старший бит в двоичном коде — это бит знака, в миллисекундах сгенерированный идентификатор обычно представляет собой целое число, поэтому старший бит равен 0.
41bit - Отметка времени, используется для записи отметок времени, уровень миллисекунд,
- 41 бит может представлять 2^{41}-1 числа
- Если используется только для представления положительных целых чисел (положительные целые числа содержат 0 в компьютерах). Он может представлять диапазон значений: от 0 до 2^{41}-1 минус 1, поскольку представляемое значение начинается с 0, а не с 1.
- То есть 41 бит может представлять значение 2 ^ {41}-1 миллисекунды, и если его заменить единицей года, (2^{41}-1) / (1000 * 60 * 60 * 24 * 365) = 69 лет
10-битный идентификатор рабочей машины, используемый для записи идентификатора рабочей машины.
- Может быть развернут на 2^{10} = 1024 узлах, включая 5 битов datacenterId и 5 битов workeId
- Наибольшее положительное целое число, которое может быть представлено 5 битами, равно 2 ^ {5}-1 = 31 , то есть 32 числа 0, 1, 2, 3....31 могут использоваться для представления разных datacenterId или workId
12 бит — серийный номер, серийный номер, используемый для записи разных идентификаторов, сгенерированных в течение одной миллисекунды.
- Наибольшее положительное целое число, которое может быть представлено 12 битами, равно 2^{12}-1 = 4095, то есть 4095 чисел 0, 1, 2, 34094 могут быть использованы для представления 4095 идентификационных номеров, сгенерированных одной и той же машиной в одновременно (миллисекунды).
SnowFlake может гарантировать
- Все сгенерированные идентификаторы увеличиваются по временному тренду
- Во всей распределенной системе не будет повторяющихся идентификаторов.
исходный код
Алгоритм снежинки Twitter:GitHub.com/Twitter-arc…
Алгоритм Snowflake в java-версии на GitHub:GitHub.com/beyond ситуация… GitHub.com/Союнку/SN…
Java-версия❄️Алгоритм Snowflake
public class SnowflakeIdWorker {
// ==============================Fields==================
/** 开始时间截 (2019-08-06) */
private final long twepoch = 1565020800000L;
/** 机器id所占的位数 */
private final long workerIdBits = 5L;
/** 数据标识id所占的位数 */
private final long datacenterIdBits = 5L;
/** 支持的最大机器id,结果是31 (这个移位算法可以很快的计算出几位二进制数所能表示的最大十进制数) */
private final long maxWorkerId = -1L ^ (-1L << workerIdBits);
/** 支持的最大数据标识id,结果是31 */
private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);
/** 序列在id中占的位数 */
private final long sequenceBits = 12L;
/** 机器ID向左移12位 */
private final long workerIdShift = sequenceBits;
/** 数据标识id向左移17位(12+5) */
private final long datacenterIdShift = sequenceBits + workerIdBits;
/** 时间截向左移22位(5+5+12) */
private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;
/** 生成序列的掩码,这里为4095 (0b111111111111=0xfff=4095) */
private final long sequenceMask = -1L ^ (-1L << sequenceBits);
/** 工作机器ID(0~31) */
private long workerId;
/** 数据中心ID(0~31) */
private long datacenterId;
/** 毫秒内序列(0~4095) */
private long sequence = 0L;
/** 上次生成ID的时间截 */
private long lastTimestamp = -1L;
//==============================Constructors====================
/**
* 构造函数
* @param workerId 工作ID (0~31)
* @param datacenterId 数据中心ID (0~31)
*/
public SnowflakeIdWorker(long workerId, long datacenterId) {
if (workerId > maxWorkerId || workerId < 0) {
throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));
}
if (datacenterId > maxDatacenterId || datacenterId < 0) {
throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));
}
this.workerId = workerId;
this.datacenterId = datacenterId;
}
// ==============================Methods=================================
/**
* 获得下一个ID (该方法是线程安全的)
* @return SnowflakeId
*/
public synchronized long nextId() {
long timestamp = timeGen();
//如果当前时间小于上一次ID生成的时间戳,说明系统时钟回退过这个时候应当抛出异常
if (timestamp < lastTimestamp) {
throw new RuntimeException(
String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
}
//如果是同一时间生成的,则进行毫秒内序列
if (lastTimestamp == timestamp) {
sequence = (sequence + 1) & sequenceMask;
//毫秒内序列溢出
if (sequence == 0) {
//阻塞到下一个毫秒,获得新的时间戳
timestamp = tilNextMillis(lastTimestamp);
}
}
//时间戳改变,毫秒内序列重置
else {
sequence = 0L;
}
//上次生成ID的时间截
lastTimestamp = timestamp;
//移位并通过或运算拼到一起组成64位的ID
return ((timestamp - twepoch) << timestampLeftShift) //
| (datacenterId << datacenterIdShift) //
| (workerId << workerIdShift) //
| sequence;
}
/**
* 阻塞到下一个毫秒,直到获得新的时间戳
* @param lastTimestamp 上次生成ID的时间截
* @return 当前时间戳
*/
protected long tilNextMillis(long lastTimestamp) {
long timestamp = timeGen();
while (timestamp <= lastTimestamp) {
timestamp = timeGen();
}
return timestamp;
}
/**
* 返回以毫秒为单位的当前时间
* @return 当前时间(毫秒)
*/
protected long timeGen() {
return System.currentTimeMillis();
}
//==============================Test=============================================
/** 测试 */
public static void main(String[] args) {
SnowflakeIdWorker idWorker = new SnowflakeIdWorker(0, 0);
for (int i = 0; i < 10; i++) {
long id = idWorker.nextId();
System.out.println(Long.toBinaryString(id));
System.out.println(id);
}
}
}
springboot интегрирует алгоритм снежинки
- Снежинка в новом проекте.
- pom
<dependencies>
<!--hutool 引入糊涂工具包,测试雪花算法-->
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-captcha</artifactId>
<version>5.3.8</version>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
<scope>test</scope>
</dependency>
</dependencies>
- yml
server:
port: 7777
- Новый пакет утилит класса IdGeneratorSnowflake
@Slf4j
@Component
public class IdGeneratorSnowflake {
private long workerId = 0; //第几号机房
private long datacenterId = 1; //第几号机器
private Snowflake snowflake = IdUtil.createSnowflake(workerId, datacenterId);
@PostConstruct //构造后开始执行,加载初始化工作
public void init(){
try{
//获取本机的ip地址编码
workerId = NetUtil.ipv4ToLong(NetUtil.getLocalhostStr());
log.info("当前机器的workerId: " + workerId);
}catch (Exception e){
e.printStackTrace();
log.warn("当前机器的workerId获取失败 ----> " + e);
workerId = NetUtil.getLocalhostStr().hashCode();
}
}
public synchronized long snowflakeId(){
return snowflake.nextId();
}
public synchronized long snowflakeId(long workerId, long datacenterId){
Snowflake snowflake = IdUtil.createSnowflake(workerId, datacenterId);
return snowflake.nextId();
}
//测试
public static void main(String[] args) {
System.out.println(new IdGeneratorSnowflake().snowflakeId()); //1277896081711169536
}
}
- Создайте новый интерфейс пакета услуг OrderService и пакет service.impl OrderServiceImpl для реализации интерфейса OrderService.
public interface OrderService {
String getIDBySnowFlake();
}
@Service
public class OrderServiceImpl implements OrderService {
@Autowired
private IdGeneratorSnowflake idGenerator;
public String getIDBySnowFlake() {
//新建线程池(5个线程)
ExecutorService threadPool = Executors.newFixedThreadPool(5);
for (int i = 1; i <= 20; i++) {
threadPool.submit(() -> {
System.out.println(idGenerator.snowflakeId());
});
}
threadPool.shutdown();
return "hello snowflake";
}
}
- Создайте новый пакет контроллера OrderController
@RestController
public class OrderController {
@Autowired
private OrderService orderService;
@RequestMapping("/snowflake")
public String index(){
return orderService.getIDBySnowFlake();
}
}
- основной стартовый класс
@SpringBootApplication
public class MainApp {
public static void main(String[] args) {
SpringApplication.run(MainApp.class, args);
}
}
Стартовый проект Браузерный вводhttp://localhost:7777/snowflake
Преимущества и недостатки
Устранение проблем с обратным вызовом часов
-
Распределенный генератор уникальных идентификаторов Baidu с открытым исходным кодом UidGenerator
-
Распределенная система генерации идентификаторов Meituan с открытым исходным кодом Leaf
-
личный блог:blog.yanxiaolong.cn/