Дизайн и реализация службы коротких URL-адресов

Java задняя часть

содержание

предисловие

Предположительно все часто получают спам-смс. Ссылки в смс-сообщениях, как правило, короткие, похожие на следующую картинку:

2019-06-23-23-46-53

Почему там короткий url?Что в этом хорошего?Как это сделать?

Преимущества коротких URL:

  1. Короткие: текстовые сообщения и многие платформы (Weibo) имеют ограничение на количество символов, и нет возможности написать текст, если ссылка слишком длинная.
  2. Красиво: по сравнению с множеством неизвестных параметров короткие ссылки более лаконичны и понятны.
  3. Удобно вести некоторую статистику, при переходе по ссылке кто-то ее запишет и проанализирует.
  4. Безопасный.Не раскрывает параметры доступа.

Вот почему большинство спам-сообщений, которые мы получаем сейчас, представляют собой короткие URL-адреса.

Так как же это делает короткий URL?

Основы короткого URL

Короткий URL-адрес разделен на следующие этапы от создания до использования.

  1. Существует служба, которая сопоставляет длинный URL-адрес, который будет отправлен вам, с коротким URL-адресом, например.www.baidu.com -> www.t.cn/1
  2. Вставьте короткий URL-адрес в текстовое сообщение и отправьте его.
  3. Когда пользователь щелкает короткий URL-адрес, браузер выполняет перенаправление с кодом 301/302 и получает доступ к соответствующему длинному URL-адресу.
  4. Отображение соответствующего контента.

Эта статья в основном посвящена первому шагу, то есть тому, как сопоставить длинный URL-адрес с коротким URL-адресом.

сервис-дизайн

Если вы думаете о реальном соответствии между длинными и короткими URL-адресами, то далеко пойдете.

Идеальная ситуация такова: мы используем алгоритм, который уникальным образом преобразует каждый длинный URL в короткий, а также поддерживает возможность обратного преобразования.

Но это невозможно, если есть такие алгоритмы, то алгоритмы сжатия по всему миру могут помереть.

Правильная идея состоит в том, чтобы построить сборное устройство. Каждый раз, когда появится новый длинный URL, мы добавим одно и вернем новое значение. Первый URL возвращает «www.x.cn/0», два возврата "www. x.cn/1 ".

Далее напишите несколько небольших вопросов в форме QA:

Как хранится переписка?

Эти соответствующие данные должны быть размещены на диске, и число не может быть изменено каждый раз при перезапуске системы, поэтому его можно хранить в базе данных, такой как mysql.И если объем данных небольшой и qps низкий, это может быть достигнуто непосредственно с помощью самоувеличивающегося первичного ключа базы данных.

Как обеспечить однозначное соответствие между длинными и короткими ссылками?

Согласно приведенной выше стратегии эмитента, нет гарантии, что между длинными и короткими ссылками будет однозначное соответствие, если вы используете один и тот же URL два раза подряд, значения результата будут разными.

Чтобы добиться однозначного соответствия между длинными и короткими ссылками, нам нужно заплатить много затрат на пространство, особенно для быстрого ответа, нам может понадобиться сделать слой кэша в памяти, что слишком расточительно.

Однако некоторые варианты могут быть реализованы для достижения частичной однозначной корреспонденции, например, сохранение самой последней/самой популярной корреспонденции в базе данных K-V, что может сэкономить место и ускорить ответ.

Хранение коротких URL

Короткий URL-адрес, который мы возвращаем, обычно предназначен для преобразования числа в шестнадцатеричное число 32, что может более эффективно сократить длину URL-адреса, тогда шестнадцатеричное число 32 — это просто строка для компьютера, как ее сохранить? легко найти, слишком недружественный для поиска по диапазону и т. д.

На самом деле, десятичные числа можно хранить напрямую, что не только занимает меньше места, но и обеспечивает лучшую поддержку поиска, и в то же время удобнее конвертировать в большее/меньшее количество оснований для дальнейшего сокращения URL.

Высокий параллелизм

Если он хранится непосредственно в MySQL, когда количество одновременных запросов увеличивается, нагрузка на базу данных слишком велика, что может вызвать узкие места.В это время можно выполнить некоторые оптимизации.

тайник

вышеГарантия корреспонденции длинных и коротких ссылок один на одинКэш также упоминается в , здесь мы для ускорения работы программы.Вы можете считать популярные длинные ссылки (нужно считать количество приходящих длинных ссылок), последние длинные ссылки (можно использовать redis для сохранения последнего часа), и т. д. Выполните кеширование и сохраните его в памяти или в базе данных в памяти, аналогичной Redis.Если запрошенный длинный URL-адрес попадает в кеш, соответствующий короткий URL-адрес получается и возвращается напрямую, и дальнейшая операция генерации не требуется.

серийный номер

Каждый раз, когда выдается номер, необходимо один раз получить доступ к MySQL, чтобы получить текущий максимальный номер, и обновить максимальное число после получения, что является относительно большим давлением.

Мы можем каждый раз получать из базы 10000 номеров, а затем выдавать их в память.Когда оставшихся номеров меньше 1000, мы можем повторно запрашивать у MySQL 10000 номеров.После выдачи предыдущей партии номеров, писать пачками.

Таким образом, непрерывная работа базы данных может быть перенесена в код, а операции выборки и записи могут выполняться асинхронно, чтобы обеспечить непрерывный высокий параллелизм службы.

распределенный

Система, разработанная выше, имеет одну точку, то есть передатчик номера является одной точкой, и ее легко повесить.

Можно использовать распределенные сервисы.При распределении, если каждый эмитент должен синхронизироваться с другими эмитентами после выдачи номеров, это может быть не слишком хлопотно.

С другой точки зрения, может быть два передатчика числа, один для одиночного числа, а другой для двойного числа.После того, как номер выдан, он больше не увеличивается на 1, а увеличивается на 2.

По аналогии, мы можем использовать 1000 сервисов для выдачи номеров, оканчивающихся на 0-999, и увеличивать после каждого номера на 1000. Это очень просто, и сервисам в принципе не нужно общаться друг с другом, просто заниматься своими делами. .

выполнить

Поскольку мне лень писать JDBC-код, а еще лень получать Mybatis, Redis используется везде, где в коде используется MySQL.

package util;

import redis.clients.jedis.Jedis;

/**
 * Created by pfliu on 2019/06/23.
 */
public class ShortUrlUtil {


    private static final String SHORT_URL_KEY = "SHORT_URL_KEY";
    private static final String LOCALHOST = "http://localhost:4444/";
    private static final String SHORT_LONG_PREFIX = "short_long_prefix_";
    private static final String CACHE_KEY_PREFIX = "cache_key_prefix_";
    private static final int CACHE_SECONDS = 1 * 60 * 60;

    private final String redisConfig;
    private final Jedis jedis;

    public ShortUrlUtil(String redisConfig) {
        this.redisConfig = redisConfig;
        this.jedis = new Jedis(this.redisConfig);
    }

    public String getShortUrl(String longUrl, Decimal decimal) {
        // 查询缓存
        String cache = jedis.get(CACHE_KEY_PREFIX + longUrl);
        if (cache != null) {
            return LOCALHOST + toOtherBaseString(Long.valueOf(cache), decimal.x);
        }

        // 自增
        long num = jedis.incr(SHORT_URL_KEY);
        // 在数据库中保存短-长URL的映射关系,可以保存在MySQL中
        jedis.set(SHORT_LONG_PREFIX + num, longUrl);
        // 写入缓存
        jedis.setex(CACHE_KEY_PREFIX + longUrl, CACHE_SECONDS, String.valueOf(num));
        return LOCALHOST + toOtherBaseString(num, decimal.x);
    }

    /**
     * 在进制表示中的字符集合
     */
    final static char[] digits = {'0', '1', '2', '3', '4', '5', '6', '7', '8',
            '9', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L',
            'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y',
            'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};

    /**
     * 由10进制的数字转换到其他进制
     */
    private String toOtherBaseString(long n, int base) {
        long num = 0;
        if (n < 0) {
            num = ((long) 2 * 0x7fffffff) + n + 2;
        } else {
            num = n;
        }
        char[] buf = new char[32];
        int charPos = 32;
        while ((num / base) > 0) {
            buf[--charPos] = digits[(int) (num % base)];
            num /= base;
        }
        buf[--charPos] = digits[(int) (num % base)];
        return new String(buf, charPos, (32 - charPos));
    }

    enum Decimal {
        D32(32),
        D64(64);

        int x;

        Decimal(int x) {
            this.x = x;
        }
    }


    public static void main(String[] args) {

        for (int i = 0; i < 100; i++) {
            System.out.println(new ShortUrlUtil("localhost").getShortUrl("www.baidudu.com", Decimal.D32));
            System.out.println(new ShortUrlUtil("localhost").getShortUrl("www.baidu.com", Decimal.D64));
        }
    }
}


Заканчивать.



ChangeLog

2019-06-24 завершения

Все вышеизложенное является личными мыслями, если есть какие-либо ошибки, пожалуйста, исправьте их в комментариях.

Добро пожаловать на перепечатку, пожалуйста, подпишите и сохраните исходную ссылку.

Контактный адрес электронной почты: huyanshi2580@gmail.com

Дополнительные заметки об обучении см. в личном блоге ------>Хуян тен