содержание
- содержание
- предисловие
- Основы короткого URL
- сервис-дизайн - Как хранится переписка? - Как обеспечить однозначное соответствие между длинными и короткими ссылками? - Хранение коротких URL - Высокий параллелизм - распределенный
- выполнить
предисловие
Предположительно все часто получают спам-смс. Ссылки в смс-сообщениях, как правило, короткие, похожие на следующую картинку:
Почему там короткий url?Что в этом хорошего?Как это сделать?
Преимущества коротких URL:
- Короткие: текстовые сообщения и многие платформы (Weibo) имеют ограничение на количество символов, и нет возможности написать текст, если ссылка слишком длинная.
- Красиво: по сравнению с множеством неизвестных параметров короткие ссылки более лаконичны и понятны.
- Удобно вести некоторую статистику, при переходе по ссылке кто-то ее запишет и проанализирует.
- Безопасный.Не раскрывает параметры доступа.
Вот почему большинство спам-сообщений, которые мы получаем сейчас, представляют собой короткие URL-адреса.
Так как же это делает короткий URL?
Основы короткого URL
Короткий URL-адрес разделен на следующие этапы от создания до использования.
- Существует служба, которая сопоставляет длинный URL-адрес, который будет отправлен вам, с коротким URL-адресом, например.
www.baidu.com -> www.t.cn/1
- Вставьте короткий URL-адрес в текстовое сообщение и отправьте его.
- Когда пользователь щелкает короткий URL-адрес, браузер выполняет перенаправление с кодом 301/302 и получает доступ к соответствующему длинному URL-адресу.
- Отображение соответствующего контента.
Эта статья в основном посвящена первому шагу, то есть тому, как сопоставить длинный URL-адрес с коротким URL-адресом.
сервис-дизайн
Если вы думаете о реальном соответствии между длинными и короткими URL-адресами, то далеко пойдете.
Идеальная ситуация такова: мы используем алгоритм, который уникальным образом преобразует каждый длинный URL в короткий, а также поддерживает возможность обратного преобразования.
Но это невозможно, если есть такие алгоритмы, то алгоритмы сжатия по всему миру могут помереть.
Правильная идея состоит в том, чтобы построить сборное устройство. Каждый раз, когда появится новый длинный URL, мы добавим одно и вернем новое значение. Первый URL возвращает «www.x.cn/0», два возврата "www. x.cn/1 ".
Далее напишите несколько небольших вопросов в форме QA:
Как хранится переписка?
Эти соответствующие данные должны быть размещены на диске, и число не может быть изменено каждый раз при перезапуске системы, поэтому его можно хранить в базе данных, такой как mysql.И если объем данных небольшой и qps низкий, это может быть достигнуто непосредственно с помощью самоувеличивающегося первичного ключа базы данных.
Как обеспечить однозначное соответствие между длинными и короткими ссылками?
Согласно приведенной выше стратегии эмитента, нет гарантии, что между длинными и короткими ссылками будет однозначное соответствие, если вы используете один и тот же URL два раза подряд, значения результата будут разными.
Чтобы добиться однозначного соответствия между длинными и короткими ссылками, нам нужно заплатить много затрат на пространство, особенно для быстрого ответа, нам может понадобиться сделать слой кэша в памяти, что слишком расточительно.
Однако некоторые варианты могут быть реализованы для достижения частичной однозначной корреспонденции, например, сохранение самой последней/самой популярной корреспонденции в базе данных K-V, что может сэкономить место и ускорить ответ.
Хранение коротких URL
Короткий URL-адрес, который мы возвращаем, обычно предназначен для преобразования числа в шестнадцатеричное число 32, что может более эффективно сократить длину URL-адреса, тогда шестнадцатеричное число 32 — это просто строка для компьютера, как ее сохранить? легко найти, слишком недружественный для поиска по диапазону и т. д.
На самом деле, десятичные числа можно хранить напрямую, что не только занимает меньше места, но и обеспечивает лучшую поддержку поиска, и в то же время удобнее конвертировать в большее/меньшее количество оснований для дальнейшего сокращения URL.
Высокий параллелизм
Если он хранится непосредственно в MySQL, когда количество одновременных запросов увеличивается, нагрузка на базу данных слишком велика, что может вызвать узкие места.В это время можно выполнить некоторые оптимизации.
тайник
вышеГарантия корреспонденции длинных и коротких ссылок один на одинКэш также упоминается в , здесь мы для ускорения работы программы.Вы можете считать популярные длинные ссылки (нужно считать количество приходящих длинных ссылок), последние длинные ссылки (можно использовать redis для сохранения последнего часа), и т. д. Выполните кеширование и сохраните его в памяти или в базе данных в памяти, аналогичной Redis.Если запрошенный длинный URL-адрес попадает в кеш, соответствующий короткий URL-адрес получается и возвращается напрямую, и дальнейшая операция генерации не требуется.
серийный номер
Каждый раз, когда выдается номер, необходимо один раз получить доступ к MySQL, чтобы получить текущий максимальный номер, и обновить максимальное число после получения, что является относительно большим давлением.
Мы можем каждый раз получать из базы 10000 номеров, а затем выдавать их в память.Когда оставшихся номеров меньше 1000, мы можем повторно запрашивать у MySQL 10000 номеров.После выдачи предыдущей партии номеров, писать пачками.
Таким образом, непрерывная работа базы данных может быть перенесена в код, а операции выборки и записи могут выполняться асинхронно, чтобы обеспечить непрерывный высокий параллелизм службы.
распределенный
Система, разработанная выше, имеет одну точку, то есть передатчик номера является одной точкой, и ее легко повесить.
Можно использовать распределенные сервисы.При распределении, если каждый эмитент должен синхронизироваться с другими эмитентами после выдачи номеров, это может быть не слишком хлопотно.
С другой точки зрения, может быть два передатчика числа, один для одиночного числа, а другой для двойного числа.После того, как номер выдан, он больше не увеличивается на 1, а увеличивается на 2.
По аналогии, мы можем использовать 1000 сервисов для выдачи номеров, оканчивающихся на 0-999, и увеличивать после каждого номера на 1000. Это очень просто, и сервисам в принципе не нужно общаться друг с другом, просто заниматься своими делами. .
выполнить
Поскольку мне лень писать JDBC-код, а еще лень получать Mybatis, Redis используется везде, где в коде используется MySQL.
package util;
import redis.clients.jedis.Jedis;
/**
* Created by pfliu on 2019/06/23.
*/
public class ShortUrlUtil {
private static final String SHORT_URL_KEY = "SHORT_URL_KEY";
private static final String LOCALHOST = "http://localhost:4444/";
private static final String SHORT_LONG_PREFIX = "short_long_prefix_";
private static final String CACHE_KEY_PREFIX = "cache_key_prefix_";
private static final int CACHE_SECONDS = 1 * 60 * 60;
private final String redisConfig;
private final Jedis jedis;
public ShortUrlUtil(String redisConfig) {
this.redisConfig = redisConfig;
this.jedis = new Jedis(this.redisConfig);
}
public String getShortUrl(String longUrl, Decimal decimal) {
// 查询缓存
String cache = jedis.get(CACHE_KEY_PREFIX + longUrl);
if (cache != null) {
return LOCALHOST + toOtherBaseString(Long.valueOf(cache), decimal.x);
}
// 自增
long num = jedis.incr(SHORT_URL_KEY);
// 在数据库中保存短-长URL的映射关系,可以保存在MySQL中
jedis.set(SHORT_LONG_PREFIX + num, longUrl);
// 写入缓存
jedis.setex(CACHE_KEY_PREFIX + longUrl, CACHE_SECONDS, String.valueOf(num));
return LOCALHOST + toOtherBaseString(num, decimal.x);
}
/**
* 在进制表示中的字符集合
*/
final static char[] digits = {'0', '1', '2', '3', '4', '5', '6', '7', '8',
'9', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L',
'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y',
'Z', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'};
/**
* 由10进制的数字转换到其他进制
*/
private String toOtherBaseString(long n, int base) {
long num = 0;
if (n < 0) {
num = ((long) 2 * 0x7fffffff) + n + 2;
} else {
num = n;
}
char[] buf = new char[32];
int charPos = 32;
while ((num / base) > 0) {
buf[--charPos] = digits[(int) (num % base)];
num /= base;
}
buf[--charPos] = digits[(int) (num % base)];
return new String(buf, charPos, (32 - charPos));
}
enum Decimal {
D32(32),
D64(64);
int x;
Decimal(int x) {
this.x = x;
}
}
public static void main(String[] args) {
for (int i = 0; i < 100; i++) {
System.out.println(new ShortUrlUtil("localhost").getShortUrl("www.baidudu.com", Decimal.D32));
System.out.println(new ShortUrlUtil("localhost").getShortUrl("www.baidu.com", Decimal.D64));
}
}
}
Заканчивать.
ChangeLog
2019-06-24 завершенияВсе вышеизложенное является личными мыслями, если есть какие-либо ошибки, пожалуйста, исправьте их в комментариях.
Добро пожаловать на перепечатку, пожалуйста, подпишите и сохраните исходную ссылку.
Контактный адрес электронной почты: huyanshi2580@gmail.com
Дополнительные заметки об обучении см. в личном блоге ------>Хуян тен