предисловие
- Интервьюер: Давайте поговорим о 10 миллионах данных, как вы их запрашивали?
- Brother B: Прямой пейджинговый запрос, используйте лимит пейджинга.
- Интервьюер: Вы практиковали это?
- Брат Б: Конечно
В этот момент я представляю песню «Лян Лян».
Возможно, некоторые люди никогда не сталкивались с таблицей с десятками миллионов данных и не знают, что произойдет при запросе десятков миллионов данных.
Сегодня я возьму вас на практику, на этот раз на основеMySQL 5.7.26делать тесты
Подготовить данные
Что делать, если нет 10 миллионов данных?
Создайте
Код для создания 10 миллионов? Это невозможно, это слишком медленно, это может занять целый день. Скрипты базы данных можно использовать для более быстрого выполнения.
создать таблицу
CREATE TABLE `user_operation_log` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`user_id` varchar(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`ip` varchar(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`op_data` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr1` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr2` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr3` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr4` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr5` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr6` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr7` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr8` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr9` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr10` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr11` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
`attr12` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 1 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci ROW_FORMAT = Dynamic;
Создать сценарий данных
Использование пакетных вставок будет намного быстрее, а фиксация выполняется каждые 1000 записей.Объем данных слишком велик, что также приведет к снижению эффективности пакетной вставки.
DELIMITER ;;
CREATE PROCEDURE batch_insert_log()
BEGIN
DECLARE i INT DEFAULT 1;
DECLARE userId INT DEFAULT 10000000;
set @execSql = 'INSERT INTO `test`.`user_operation_log`(`user_id`, `ip`, `op_data`, `attr1`, `attr2`, `attr3`, `attr4`, `attr5`, `attr6`, `attr7`, `attr8`, `attr9`, `attr10`, `attr11`, `attr12`) VALUES';
set @execData = '';
WHILE i<=10000000 DO
set @attr = "'测试很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长的属性'";
set @execData = concat(@execData, "(", userId + i, ", '10.0.69.175', '用户登录操作'", ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ")");
if i % 1000 = 0
then
set @stmtSql = concat(@execSql, @execData,";");
prepare stmt from @stmtSql;
execute stmt;
DEALLOCATE prepare stmt;
commit;
set @execData = "";
else
set @execData = concat(@execData, ",");
end if;
SET i=i+1;
END WHILE;
END;;
DELIMITER ;
начать тестирование
Конфигурация компьютера Brother относительно низкая: стандартный шлак win10 шлак i5, чтение и запись около 500 МБ SSD
Из-за низкой конфигурации для этого теста было подготовлено всего 3 148 000 элементов данных, которые заняли 5 ГБ на диске (если не был построен индекс) и выполнялись в течение минут 38. Учащиеся с хорошей конфигурацией компьютера могут вставить тест с многоточечными данными.
SELECT count(1) FROM `user_operation_log`
Результат возврата: 3148000
Три времени запроса:
- 14060 ms
- 13755 ms
- 13447 ms
Обычный пейджинговый запрос
MySQL поддерживает оператор LIMIT для выбора указанного количества данных, Oracle может использовать ROWNUM для выбора.
Синтаксис запроса разбивки на страницы MySQL следующий:
SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset
- Первый параметр указывает смещение первой возвращенной строки записи.
- Второй параметр указывает максимальное количество возвращаемых строк.
Теперь приступим к тестированию результатов запроса:
SELECT * FROM `user_operation_log` LIMIT 10000, 10
Три времени запроса:
- 59 ms
- 49 ms
- 50 ms
Вроде со скоростью все в порядке, но это локальная база данных, и скорость естественно выше.
Тест под другим углом
То же смещение, разный объем данных
SELECT * FROM `user_operation_log` LIMIT 10000, 10
SELECT * FROM `user_operation_log` LIMIT 10000, 100
SELECT * FROM `user_operation_log` LIMIT 10000, 1000
SELECT * FROM `user_operation_log` LIMIT 10000, 10000
SELECT * FROM `user_operation_log` LIMIT 10000, 100000
SELECT * FROM `user_operation_log` LIMIT 10000, 1000000
Время запроса следующее:
количество | первый раз | второй раз | в третий раз |
---|---|---|---|
10 | 53ms | 52ms | 47ms |
100 | 50ms | 60ms | 55ms |
1000 записей | 61ms | 74ms | 60ms |
10000 штук | 164ms | 180ms | 217ms |
100000 статей | 1609ms | 1741ms | 1764ms |
1000000 статей | 16219ms | 16889ms | 17081ms |
Из вышеприведенных результатов можно сделать вывод, что:Чем больше объем данных, тем больше времени требуется
Тот же объем данных, разное смещение
SELECT * FROM `user_operation_log` LIMIT 100, 100
SELECT * FROM `user_operation_log` LIMIT 1000, 100
SELECT * FROM `user_operation_log` LIMIT 10000, 100
SELECT * FROM `user_operation_log` LIMIT 100000, 100
SELECT * FROM `user_operation_log` LIMIT 1000000, 100
Компенсировать | первый раз | второй раз | в третий раз |
---|---|---|---|
100 | 36ms | 40ms | 36ms |
1000 | 31ms | 38ms | 32ms |
10000 | 53ms | 48ms | 51ms |
100000 | 622ms | 576ms | 627ms |
1000000 | 4891ms | 5076ms | 4856ms |
Из вышеприведенных результатов можно сделать вывод, что:Чем больше смещение, тем больше времени требуется
SELECT * FROM `user_operation_log` LIMIT 100, 100
SELECT id, attr FROM `user_operation_log` LIMIT 100, 100
Как оптимизировать
Так как мы прошли вышеперечисленное метание, то также пришли к выводу, что для двух вышеуказанных проблем: большого смещения и большого объема данных мы начинаем оптимизировать отдельно
Оптимизация проблемы большого смещения
используя подзапрос
Мы можем сначала найти идентификатор позиции смещения, а затем запросить данные.
SELECT * FROM `user_operation_log` LIMIT 1000000, 10
SELECT id FROM `user_operation_log` LIMIT 1000000, 1
SELECT * FROM `user_operation_log` WHERE id >= (SELECT id FROM `user_operation_log` LIMIT 1000000, 1) LIMIT 10
Результаты запроса следующие:
sql | Проводить время |
---|---|
Статья 1 | 4818ms |
Статья 2 (в случае отсутствия индекса) | 4329ms |
Статья 2 (с индексом) | 199ms |
Статья 3 (в случае отсутствия индекса) | 4319ms |
Статья 3 (с индексом) | 201ms |
Из вышеприведенных результатов можно сделать вывод, что:
- Первый занимает больше всего времени, а третий чуть лучше первого
- Подзапросы быстрее с использованием индексов
Недостаток: работает только при увеличении идентификатора
В случае неинкрементного id можно использовать следующий способ записи, но этот недостаток в том, что пейджинговые запросы можно размещать только в подзапросах
Примечание. Некоторые версии mysql не поддерживают использование limit в предложении in, поэтому используются множественные вложенные выборки.
SELECT * FROM `user_operation_log` WHERE id IN (SELECT t.id FROM (SELECT id FROM `user_operation_log` LIMIT 1000000, 10) AS t)
ограничено идентификатором
Этот метод более требователен, идентификатор должен непрерывно увеличиваться, и диапазон идентификатора должен быть рассчитан, а затем использован между ними, sql выглядит следующим образом.
SELECT * FROM `user_operation_log` WHERE id between 1000000 AND 1000100 LIMIT 100
SELECT * FROM `user_operation_log` WHERE id >= 1000000 LIMIT 100
Результаты запроса следующие:
sql | Проводить время |
---|---|
Статья 1 | 22ms |
Статья 2 | 21ms |
Из результатов видно, что этот метод очень быстрый
Примечание. LIMIT здесь ограничивает количество баров, а смещение не используется.
Оптимизация проблемы большого объема данных
Количество данных, возвращаемых в результате, также напрямую влияет на скорость
SELECT * FROM `user_operation_log` LIMIT 1, 1000000
SELECT id FROM `user_operation_log` LIMIT 1, 1000000
SELECT id, user_id, ip, op_data, attr1, attr2, attr3, attr4, attr5, attr6, attr7, attr8, attr9, attr10, attr11, attr12 FROM `user_operation_log` LIMIT 1, 1000000
Результаты запроса следующие:
sql | Проводить время |
---|---|
Статья 1 | 15676ms |
Статья 2 | 7298ms |
Статья 3 | 15960ms |
Из результатов видно, что количество ненужных столбцов уменьшается, а эффективность запросов также может быть значительно повышена.
Скорость выполнения первого и третьего запросов примерно одинаковая.В этот раз вы точно будете жаловаться.Тогда зачем я пишу столько полей?
Обратите внимание, что мой сервер и клиент MySQL находятся вта же машина, поэтому данные запроса аналогичны, учащиеся, у которых есть условия, могут протестировать клиент и MySQL по отдельности.
ВЫБЕРИТЕ * разве это не ароматно?
Вот, кстати, добавь, почему SELECT * запрещен. Это просто и бездумно, это не ароматно?
Два основных момента:
- Использование базы данных "SELECT *" требует анализа большего количества объектов, полей, разрешений, атрибутов и другого связанного содержимого. Когда оператор SQL сложный и выполняется много сложных синтаксических анализов, это создает большую нагрузку на базу данных.
- Увеличьте нагрузку на сеть, * Иногда бесполезные и большие текстовые поля, такие как журнал и IconMD5, вводятся по ошибке, и размер передаваемых данных увеличивается в геометрической прогрессии. Эти накладные расходы очень заметны, особенно когда MySQL и приложение находятся на разных машинах.
Заканчивать
В конце концов, я надеюсь, что вы будете практиковать это сами, и вы определенно сможете добиться большего Добро пожаловать, чтобы оставить сообщение! !
Создайте сценарий, который я вам даю в самый раз, чего вы ждете! ! !
прежде чем служить мнеКак MySQL оптимизируется