предисловие
В этой статье я обобщаю проблемы 499 в ежедневном бизнесе, с которыми я имел дело в последнее время, и подробно описываю причины возникновения 499 и процесс позиционирования, надеясь помочь всем.
Код состояния HTTP 499
nginxсерединаsrc/http/ngx_http_special_response.c
Код состояния 499 определяется в файле:
ngx_string(ngx_http_error_494_page), /* 494, request header too large */
ngx_string(ngx_http_error_495_page), /* 495, https certificate error */
ngx_string(ngx_http_error_496_page), /* 496, https no certificate */
ngx_string(ngx_http_error_497_page), /* 497, http to https */
ngx_string(ngx_http_error_404_page), /* 498, canceled */
ngx_null_string, /* 499, client has closed connection */
Из комментариев видно, что 499 означаетКлиент активно отключается.
На первый взгляд, 499 — это активное отключение клиента, однако в реальном развитии бизнеса появление кода состояния HTTP 499 в большинстве случаев связано с длительным временем запроса сервера, что приводит к «нетерпению» клиента. клиент и т.д., так что подключение подключено.
Теперь давайте поговорим о 4 из 499 проблем, с которыми я сталкивался в повседневной разработке, и соответствующих методах позиционирования проблем.
4 проблемы HTTP 499
1. Тайм-аут запроса интерфейса сервера
Когда клиент запрашивает интерфейс сервера, некоторые запросы интерфейса выполняются очень медленно. Позвольте мне просто привести пример:
select * from test where test_id in (2,4,6,8,10,12,14,16);
Например, у нас естьtest
Таблица, в таблице 5 миллионов единиц данных, мы запрашиваем приведенную выше.where in
SQL, покаtest_id
Поле не индексируется, что приводит к полному сканированию таблицы. Этот SQL очень медленный, и обычно запрашивается несколько секунд.
Если клиент устанавливает тайм-аут, он автоматически отключится по истечении тайм-аута, что вызовет проблему 499. Например, если клиент не установил тайм-аут, этот SQL-запрос занимает 5 секунд, а тайм-аут php-fpm — 3. секунд , это вызовет проблему 502.
Решить эту проблему очень просто, найти соответствующий медленный запрос и оптимизировать его, в общем случае это медленный SQL, например, в приведенном выше примере поле не имеет индекса, просто добавьте индекс.
Конечно, есть также случаи, когда индекс не следует за индексом, например, проблема, с которой я столкнулся раньше,Анализ проблемы выбора MYSQL неправильного индекса, то есть даже если есть индекс, то индекс все равно не берется.
Суммировать
В данном случае интерфейс действительно тормозит, это не случайное явление, тормозит всегда при запросе, это тоже лучшее решение, просто оптимизируйте интерфейс.
2. nginx вызывает отключение
Другой случай — проблема 499, вызванная nginx.
Из приведенного выше рисунка мы можем найти, что,request_time
Очень маленький, это не может быть тайм-аут интерфейса запроса, в чем причина этой проблемы?
На самом деле, некоторая информация не была показана на рисунке, потому что он включает в себя конкретный запрос интерфейса компании, я опишу здесь явление: два запроса на рисунке с очень близким временем запроса на самом деле имеют точно такие же параметры запроса.
решение
Через гугл я обнаружил, что некоторые студенты сталкивались с такой ситуацией, то есть два последовательных слишком быстрых пост-запроса будут показывать 499. Это nginx считает это небезопасным подключением и активно отключает клиента.
Решение - настроить в nginx:
proxy_ignore_client_abort on;
Этот параметр означает, что прокси-сервер игнорирует прерывание работы клиента и ожидает возврата прокси-сервера.Если ошибки выполнения нет, в журнал записывается журнал 200. Если время выполнения истекает, записываемый журнал представляет собой журнал 504. .
Включив этот параметр, понаблюдав некоторое время в сети, я обнаружил, что с 499 практически нет проблем.
Меры предосторожности
-
Эта конфигурация работает только на прокси-сервере, например, если есть два сервера nginx, первый сервер является обратным прокси для второго сервера nginx, а второй сервер nginx указывает на службу PHP, то этот параметр можно настроить только на первый сервер nginx Он будет действовать только на сервере, а конфигурация не повлияет на второй сервер nginx.
-
После настройки этого параметра при отключении клиента сервер все равно будет продолжать выполняться, и существует риск перетаскивания сервера. Поэтому разумно использовать онлайн в соответствии с вашей собственной ситуацией.
3. 499 проблем возникают в фиксированное время
Также бывает ситуация, когда проблема 499 возникает в фиксированное время.
Видно, что вышеуказанные случаи 499 относительно зафиксированы, все в течение десяти минут после 2 часов ночи.
В это время мы обычно быстро думаем, есть ли какие-то временные задачи, занимающие ресурсы.На самом деле это так, но найти эту проблему непросто.Позвольте мне рассказать о том, как я нахожу эту проблему.
Шаги позиционирования
-
кронтаб-скрипт: Первое, что приходит в голову, это то, что есть скрипт задания на время в два часа ночи, который отнимает ресурсы. Я проверил все сценарии crontab на машине, которая сообщила об ошибке, и обнаружил, что около 2 часов ночи был только один сценарий, я запустил его и обнаружил, что он очень быстрый и не будет выполняться в течение длительного времени. занимают ресурсы, а затем влияют на нормальный бизнес.
-
машина: Потом я заподозрил, что с этими машинами что-то не так, а потом проверил схему мониторинга машины (с помощью falcon) и обнаружил, что в 2 часа ночи ничего ненормального не было. (На самом деле, можно также сделать вывод, что служба имеет 499 на нескольких машинах, невозможно, чтобы на всех машинах были проблемы, и на этой машине развернуты другие проекты, и у других проектов нет проблем, что указывает на то, что вряд ли быть эта машина. есть проблема с машиной.)
-
база данных: Поскольку с этим сервисом есть проблема, я проверил схему мониторинга основной базы данных, подключенной этим сервисом (тоже falcon), и не обнаружил никаких проблем. (На самом деле проблема есть, но я ее не заметил)
-
nginx: Раз с вышеперечисленным проблем нет, то есть ли проблемы с верхним nginx? так как
upstream_response_time
Значение вообще никакое.Возможно запрос вообще не дошел до PHP сервиса на бекенде.Есть проблема с nginx в два часа ночи? В конце концов, я обнаружил, что на самом деле понял это неправильно, и это также касается вышеуказанных параметров.proxy_ignore_client_abort
, если этот параметр не установлен вon
Если это так, запрос к серверу больше не будет выполняться.upstream_response_time
записывается-
, это не проблема. Это означает, что с nginx все в порядке. -
ненормальный запрос: Так неужели в два часа ночи была волна ненормальных запросов. Запрос post request.Бывает, что nginx включил post log.По параметрам запроса, записанным nginx, я пересобрал запрос и обнаружил, что проблемы нет. Описание не имеет ничего общего с параметрами запроса.
-
база данных:
- По сути, все решения, которые можно здесь придумать, в основном продуманы. Просто поищите, что общего у этих запросов.
- Я обнаружил, что все эти запросы запрашивали базу данных, а затем нашел интерфейс с наибольшим количеством запросов, распечатал время выполнения запросов к базе данных и обнаружил, что простой интерфейс выполнялся за 2 секунды, а их было более дюжины. более 2 секунд за одну ночь запрос. И наш тайм-аут составляет 1 секунду, поэтому это вызовет проблему 499.
- Независимо от того, является ли это причиной 499 или нет, проблема есть, и с ней нужно бороться.Потом я снова посмотрел на мониторинг falcon и обнаружил, что в два часа ночи произошел ненормальный ввод-вывод и процессор машины. Я вошел в эту машину и посмотрел журнал ошибок.
-
error.log:
- существует
error.log
Я нашел оператор SQL интерфейса запроса 499 и нашел сообщение об ошибке следующим образом.mycat Waiting for query cache lock
. - Из этого журнала мы обнаружили, что этот SQL заблокирован и ожидает
query cache lock
, блокировка — это глобальная блокировка, мы не будем вдаваться в подробности здесь. -
query cache
Он устарел в MYSQL 8.0, потому что, если таблица только обновляется, она будет очищена.query cache
, для часто обновляемых таблиц это не очень удобно.Если объем данных небольшой и таблицы обновляются нечасто, можно напрямую проверить базу, а это бессмысленно. а если включитьquery cache
, приходит запрос запроса, надо пройти первымquery cache
Если вы не можете найти его, перейдите в базу данных, чтобы найти его, и после того, как вы его найдете, поместите данные вquery cache
середина. - Я проверил базу данных, и она включилась
query cache
, я думал в этом причина, просто отключил, а потом проверил другие базы и обнаружил, что он тоже был включенquery cache
, можно доказать, чтоquery cache
не причина проблемы. Кстати, проверьтеquery cache
Включить ли командуshow variables like '%query_cache%';
.query_cache_type
значениеON
включено, значение равноOFF
закрыто. - После кучи грязных испытаний, наконец, сосредоточился наЧто занимает кеш запросов. Просматривая журнал ошибок, я нашел следующий SQL (обработанный):
select A,B,C from test where id > 1 and id < 2000000
. Этот SQL запросит 2 миллиона фрагментов данных, а затем поместит эти данные вquery cache
, точно займетquery cache
.
- существует
-
slow.log:
- существует
error.log
Источник этого SQL не может быть найден в запросе, это не должен быть SQL бизнеса, и бизнес не будет запрашивать такой SQL.slow.log
Запрос 2 миллионов IP-запросов SQL показал, что запрос исходит от кластерного компьютера Hadoop, на котором есть сценарий для синхронизации онлайн-данных с HIVE, и обнаружил, что IP-адрес базы данных, настроенный сценарием, является рассматриваемым IP-адресом. - Затем я изменил конфигурацию базы данных и заменил IP-адрес на IP-адрес подчиненной библиотеки, которая не используется в Интернете.После наблюдения в течение нескольких дней, то есть последних трех дней на картинке выше, было очевидно, что 499 было меньше. случаи.
- существует
Суммировать
Эту проблему очень сложно обнаружить. Это заняло много времени. В общем, я протестировал все ситуации, которые только мог придумать. Если с MYSQL проблем нет, я могу продолжить поиск проблемы на машинном уровне. Давайте изучим некоторые идеи. .
4. Случайные проблемы 499
Обычно мы видим один или два случая 499, но если мы повторно выполняем запрос, скорость ответа очень высока и вообще не может быть воспроизведена, мы можем вообще игнорировать эту случайную ситуацию. Здесь позвольте мне кратко рассказать о причинах, которые могут привести к этой проблеме.
В MYSQL будет операция сброса данных грязных страниц на диск, о чем мы расскажем в отдельной статье. Когда MYSQL выполняет грязные страницы, это занимает системные ресурсы.В это время наши запросы могут выполняться медленнее, чем обычно.
Кроме того, в MYSQL также есть механизм, который может сделать ваш запрос медленнее, то есть при подготовке к сбросу грязной страницы, если страница данных рядом со страницей данных окажется грязной страницей, он принесет с собой этого «соседа». И дальше будет распространяться логика перетаскивания "соседей" в воду, то есть для каждой страницы данных соседа, если соседние страницы данных все еще являются грязными страницами, они также будут сброшены вместе.
Механизм оптимизации поиска «соседей» имеет большое значение в эпоху механических жестких дисков. Он сокращает время поиска и может уменьшить количество случайных операций ввода-вывода. Случайные операции ввода-вывода механических жестких дисков обычно составляют всего несколько сотен. операция уменьшает случайный ввод-вывод, а это означает, что система значительно улучшает производительность. Но теперь IOPS больше не является узким местом: если «просто сбросить сам», то можно быстрее выполнять необходимые операции сбрасывания грязных страниц и сократить время отклика SQL.
Интересно, что этот механизм также отключен в MYSQL 8.0, который предоставляетсяinnodb_flush_neighbors
контроль параметров,1
Указывает, что имеется непрерывный механизм чистки,0
Указывает, что вы только чистите себя. МСУБЛ 8.0innodb_flush_neighbors
По умолчанию 0.
Давайте посмотрим на нашу онлайн-конфигурацию:
mysql> show variables like "%innodb_flush_neighbors%";
+------------------------+-------+
| Variable_name | Value |
+------------------------+-------+
| innodb_flush_neighbors | 1 |
+------------------------+-------+
1 row in set (0.00 sec)
К сожалению, у нас включен онлайн, поэтому очень велика вероятность, что вдруг запрос будет 499.
Суммировать
Выше мы представили 499 случаев ежедневного развития бизнеса, а также методы обнаружения и решения проблем, надеясь оказать вам некоторую помощь.