Случайная мысль, вызванная тревогой 502

PHP

Обратный отсчет душевного спокойствия

Закончив сегодняшнюю работу, наконец-то наступила пятница, и я могу хорошенько отдохнуть.

проснуться ото сна

Как раз, когда я отдыхал, мой коллега передал мне сигнал тревоги nginx 502, и я быстро отправился в онлайн для расследования.

Прежде всего, вам нужно выяснить, какая машина сообщила об этом (и позвонить в службу эксплуатации и обслуживания, чтобы увидеть ситуацию с онлайн-загрузкой), и найти сообщение об ошибке журнала nginx машины 01 в момент времени тревоги:

*272881176 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: xx.xx.xx.xx, server: , request: "POST /xxx/xxx HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "xx.xx.xx.xx:8081"

recv() — это системная функция, которая получает возвращаемые данные, в принципе можно считать, что причина ошибки в следующем

Nginx обнаруживает, что соединение между сервисом и самим собой разорвано, и возвращает клиенту ошибку 502.

Так откуда nginx получает данные?Сообщение об ошибке также очевидно, fastcgi://127.0.0.1:9000

Причина для размышлений

Как вы думаете, почему процесс обработки PHP прерывается?

  1. Может ли быть так, что время выполнения задачи истекает, и fpm активно ее убивает?
  2. Это потому, что системных ресурсов недостаточно, система убивает

Также для этих двух случаев результаты устранения неполадок:

  1. Этот интерфейс сигнализации не является особенно сложным интерфейсом, время выполнения невелико, и раньше проблем не было.
  2. Благодаря zabbix, мониторингу скрытых точек и просмотру загрузки системы общий процесс процессора, памяти и fpm также в норме.

Кстати, я также посмотрел лог ошибок и медленный лог fpm, но ничего не выиграл (важная информация здесь скорее всего будет проигнорирована)

подсказки

Так как вы думаете, что есть проблема с fpm, давайте исследуем файл конфигурации fpm.

pid = /usr/local/var/run/php-fpm.pid
#pid设置,一定要开启,上面是Mac平台的。默认在php安装目录中的var/run/php-fpm.pid。比如centos的在: /usr/local/php/var/run/php-fpm.pid
error_log  = /usr/local/var/log/php-fpm.log
#错误日志,上面是Mac平台的,默认在php安装目录中的var/log/php-fpm.log,比如centos的在: /usr/local/php/var/log/php-fpm.log
log_level = notice
#错误级别. 上面的php-fpm.log纪录的登记。可用级别为: alert(必须立即处理), error(错误情况), warning(警告情况), notice(一般重要信息), debug(调试信息). 默认: notice.
emergency_restart_threshold = 60
emergency_restart_interval = 60s
#表示在emergency_restart_interval所设值内出现SIGSEGV或者SIGBUS错误的php-cgi进程数如果超过 emergency_restart_threshold个,php-fpm就会优雅重启。这两个选项一般保持默认值。0 表示 '关闭该功能'. 默认值: 0 (关闭).
process_control_timeout = 0
#设置子进程接受主进程复用信号的超时时间. 可用单位: s(秒), m(分), h(小时), 或者 d(天) 默认单位: s(秒). 默认值: 0.
daemonize = yes
#后台执行fpm,默认值为yes,如果为了调试可以改为no。在FPM中,可以使用不同的设置来运行多个进程池。 这些设置可以针对每个进程池单独设置。
listen = 127.0.0.1:9000
#fpm监听端口,即nginx中php处理的地址,一般默认值即可。可用格式为: 'ip:port', 'port', '/path/to/unix/socket'. 每个进程池都需要设置。如果nginx和php在不同的机器上,分布式处理,就设置ip这里就可以了。
listen.backlog = -1
#backlog数,设置 listen 的半连接队列长度,-1表示无限制,由操作系统决定,此行注释掉就行。backlog含义参考:http://www.3gyou.cc/?p=41
listen.allowed_clients = 127.0.0.1
#允许访问FastCGI进程的IP白名单,设置any为不限制IP,如果要设置其他主机的nginx也能访问这台FPM进程,listen处要设置成本地可被访问的IP。默认值是any。每个地址是用逗号分隔. 如果没有设置或者为空,则允许任何服务器请求连接。
listen.owner = www
listen.group = www
listen.mode = 0666
#unix socket设置选项,如果使用tcp方式访问,这里注释即可。
user = www
group = www
#启动进程的用户和用户组,FPM 进程运行的Unix用户, 必须要设置。用户组,如果没有设置,则默认用户的组被使用。
pm = dynamic 
#php-fpm进程启动模式,pm可以设置为static和dynamic和ondemand
#如果选择static,则进程数就数固定的,由pm.max_children指定固定的子进程数。
#如果选择dynamic,则进程数是动态变化的,由以下参数决定:
pm.max_children = 50 #子进程最大数
pm.start_servers = 2 #启动时的进程数,默认值为: min_spare_servers + (max_spare_servers - min_spare_servers) / 2
pm.min_spare_servers = 1 #保证空闲进程数最小值,如果空闲进程小于此值,则创建新的子进程
pm.max_spare_servers = 3 #,保证空闲进程数最大值,如果空闲进程大于此值,此进行清理
pm.max_requests = 10000
#设置每个子进程重生之前服务的请求数. 对于可能存在内存泄漏的第三方模块来说是非常有用的. 如果设置为 '0' 则一直接受请求. 等同于 PHP_FCGI_MAX_REQUESTS 环境变量. 默认值: 0.
pm.status_path = /status
#FPM状态页面的网址. 如果没有设置, 则无法访问状态页面. 默认值: none. munin监控会使用到
ping.path = /ping
#FPM监控页面的ping网址. 如果没有设置, 则无法访问ping页面. 该页面用于外部检测FPM是否存活并且可以响应请求. 请注意必须以斜线开头 (/)。
ping.response = pong
#用于定义ping请求的返回相应. 返回为 HTTP 200 的 text/plain 格式文本. 默认值: pong.
access.log = log/$pool.access.log
#每一个请求的访问日志,默认是关闭的。
access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%"
#设定访问日志的格式。
slowlog = log/$pool.log.slow
#慢请求的记录日志,配合request_slowlog_timeout使用,默认关闭
request_slowlog_timeout = 10s
#当一个请求该设置的超时时间后,就会将对应的PHP调用堆栈信息完整写入到慢日志中. 设置为 '0' 表示 'Off'
request_terminate_timeout = 0
#设置单个请求的超时中止时间. 该选项可能会对php.ini设置中的'max_execution_time'因为某些特殊原因没有中止运行的脚本有用. 设置为 '0' 表示 'Off'.当经常出现502错误时可以尝试更改此选项。
rlimit_files = 1024
#设置文件打开描述符的rlimit限制. 默认值: 系统定义值默认可打开句柄是1024,可使用 ulimit -n查看,ulimit -n 2048修改。
rlimit_core = 0
#设置核心rlimit最大限制值. 可用值: 'unlimited' 、0或者正整数. 默认值: 系统定义值.
chroot =
#启动时的Chroot目录. 所定义的目录需要是绝对路径. 如果没有设置, 则chroot不被使用.
chdir =
#设置启动目录,启动时会自动Chdir到该目录. 所定义的目录需要是绝对路径. 默认值: 当前目录,或者/目录(chroot时)
catch_workers_output = yes
#重定向运行过程中的stdout和stderr到主要的错误日志文件中. 如果没有设置, stdout 和 stderr 将会根据FastCGI的规则被重定向到 /dev/null . 默认值: 空.

Взято изУууууууууууууууууууууууууууууууууууууууууууууууууууу

Вынесите несколько важных элементов конфигурации отдельно:

pm = static
#php-fpm进程启动模式,pm可以设置为static和dynamic和ondemand
#如果选择static,则进程数就数固定的,由pm.max_children指定固定的子进程数。

pm.max_children = 500 #子进程最大数

request_terminate_timeout=30
#设置单个请求的超时中止时间. 该选项可能会对php.ini设置中的'max_execution_time'因为某些特殊原因没有中止运行的脚本有用. 设置为 '0' 表示 'Off'.当经常出现502错误时可以尝试更改此选项。

request_slowlog_timeout=3
#当一个请求该设置的超时时间后,就会将对应的PHP调用堆栈信息完整写入到慢日志中. 设置为 '0' 表示 'Off'

pm.max_requests=10000
#设置每个子进程重生之前服务的请求数. 对于可能存在内存泄漏的第三方模块来说是非常有用的. 如果设置为 '0' 则一直接受请求. 等同于 PHP_FCGI_MAX_REQUESTS 环境变量. 默认值: 0.

начать учиться

Выше приведена основная конфигурация нашего онлайна, в основном ориентированная на параметр request_terminate_timeout. В чем разница между ним и max_execution_time php.ini?

Set_Time_Limit () Функция и инструкция по настройке Max_Execution_Time влияет на время выполнения самого скрипта. В любое время, которое происходит в системном вызове, операции потока, операции базы данных и т. Д., Такой, как использование системы (), не включает в себя, и request_terminate_timeout включен во все времена.

Время настройки php.ini также равно 30, но по сравнению с ним время request_terminate_timeout будет короче.

Вернуться к сути

Но, как мы говорили в предыдущей статье, этот интерфейс не очень сложен. .. Это не должно истечь время ожидания В то время не было нештатной ситуации в стороннем сервисе, и в журнале ошибок fpm не было этого сообщения об ошибке времени ожидания. Системная нагрузка каждого иждивенца все еще находится в относительно низком пиковом состоянии.

Я закончил сегодняшнюю работу с сомнением и вернулся, чтобы написать и поделиться сегодняшним опытом отладки.Когда я искал документацию, я нашел это предложение:

Скопируйте чужую статью

Ошибка Nginx 502 Bad Gateway

В php.ini и php-fpm.conf есть два элемента конфигурации: max_execution_time и request_terminate_timeout.

Оба они используются для настройки максимального времени выполнения PHP-скрипта. Когда это время превышено, PHP-FPM не только прекращает выполнение скрипта,

Также завершает рабочий процесс, выполняющий скрипт. Так Nginx обнаружит, что соединение с самим собой разорвано, и вернет клиенту ошибку 502.

Взяв в качестве примера request_terminate_timeout=30 секунд PHP-FPM, конкретная информация об ошибке 502 Bad Gateway выглядит следующим образом:

1) Журнал ошибок доступа Nginx:

2013/09/19 01:09:00 [error] 27600#0: *78887 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 192.168.1.101, server: test.com, request: "POST /index.php HTTP/1.1", upstream: "fastcgi://unix:/dev/shm/php-fcgi.sock:", host: "test.com", referrer: "test.com/index.php"

2) Журнал ошибок PHP-FPM:

WARNING:  child 25708 exited on signal 15 (SIGTERM) after 21008.883410 seconds from start

Поэтому просто увеличьте значение этих двух элементов, чтобы PHP-скрипт не прерывался из-за длительного времени выполнения.

request_terminate_timeout может переопределить max_execution_time, поэтому, если вы не хотите изменять глобальный php.ini, просто измените конфигурацию PHP-FPM.

Кроме того, следует отметить, что два элемента max_fail и fail_timeout в восходящем модуле Nginx. Иногда связь между Nginx и вышестоящими серверами (такими как Tomcat, FastCGI) прерывается только случайно, но если для параметра max_fail задано небольшое значение, то в следующее время fail_timeout Nginx будет думать, что вышестоящий сервер не работает, и будет вернуть ошибку 502. Таким образом, вы можете увеличить max_fail и уменьшить fail_timeout.

Из лучших 51cto:blog.51CTO.com/Южная весна/1…

оправдать это

Я мало знаю о восходящем модуле nginx. Когда я вспоминаю сцену сообщения об ошибках в то время, я обнаружил, что одна и та же ошибка сообщалась на нескольких разных интерфейсах до и после в журнале. интерфейсы затронули этот интерфейс, но он оказался пойманным системой сигнализации.

отражение

Размышление о проблеме может быть слишком односторонним, без набора систем и идей для решения проблемы легко пойти в обход или даже пойти в обратном направлении.

в заключении

Это неубедительная статья.

Я постараюсь воспроизвести эту сцену в будущем, и я надеюсь, что вы продолжите обращать внимание.

Добро пожаловать, чтобы обратить внимание