Product SiteDocumentation Site

12.4. Monitorización

La monitorización es un término genérico, y las muchas actividades involucradas tiene varias objetivos: por un lado, seguir el uso de recursos provistos por una máquina permite anticipar saturación y la actualización necesaria que le seguirá; por el otro, alertar a los administradores tan pronto como un servicio no esté disponible o no fucione correctamente significa que se podrán solucionar más rápidamente aquellos problemas que sucedan.
Munin cubre la primera área mostrando gráficos de los valores históricos de una cantidad de parámetros (RAM utilizada, espacio ocupado en disco, carga en el procesador, tráfico de red, carga de Apache/MySQL, etc.). Nagios cubre la segunda área, revisando regularmente que los servicios estén funcionando y disponibles, enviando alertas a través de los canales apropiados (correo, mensajes de texto, etc.). Ambos tienen un diseño modular, lo que permite crear nuevos plugins para monitorizar parámetros o servicios específicos.

12.4.1. Configuración de Munin

El propósito de Munin es monitorizar muchas máquinas; por lo tanto, naturalmente utiliza una arquitectura cliente/servidor. El equipo central — el graficador — recolecta datos de todos los equipos monitorizados y genera gráficos históricos.

12.4.1.1. Configuración de los equipos a monitorizar

El primer paso es instalar el paquete munin-node. El demonio que instala este paquete escucha en el puerto 4949 y envía los datos recolectados por todos los plugins activos. Cada plugin es un programa simple que devuelve una descripción de los datos recolectados y el último valor medido. Los plugins se almacenan en /usr/share/munin/plugins/, pero realmente sólo se utilizan aquellos con un enlace simbólico en /etc/munin/plugins/.
Cuando instala el paquete, se determina un conjunto de plugins activos basados en el software disponible y la configuración actual del equipo. Sin embargo, esta configuración automática depende de una funcionalidad que debe proveer cada plugin, y generalmente es buena idea revisar y afinar el resultado a mano. Puede resultar interesante visitar la Galería de Plugins , incluso aunque no todos los plugins dipongan de documentación exhaustiva. Sin embargo, todos los plugins son scripts y la mayoría son bastante simples y están bien comentados. Revisar /etc/munin/plugins/ es, por lo tanto, una buena forma de tener una idea de lo que hace cada plugin y determinar si alguno debe eliminarlo. Similarmente, activar un plugin interesante que se encuentre en /usr/share/munin/plugins/ es simplemente cuestión de crear un enlace simbólico con ln -sf /usr/share/munin/plugins/plugin /etc/munin/plugins/. Sepa que cuando el nombre de un plugin finaliza con un guión bajo «_», el plugin necesita un parámetro. Debe almacenar este parámetro en el nombre del enlace simbólico; por ejemplo, el plugin «if_» debe activarse con un enlace simbólico llamado if_eth0 para monitorizar el tráfico de red en la interfaz eth0.
Una vez que configuró correctamente los plugins, debe actualizar el demonio de configuración para describir el control de acceso de los datos recolectados. Esto involucra directivas allow en el archivo /etc/munin/munin-node.conf. La configuración predeterminada es allow^127\.0\.0\.1$, lo que sólo permite el acceso al equipo local. Un administrador usualmente agregará una línea similar que contenga la dirección IP del equipo graficador y luego reiniciará el demonio con service munin-node restart.

12.4.1.2. Configuración del graficador

El «graficador» es simplemente el equipo que agrupa los datos y genera los gráficos correspondientes. El software necesario se encuentra en el paquete munin. La configuración estándar ejecuta munin-cron (una vez cada 5 minutos), mediante el que obtiene datos de todos los equipos enumerados en /etc/munin/munin.conf (de forma predeterminada sólo incluye al equipo local), guarda los datos históricos en archivos RRD (base de datos Round Robin: «Round Robin Database», un formato de archivo diseñado para almacenar datos que varían en el tiempo) almacenados en /var/lib/munin/ y genera una página HTML con los gráficos en /var/cache/munin/www/.
Por lo tanto, debe enumerar todas las máquinas monitorizadas en el archivo de configuración /etc/munin/munin.conf. Cada máquina es enumerada como una sección completa con el nombre que coincide con el equipo y al menos un elemento address que provee la dirección IP correspondiente.
[ftp.falcot.com]
    address 192.168.0.12
    use_node_name yes
Las secciones pueden ser más complejas y describir gráficos adicionales que puede crear combinando datos de varias máquinas. Los ejemplos que provee el archivo de configuración son buenos puntos de partida para personalizar.
El último paso es publicar las páginas generadas; esto involucra configurar un servidor web para que el contenido de /var/cache/munin/www/ esté disponible en un sitio web. Generalmente restringirá el acceso a este sitio web, ya sea con un mecanismo de autenticación o un control de acceso basado en IP. Revise la Sección 11.2, “Servidor web (HTTP)” para los detalles relevantes.

12.4.2. Configuración de Nagios

A diferencia de Munin, Nagios no necesita instalar algo en los equipos monitorizados; la mayoría de las veces, se utiliza Nagios para revisar la disponibilidad de servicios de red. Por ejemplo, Nagios puede conectarse a un servidor web y revisar si puede obtener una página web dada en un tiempo especificado.

12.4.2.1. Instalación

El primer paso para configurar Nagios es instalar los paquetes nagios3, nagios-plugins y nagios3-doc. La instalación de estos paquetes configurará la interfaz web y creará un primer usuario nagiosadmin (para el que pedirá una contraseña). Agregar otros usuarios es tan simple como agregarlos al archivo /etc/nagios3/htpasswd.users con el programa htpasswd de Apache. Si no se muestra ninguna pregunta Debconf durante su instalación, puede utilizar dpkg-reconfigure nagios3-cgi para definir la contraseña de nagiosadmin.
Apuntar un navegador a http://servidor/nagios3/ mostrará la interfaz web; en particular verá que Nagios ya monitoriza algunos parámetros de la máquina en la que ejecuta. Sin embargo, algunas características interactivas como agregar comentarios a los equipos no funcionarán. Estas características están desactivadas en la configuración predeterminada de Nagios, la cual es muy restrictiva por cuestiones de seguridad.
Como está documentado en /usr/share/doc/nagios3/README.Debian, para activar algunas funcionalidades deberemos editar el archivo /etc/nagios3/nagios.cfg y definir su parámetro check_external_command como «1». También necesitaremos configurar permisos de escritura al directorio que utiliza Nagios, ejecutando algo similar a:
# service nagios3 stop
[...]
# dpkg-statoverride --update --add nagios www-data 2710 /var/lib/nagios3/rw
# dpkg-statoverride --update --add nagios nagios 751 /var/lib/nagios3
# service nagios3 start
[...]

12.4.2.2. Configuración

La interfaz web de Nagios es bastante agradable, pero no permite configuración ni puede utilizarla para agregar equipos o servicios a monitorizar. Se administra toda la configuración a través de archivos referenciados en el archivo de configuración central, /etc/nagios3/nagios.cfg.
No debe adentrarse en estos archivos sin entender algunos conceptos de Nagios. La configuración enumera objetos de los siguientes tipos:
  • a «host» es una máquina a monitorizar;
  • un «hostgroup» es un conjunto de equipos que deben ser agrupados para visualización o para abstraer algunos elementos de configuración en común;
  • un «service» es un elemento a probar relacionado a un equipo o grupo. La mayoría de las veces será un chequeo de un servicio de red, pero también puede incluir revisar que algunos parámetros están dentro de un rango aceptable (por ejemplo, espacio libre en el disco o carga del procesador);
  • un «servicegroup» es un conjunto de servicios que deben ser agrupados para visualización;
  • un «contact» es una persona que puede recibir alertas;
  • un «contactgroup» es un conjunto de contactos;
  • un «timeperiod» es un rango de tiempo durante el que se deben revisar algunos servicios;
  • un «command» es la línea de órdenes ejecutada para revisar un servicio dado.
Según su tipo, cada objeto tiene una cantidad de propiedades que podemos personalizar. Una lista completa sería demasiado extensa, pero las propiedades más importantes son las relaciones entre objetos.
Un «service» utiliza un «command» para revisar el estado de una característica en un «host» (o «hostgroup») durante un «timeperiod». En caso de un problema, Nagios envía una alerta a todos los miembros de un «contactgroup» relacionado con el servicio. Se envía la alerta a cada miembro según el canal descripto en el objeto «contact» asociado.
Un sistema de herencia permite compartir fácilmente un conjunto de propiedades entre varios objetos sin duplicar información. Lo que es más, la configuración inicial incluye algunos objetos estándar; en muchos casos, definir nuevos equipos, servicios y contactos es tan simple como derivar de los objetos genéricos proporcionados. Los archivos en /etc/nagios3/conf.d/ son una buena fuente de información sobre cómo funcionan.
Los administradores de Falcot Corp utilizan la siguiente configuración:

Ejemplo 12.3. Archivo /etc/nagios3/conf.d/falcot.cfg

define contact{
    name                            generic-contact
    service_notification_period     24x7
    host_notification_period        24x7
    service_notification_options    w,u,c,r
    host_notification_options       d,u,r
    service_notification_commands   notify-service-by-email
    host_notification_commands      notify-host-by-email
    register                        0 ; Sólo plantilla
}
define contact{
    use             generic-contact
    contact_name    rhertzog
    alias           Raphael Hertzog
    email           hertzog@debian.org
}
define contact{
    use             generic-contact
    contact_name    rmas
    alias           Roland Mas
    email           lolando@debian.org
}

define contactgroup{
    contactgroup_name     falcot-admins
    alias                 Falcot Administrators
    members               rhertzog,rmas
}

define host{
    use                   generic-host ; Nombre de la plantilla de host a utilizar
    host_name             www-host
    alias                 www.falcot.com
    address               192.168.0.5
    contact_groups        falcot-admins
    hostgroups            debian-servers,ssh-servers
}
define host{
    use                   generic-host ; Nombre de la plantilla de host a utilizar
    host_name             ftp-host
    alias                 ftp.falcot.com
    address               192.168.0.6
    contact_groups        falcot-admins
    hostgroups            debian-servers,ssh-servers
}

# orden 'check_ftp' con parámetros personalizados
define command{
    command_name          check_ftp2
    command_line          /usr/lib/nagios/plugins/check_ftp -H $HOSTADDRESS$ -w 20 -c 30 -t 35
}

# Servicio genérico de Falcot
define service{
    name                  falcot-service
    use                   generic-service
    contact_groups        falcot-admins
    register              0
}

# Servicios a chequear en www-host
define service{
    use                   falcot-service
    host_name             www-host
    service_description   HTTP
    check_command         check_http
}
define service{
    use                   falcot-service
    host_name             www-host
    service_description   HTTPS
    check_command         check_https
}
define service{
    use                   falcot-service
    host_name             www-host
    service_description   SMTP
    check_command         check_smtp
}

# Servicios a chequear en ftp-host
define service{
    use                   falcot-service
    host_name             ftp-host
    service_description   FTP
    check_command         check_ftp2
}
Este archivo de configuración describe dos equipos monitorizados. El primero es el servidor web, y se realizan chequeos en los puertos HTTP (80) y HTTP seguro (443). Nagios también revisa que el servidor SMTP ejecute en el puerto 25. El segundo equipo es el servidor FTP y el chequeo incluye asegurarse que responda en menos de 20 segundos. Más allá de esta demora, se generará un «warning» («precaución»); más de 30 segundos generará una alerta crítica. La interfaz web también muestra que se monitoriza el servicio SSH: esto proviene de los equipos que pertenecen al «hostgroup» ssh-servers. El servicio estándar asociado está definido en /etc/nagios3/conf.d/services_nagios2.cfg.
Verá cómo utilizamos herencia: un objeto hereda de otro objeto con la propiedad «use nombre-padre». Debemos poder identificar al objeto padre, lo que requiere incluir en él una propiedad «name identificador». Si no deseamos que el objeto padre sea un objeto real, sino que sólo sirva como padre, agregar una propiedad «register 0» le indica a Nagios que no lo considere y, por lo tanto, ignore la falta de algunos parámetros que serían obligatorios.