Monitoreo básico
S01:E10

Monitoreo básico

Episode description

Si tu servidor VPS se cae, ¿cómo te enterás? Sin monitoreo, te enterás cuando un cliente te escribe o cuando vos mismo intentás entrar horas después: a esas alturas ya perdiste visitas, ventas y credibilidad.

Si tenés un sistema de monitoreo, te enterás inmediatamente con una alerta por correo, SMS o con app como Telegram, y podés tomar cartas en el asunto antes de que se vuelva un problema.

No necesitás monitorizarlo todo desde el inicio. Comenzá con lo básico. Hay herramientas desde gratuitas hasta empresariales: UptimeRobot (gratis hasta 50 monitores), UptimeKuma (open source y auto alojado), y Better Stack (más robusto, desde $29 al mes con monitoreo desde múltiples ubicaciones).

¡Eso sí! Cuando te llega una alerta: primero verificá si es real, luego revisá qué pasó y tomá cartas en el asunto inmediatamente.

El monitoreo no es opcional. Al día de hoy es una necesidad.

✍️ Para ponerte en contacto, podés escribirnos al correo info@paneldecontrol.org o dejar un comentario en nuestro formulario de contacto.

Podés comentar los episodios, dar “me gusta” y compartir en Mastodon. Nuestra cuenta en el fediverso es @paneldecontrol@podcluster.net

Licencia: Creative Commons Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
© PodCluster - Looking for ways LLC

Download transcript (.srt)
0:00

Hola, ¿qué tal? ¿Cómo estás? Espero que todo vaya muy bien.

0:02

Te saluda Alex Ávalos y te doy la bienvenida a Panel de Control,

0:06

el podcast para quienes quieren tener el control de su propio servidor

0:10

y disfrutar de las ventajas del Hosting VPS.

0:17

En el caso de que tu servidor VPS deje de funcionar, se caiga, quede offline,

0:26

¿cómo te enteras?

0:28

Si no tienes monitoreo, te puedes enterar de dos formas.

0:32

La primera forma es que un cliente te escriba,

0:36

¡Ey! ¡Mis webs no me cargan!

0:39

Y la segunda sería que vos mismo intentas entrar horas después

0:45

y ves que todo ha dejado de funcionar.

0:49

Ambas opciones son malas, muy malas,

0:53

Porque significa que el servidor estuvo caído y vos ni te enteraste.

0:59

Estuviste durante ese momento que estuvo caído perdiendo visitas, perdiendo ventas y por supuesto perdiendo credibilidad.

1:09

Si tenés un sistema de monitoreo, si algo llegara a pasar, en lugar de enterarte por casualidad, te enterás inmediatamente.

1:21

Un servicio de monitoreo revisa tu servidor cada minuto o como vos lo configurez, puede ser cada cinco minutos también.

1:30

Y si no responde, te envía una alerta que puede ser un correo, un mensaje SMS o por medio de la app de Telegram o de Slack o una notificación push, como sea, la que hayas vos configurado.

1:46

Y en el momento que te llega esa alerta, vos podés tomar cartas en el asunto.

1:53

Antes de los sustos, antes de los disgustos, antes de que alguien lo note, antes de que afecte a tus clientes y antes de que se vuelva un problema.

2:07

Por eso es muy importante hablar del monitoreo básico.

2:14

Al hablar de monitoreo, lo primero que se nos viene a la cabeza es la siguiente pregunta. ¿Qué tengo que monitorear? Porque claro, uno piensa en tanto y al final no hace nada.

2:28

Lo primero que es muy bueno que sepas es que no necesitas monitorizarlo, monitorearlo todo.

2:36

O por lo menos en un inicio no es necesario.

2:40

Siempre es recomendable comenzar con lo más básico, con lo que es humanamente posible para vos en un inicio.

2:49

Y luego ir subiendo de nivel, ir rizando un poquito más el rizo, irlo complicando un poco más.

2:56

Pero para que tengas una idea en lo que tienes que monitorizar, lo primero es el uptime.

3:04

Es decir, ¿está vivo el servidor? ¿Están vivas las webs?

3:10

Esto es lo más básico. El servidor responde sí o no.

3:14

Y esto se hace con un ping, P-I-N-G, simple, que puede ser cada minuto o cada cinco minutos.

3:22

Si no responde a este ping tres veces seguidas, entonces tu sistema de monitoreo te va a enviar una alerta. Y esto quiere decir que el servidor está caído porque ha intentado hacer el ping y no hay respuesta.

3:39

O también puede ser que la red tenga problemas. O puede ser que tu proveedor tiene un incidente. O si utilizas herramientas de tercera como Cloudflare, puede ser que también haya un problema de ese lado. El tema es que ya sea por uno o por otro, en ese momento no responde.

4:00

¿Qué más monitorizar? El HTTP, HTTPS, es decir, la web carga. El servidor puede estar funcionando correctamente, pero el web server, el servidor web en Jinx, Apache, Lightspeed, Cadi, puede estar caído.

4:18

Monitorizar que tu sitio web responda correctamente es una muy buena idea.

4:25

Pero con esto también es importante tener claro que no solo es que responda,

4:30

sino que responda bien con el código correcto, con el contenido esperado.

4:35

Porque hay errores que la página carga, pero carga un error.

4:41

Puede ser, para que te hagas una idea, con WordPress.

4:44

Carga, porque sí carga, pero carga un mensaje que dice error de conexión con la base de datos. O sea, que la web está cargando, pero no está cargando bien. Y si devuelve errores 500 o páginas en blanco, ¡guau! Mal plan, porque significa que hay un error del lado del servidor.

5:03

¿Qué más? El tiempo de respuesta. Y en esto vamos a comenzar a hilar fino, porque monitorear o monitorizar no solo es comprobar si responde, sino que revisar qué tan rápido responde.

5:18

Si tu web normalmente carga en 500 milisegundos y de repente una y otra vez que haces el chequeo, el monitoreo automatizado, tarda 5 minutos, 5 segundos, 7 segundos, 4 segundos.

5:37

Ahí algo está mal. Y esto puede ser ya sea por alto tráfico, por problemas, por ejemplo, con la base de datos o con un archivo, plugin, extensión.

5:53

puede ser que tus recursos estén a tope, puede ser que el CPU está a 100 porque ha quedado en bucle algo que no logró resolver.

6:01

El caso es que este monitoreo de tiempo de respuesta te avisa antes de que las cosas fallen,

6:08

antes de que la web se caiga, antes que la saturación de recursos, vote la base de datos, vote tu servidor web.

6:16

Es decir, te avisa cuando aún hay algo que se pueda hacer.

6:22

Cuarto detalle, cosa que tenés que monitorizar.

6:27

El SSL.

6:29

La pregunta es, ¿el certificado SSL está vigente?

6:35

Para que te hagas una idea, los certificados SSL gratuitos,

6:38

Lesson Crip, expiran cada 90 días.

6:42

Si se vence, si expira tu certificado,

6:45

tu sitio va a dejar de cargar en HTTPS.

6:49

Los navegadores van a mostrar una advertencia de seguridad.

6:52

Van a decir, uy, este sitio no es seguro.

6:56

En ese momento, tus visitas van a volar.

6:59

Se van a ir.

7:01

Si has hecho bien tus tareas, no va a cargar ni eso.

7:05

Va a mostrar un error de SSL porque lo ideal es no cargar nada en HTTP.

7:12

Todo en HTTPS y si no, bloquear.

7:16

Por lo que entonces tendrías un hermoso error relacionado con el SSL.

7:23

Yo te recomiendo monitorizar que tu certificado SSL no esté por vencer.

7:29

Y estés pendiente con 15 días de anticipación para renovarlo.

7:38

Quinto y último punto que debes de monitorizar.

7:42

Los puertos específicos.

7:44

Si corres servicios específicos, monitoriza esos puertos específicos,

7:50

como cuáles, el puerto 22 o el que usés para el SSH,

7:55

el puerto 3306 para la base de datos.

7:59

Yo no te recomiendo crearte tu propia solución de correo,

8:02

pero bueno, cada proyecto es como es y puede ser que necesites.

8:05

El caso es que el puerto 25, 587 y 993 son el estándar

8:11

para lo que tiene que ver con el correo.

8:13

Pero además también te recomiendo verificar si necesitas un puerto específico para tu panel de control, también monitorizarlo.

8:22

Aquí va a depender mucho de lo que necesites.

8:25

El tema cuál es? Que si el puerto no responde, el servicio está caído y entonces tenés que ponerte manos a la obra.

8:34

Y esto, claro, al verlo así, cualquiera pensaría, vaya faena, no?

8:39

¿Tener que estar pendiente de esto?

8:41

¿Estarlo viendo? ¿Tener abierta la terminal?

8:44

Pues sí y no.

8:46

Hay herramientas de monitoreo y hay varias.

8:48

Hay muchas opciones.

8:50

Desde gratuitas hasta nivel empresarial enterprise.

8:55

La gratis, aunque también tiene una capa de paga,

8:58

pero la que puede ser gratis y un muy buen punto de partida

9:01

es Uptime Robot.

9:03

Es gratuita hasta 50 monitores.

9:06

Es decir que tu servidor, tus webs, los puertos, la base, o sea, tenés un montón.

9:13

Muy, muy, muy recomendable para comenzar.

9:16

Vos podés configurar las URLs o lo que necesitas monitorizar.

9:21

Eso sí, en la cuenta gratuita este chequeo lo hace cada cinco minutos, suficiente para comenzar.

9:27

Y si algo falla o algo no responde, te manda un correo.

9:32

Simple, efectivo y funciona sin complicaciones.

9:37

otra alternativa que a mí me gusta mucho

9:39

es lo auto alojado

9:41

el self hosting

9:44

¿por qué? porque así en un servidor

9:46

vos tenés montado tu propio sistema

9:48

tenés tus datos

9:50

tenés tu propia información

9:51

y no estás compartiendo esto con terceros

9:54

y algunas veces estas herramientas

9:56

te piden instalar

9:58

un script o un demon

10:00

para poder conectarte

10:01

y ahí estás abriendo una potencial

10:05

puerta

10:05

a un problema. Si algo le pasa a la empresa, como tiene conexión directa con tu servidor,

10:13

algo puede pasar. Por eso yo soy muy, muy de auto alojarme en mis servicios y el más sencillo,

10:20

herramienta fácil y rápido que casi solo es de instalar y usar, es UptimeKuma. Si quieres,

10:29

digamos que tener un poco más de control que Uptime Robot,

10:33

puedes instalarte UptimeKuma en un VPS o también lo puedes

10:37

contratar en Pikapods. Así te ahorras toda la parte técnica, pero tenés

10:41

tu propia UptimeKuma. UptimeKuma es open source,

10:46

gratis y vas a tener vos el control total de la herramienta.

10:49

El dashboard es simple, bastante simple, pero

10:54

completo. Vas a poder personalizar alertas, notificaciones

10:57

a Discord, Slack, Telegram, correo, etc.

11:01

Y como UptimeKuma también te puedo recomendar Checkmate

11:05

y te recomiendo también Tianji.

11:08

De hecho, en mi podcast SalsaTec en el episodio 89

11:13

titulado "Un nuevo comienzo con Tiangi"

11:17

hablé largo y tendido de esta herramienta

11:20

que es un todo en uno.

11:22

Monitoreo, Uptime, analítica, páginas de estatus,

11:26

te lo recomiendo.

11:27

Si por el contrario no te va el self-hosting, te queda corto,

11:33

opt-time robot, una de las alternativas muy potentes

11:36

con una calidad-precio muy buena es Better Stack.

11:41

Esto, claro, es si buscas algo más robusto.

11:46

Esta herramienta es muy buena, tiene un plan gratuito

11:50

y su plan de pago comienza desde 29 dólares al mes.

11:53

Vas a tener monitoreo desde múltiples ubicaciones,

11:57

eso es genial por si tu proyecto tiene clientes en diferentes puntos del mundo. También vas a tener,

12:04

por supuesto, las páginas de estatus, la gestión de incidentes, alertas inteligentes y claro, esto

12:11

si te viene bien y si tienes el presupuesto, vale la pena invertir en herramientas como esta.

12:18

Y bueno, ya sea la herramienta que sea, ya la escogiste, la pusiste a punto, ya tenés todo

12:24

funcionando y de repente te llega un correo, te llega una notificación, te llega un mensaje.

12:31

¿Qué hacer con estas alertas? Porque ya te montaste todo y si ya tienes todo montado y

12:39

te van a llegar las alertas y las vas a ignorar, hombre, mal plan. Recibir alertas está bien,

12:46

pero si no haces nada, si no haces algo cuando te llegan, no sirve de nada, my friend.

12:55

Por ejemplo, una alerta de Uptime del servidor caído.

13:01

Yo te recomiendo primero que verifiques si es real,

13:05

porque a veces se dan falsos positivos,

13:07

ya sea porque tu implementación de seguridad lo bloquea,

13:11

porque la herramienta de Uptime tuvo un hipo.

13:17

Yo te recomiendo que revises, ¿es real o no?

13:20

Entra, haz el chequeo desde otro punto,

13:24

Usa una VPN o pregunta directamente a alguien de tu equipo o del proveedor, en el panel del proveedor, en la página de estatus del proveedor.

13:36

Intenta entrar por SSH.

13:39

Verificar.

13:40

O sea, aquí con la alerta, lo primero en el caso de Uptime del servidor es revisar, verificar si es real.

13:49

Y si es real, hay que revisar qué pasó.

13:53

¿El servidor se reinició? ¿Por qué?

13:57

¿El problema, el proveedor tiene un incidente? ¿Cuál?

14:02

Ya lo solucionaron.

14:04

¿Está sufriendo un ataque? ¿Qué hago?

14:08

Se debe responder siempre dependiendo del tipo de incidente.

14:13

Por eso yo te recomiendo hacer una lista de los posibles casos

14:17

y prepararte para saber qué tienes que hacer si sucede.

14:21

Por ejemplo, si el proveedor tiene un incidente, ¿qué tengo que hacer?

14:25

Ah, tengo que escribir al correo.

14:27

¿A cuál correo?

14:28

¿Puedo llamar por teléfono?

14:30

¿A cuál número?

14:31

Porque cuando suceda, tengas todo caído y comiencen a llamarte y a escribirte a tus clientes.

14:36

Eh, ¿qué pasó? ¿Qué pasó? ¿Qué pasó?

14:38

En ese momento no es el momento para ir a ver a dónde tengo que escribir.

14:43

No.

14:45

Otro.

14:46

Siguiente.

14:47

Alerta de tiempo de respuesta lento.

14:52

conéctate al servidor, revisar los recursos.

14:54

¿El CPU está bien o está a tope?

14:57

¿La RAM tenés libre o está full?

15:01

¿El disco tiene espacio disponible o está lleno?

15:05

Lo primero es intentar identificar qué proceso está consumiendo los recursos

15:10

y luego decidir.

15:12

¿Lo detenés? ¿Necesita más recursos?

15:16

¿Y esto que está sucediendo es tráfico legítimo

15:20

o estás siendo víctima de un ataque.

15:23

En el caso de la alerta del SSL,

15:28

porque está por vencer o porque ya venció,

15:31

por supuesto, inmediatamente,

15:33

renova el certificado y hacelo inmediatamente.

15:38

No lo dejes para después.

15:40

En el caso del Let's Encrypt,

15:41

en la gran mayoría de paneles,

15:44

el proceso de renovación de los certificados SSL

15:47

es automático.

15:49

Pero si por alguna razón la renovación falló, hacelo manual.

15:54

Pero en ese momento no te va a quitar más de 5 minutos y es mejor dejarlo hecho, resuelto que tener que volver después.

16:04

Claro, hasta el momento hemos hablado del monitoreo externo.

16:09

Te dice si el servidor desde afuera responde, pero no te dice qué está pasando dentro.

16:17

Para eso vas a necesitar un monitoreo interno y ahí a la cosa cambia. De entrada lo que vas a tener que revisar son los recursos del sistema. Monitorizar el consumo del CPU, el consumo de RAM, el consumo de disco, el consumo de la red.

16:34

Si la CPU está constantemente al 90%, vas a tener que tomar cartas en el asunto porque vas a tener problemas pronto.

16:44

Si la RAM está a tope, vas a necesitar ampliar si es que es lo necesario,

16:51

porque algunas veces está siendo atacada una web o tenés problemas con alguna web.

16:58

Si el disco está al 90% de su capacidad, urge ya sea limpiar o aumentar.

17:05

Con esto es importante tener claro que la opción, la mejor opción, no siempre es aumentar recursos a la primera.

17:12

Se tiene que evaluar en cada caso si de verdad estás utilizando los recursos o te están intentando hackear.

17:22

Además, también en el monitoreo interno, lo que te va a dar la vida y tienes que estar muy atento son los logs del sistema. Los logs te dicen todo. Errores, accesos, problemas, potenciales ataques.

17:36

No hace falta ponerte a leer todo porque es demasiado, pero hay herramientas que te ayudan a investigar y te muestran de forma muy visual patrones que te alertan que están sucediendo cosas raras.

17:53

Por ejemplo, errores 500, intentos fallidos de SSH o servicios que sin por qué ni para qué repentinamente caen, se desconectan, se apagan.

18:08

Con este monitoreo interno también es muy buena idea estar siempre atento a los servicios críticos.

18:16

Si por ejemplo vos corres, ejecutas, trabajas con servicios específicos, yo te recomiendo monitorizar, siempre estar pendiente de tu web server, de tu servidor de base de datos, es decir, de Nginx, Apache, Lightspeed, Cadi, de MySQL, MariaDB, PostgreSQL, Mongo, lo que uses.

18:41

Con este punto lo que tenés que tener presente es eso crítico. Para esto existen herramientas que pueden revisar y reiniciar automáticamente si algo se cae, mientras te notifican. Yo te recomiendo darle una mirada en este punto a Monit.

19:00

Ya estamos llegando al final del episodio y para cerrar veamos los errores comunes.

19:06

Porque siempre es mejor aprender de los errores de los demás y no sufrirlo todo en nuestras carnes.

19:14

Error número uno. Monitorizar solo desde una ubicación.

19:18

Tus servidores pueden estar caídos solo para cierta región por temas que se escapan a tu control.

19:25

Por ejemplo, LaLiga Cloudflare en España.

19:28

por ejemplo. Por eso es muy recomendable monitorizar desde por lo menos dos ubicaciones.

19:36

Error número dos. Demasiadas alertas. Si recibís 50 alertas por día, va a llegar un momento en el que las vas a comenzar a ignorar.

19:47

Y luego, cuando algo grave suceda, pues te va a dar lo mismo. Vas a pensar, nada, otra vez.

19:53

Por eso es muy buena idea configurar los umbrales con criterio y activar solo alertas que realmente sean importantes.

20:06

No todo, no todo debe revisarse y alertarse cada 60 segundos.

20:13

Error número 3. No probar las alertas.

20:16

Vos podés configurar el monitoreo, pero si nunca verificas que las alertas lleguen, algo va a pasar y no te vas a enterar.

20:26

Las herramientas de monitoreo, de uptime, tienen la opción para hacer una prueba.

20:32

Y si no, es muy fácil. Desconecta, apaga, reinicia tu servidor, desactiva tu web y ahí vas a ver si las alertas llegan.

20:46

Error número 4

20:49

monitorizar sin actuar

20:51

sin tomar cartas en el asunto

20:53

de nada sirve monitorizar

20:55

si no vas a hacer nada

20:57

ni con las alertas

20:59

ni con la información

21:00

de nada sirve

21:03

y bueno vamos cerrando esta terminal

21:05

y te recuerdo

21:06

el monitoreo no es opcional

21:09

up time tiempo de respuesta

21:11

SSL

21:13

es muy necesario

21:15

Yo te recomiendo utilizar servicios externos, montarte tu propia herramienta y tomar cartas en el asunto cuando recibas alguna alerta porque algo está pasando.

21:27

En el próximo episodio ya vamos a hablar de implementar, de crearte tu primer sitio web en tu VPS.

21:36

Y vamos a ver desde el servidor en blanco hasta tener algo ya corriendo en producción.

21:43

Si tienes alguna duda, alguna pregunta, me quieres hacer algún comentario, no te voy a dar mi IP, pero sí la URL:

21:51

paneldecontrol.org/contacto

21:54

¿Qué te parece si nos conectamos en el próximo episodio?

21:58

Espero que sí.

21:59

¡Salú!