Desde ayer por la noche, el servidor diez ha estado yendo demasiado lento, tanto que a primera hora de la mañana ha dejado de responder.
A las 8:57 hemos iniciado las tareas de estabilización del mismo, terminando a las 9:44 con el servicio restablecido a valores normales.
Todavía no conocemos las causas de la sobrecarga. Tras revisar si se trataba de un problema de envío de spam parece que todo está correcto.
De momento la única explicación que tenemos es que el servidor llevaba demasiados días sin un reinicio (más de 1 año) lo que no tendría porque haberle afectado con el sistema Ksplice que utilizamos.
Seguiremos informando en esta misma entrada tan pronto tengamos más detalles.
No ha habido pérdida de datos, ni emails.
Actualización 13:40h : todo apunta a que se ha tratado de un problema con la actualización del sistema base (kernel) y otros componentes (firmware). Estamos revisando conjuntamente con los programadores de Ksplice-Oracle y CloudLinux para encontrar la causa del problema y poder tomar las medidas oportunas.
Actualización 17:55h : confirmamos que se trata de un problema con el disco duro, por lo que vamos a proceder a cambiar todo el servidor. Restableceremos el servicio lo antes posible.
Actualización 23:07h : programamos la migración para el sábado por la tarde. Ya está en marcha un nuevo servidor.
Actualización Jueves 10:59h : dado que el servidor está fallando cada vez más, hemos tomado la decisión de iniciar ya la migración al nuevo utilizando para ello las copias de seguridad del fin de semana. Una vez restaurado todo iremos copiando las cuentas del servidor con fallos para tener una copia actualizada.
Actualización 14:28h : damos por terminada la migración a un nuevo servidor.
Posibles problemas y molestias.
Puede que al consultar tus emails recibas un email que ya habías contestado o que te desaparezca uno que tenías en la bandeja de entrada. En ambos casos, puedes contactarnos desde la zona de usuarios para que hagamos una copia más actualizada de tu web.
Si tienes una web con contenido dinámico también notarás una falta del contenido entre el fin de semana y hoy, contáctanos igualmente para realizar la copia de nuevo.
Algunos usuarios nos han comentado que su antivirus AVAST alerta de que ha habido un cambio en el servidor (la dirección IP) y salta un mensaje como el siguiente:
No hay de qué preocuparse, la IP del servidor efectivamente ha cambiado.
La raíz del problema
Para aquellos que les guste conocer en más detalle el porque del cambio, aquí mostramos el resultado del test realizado al disco del servidor viejo:
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Interrupted (host reset) 00% 34603 –
# 2 Short offline Completed: read failure 90% 34602 10646192
# 3 Extended offline Completed without error 00% 14008 –
Como puedes ver en negrita resaltado, hay varios errores. Además, el tiempo de vida del disco es de 346002, unos 3,95 años, de los cuales 247 días ha estado en marcha ininterrumpidamente ya que no se ha reiniciado en ningún momento.
Así es como se ve ahora el disco duro nuevo:
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 21 –
# 2 Extended offline Completed without error 00% 4 –
21h y 4h respectivamente (hay dos discos para el sistema de copias). Discos nuevos.
Y como no hay mal que por bien no venga, vamos aprovechar este caso para realizar una revisión completa de todos los servidores con el fin no utilizar discos de más de 2 años. Cuando llegue el momento, moveremos las cuentas a otros servidores y dejaremos de utilizarlos.