Para acabar la semana

El viernes tuvimos movida en el curro.

De repente a las 12:30 algunos NFS de los SAs empezaron a fallar.  Todos empezamos a movernos cada uno mirando lo que le tocaba, todo bien, todo conectado, NFS corriendo, máquinas con IDLE al 98% …… ¿qué está pasando?

La sala de sistemas se empieza a llenar de gente…. que nos están llamando de arriba que la aplicación no funciona, que los listados se quedan pillados, que el df -k se me cuelga…… Al rato, Nagios empieza a quejarse, no puede chequear los filesystems y, finalmente, las BBDD empiezan a quedarse fritas, la “cagarsis” estaba servida.

Nos ponemos a mirar los AIX y el topas reportaba una actividad en los discos de la SAN del 99% y sin IO’s ¿?

Mirada al iostat, tampoco reporta IO’s, ¿cómo puede ser?

Vamos a ver los discos. Los lsvg de los VG iban correctamente pero al querer ver los discos de cada VG con un lspv el comando se quedaba frito….

Finalmente, las BBDD no responden y pensamos que se habrán cascado los switches. Entramos, todo parece OK, actividad del propio switch, el zonning no se había tocado, todo bien, ¿qué será?

Preguntamos:

– ¿Algiuen ha hecho algo? ¿Estábais probando algo?

Nada nuevo.

De todas formas como ya no había acceso reiniciamos uno de los switches por si se había quedado frito. Todo siguió igual.

Los errpt de los AIX rebosaban fallos en los hdisk.

Empezamos a mirar mal a la SAN, nos costaba trabajo creer que la IBM DS8100, un animal de casi 300.000€, se hubiera flipado o estropeado físicamente. La cuestión era que el cfgmgr sí que devolvía el listado de los discos pero cuando intentabas hacer algo con alguno no respondía. He de decir que lo último que se hizo en la SAN fue migrar unos discos de otra, una EMC, a ésta y justamente lo hice yo, pero hace más de una semana y todo había estado funcionando hasta ahora, pero llegué a dudar… La cosa era que éstos nuevos discos migrados están en otro grupo, dentro de la misma SAN, pero separados físicamente en una ampliación que se compró especialmente para éste propósito. Y la parte de productivo y desa-pruebas no se ven entre ellas. Y lo más curioso es que éstos discos sí que eran accesibles desde los AIX de desa pero las BBDD que corren sobre ellos se habían quedado en un estado un poco raro, sin IO’s tampoco.

En ésto que los de IBM ya estaban por aquí con el teléfono pegado a la oreja.

Viendo el panorama que ésta gente tampoco daba ninguna solución nos decidimos finalmente, bueno, el jefe de aquí fue el que empujó un poco y el que le dió al botón rojo pues a nosotros “nos daba la risa”.

Rebotamos el pedazo de SAN. Yo pensaba que la cosa tardaría tiempo pero la verdad es que en menos de 10 minutos ya estaba otra vez funcionando.

Las máquinas se habían flipado, o eso era lo que nosotros pensábamos, así que optamos por reiniciarlas.

En total tenemos 4 máquinas de producción y 3 de desa-pruebas

Empezamos a levantar los recursos de BBDD: a correr los scripts que ponen los alias IP, cogen los VG y levantan las BBDD. Las BBDD no arrancan, cagarsis.  Nos ponemos a ver qué es lo que pasa y un lsvg -l de los VG nos devuelve que hay varios FS cerrados, desmontados. Al intentar montarlos da un error de superbloque y demás. Así que empezamos a pasar fsck sobre los que no puede montar. Finaliza y la BBDD levanta correctamente. Recuperando alguna transacción, pero correctamente. Todo bien, de momento.

Vamos levantando máquinas y recursos hasta que un par de ellos, al hacer el varyonvg sobre el VG veo que tarda un poco demasiado.

– mmm, será que al haberse quedado pillada la cabina, puede que esté haciendo algún tipo de journaling o algo así…. – pensé yo – le daré algo más de tiempo.

Se lo comento mi compañero que está tardando mucho y me dice que ésto debía ser bastante rápido…. Nos vamos a otra máquina, topas, los discos de la SAN de la BBDD al 99%, no IO’s, otra vez igual !!!

Llamamos de nuevo al de IBM que ya se marchaba…

En ésto ya eran sobre las 17h.

Finalmente aparece otro y siguiendo el protocolo, empiezan mirando switches y conectividad, nosotros no paramos de decirles que ese no era el camino, pero claro, el protocolo es el protocolo.

Después de un buen rato y desde Alemania ven que internamente los discos aparecen como “bloqueados”, “reservados”, como cuando hacemos la reserva desde el AIX cuando hacemos el varyonvg pero en todos los discos. Nos preguntan si tenemos puesto nosotros algún bloqueo y les decimos que no, que los pueden quitar todos, procedieron.

Al ratito empieza a funcionar un varyonvg desde una máquina aislada que tenemos. Oh, funciona!!!  lspv -l vg muestra los discos!!!

Empezamos a levantar de nuevo las máquinas y arrancar recursos muy poquito a poco, 1 a 1, cuando llevábamos 3 ya empezamos a lanzarlas en paralelo xD

Y finalmente, a eso de las 21h ya lo teníamos todo up & running como se suele decir, habiendo recuperado casi todos los FS de los VG pues estaban corruptos. Las BBDD se comportaron muy bien, se recuperaron las transacciones sin problemas.  Sólo algunos NFS que no se habían montado y se nos escaparon el viernes me llamaron para montarlos el sábado por la mañana, pero pude hacerlo sin problemas vía teléfono.

Conclusión de todo ésto: todavía estamos flipando de que nos haya fallado una DS8100, a ver qué cuentan los de IBM.

Anuncios

One thought on “Para acabar la semana

  1. Finalmente no fue nada relacionado con la cabina de discos sino de configuración de los VIO Servers. Por defecto, al descubrir discos el driver que trae el VIO Server pone el atributo reserve_policy=yes así que disco de la SAN que descubre, disco que se reserva para él …
    Con ésta forma de gestionar los discos estamos vendidos, evidentemente. Nosotros nos basamos en que cuando haces un varyonvg de un VG te adueñas de los discos y nadie más te los puede quitar, si no fuera así sería un descontrol…
    Ésto se soluciona con los drivers SDDPCM que se nos había olvidado de instalar antes del verano, que fue cuando se instalaron los VIO Servers. Tras ésto, ningún problema.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s