Para acabar la semana

El viernes tuvimos movida en el curro.

De repente a las 12:30 algunos NFS de los SAs empezaron a fallar.  Todos empezamos a movernos cada uno mirando lo que le tocaba, todo bien, todo conectado, NFS corriendo, máquinas con IDLE al 98% …… ¿qué está pasando?

La sala de sistemas se empieza a llenar de gente…. que nos están llamando de arriba que la aplicación no funciona, que los listados se quedan pillados, que el df -k se me cuelga…… Al rato, Nagios empieza a quejarse, no puede chequear los filesystems y, finalmente, las BBDD empiezan a quedarse fritas, la “cagarsis” estaba servida.

Nos ponemos a mirar los AIX y el topas reportaba una actividad en los discos de la SAN del 99% y sin IO’s ¿?

Mirada al iostat, tampoco reporta IO’s, ¿cómo puede ser?

Vamos a ver los discos. Los lsvg de los VG iban correctamente pero al querer ver los discos de cada VG con un lspv el comando se quedaba frito….

Finalmente, las BBDD no responden y pensamos que se habrán cascado los switches. Entramos, todo parece OK, actividad del propio switch, el zonning no se había tocado, todo bien, ¿qué será?

Preguntamos:

– ¿Algiuen ha hecho algo? ¿Estábais probando algo?

Nada nuevo.

De todas formas como ya no había acceso reiniciamos uno de los switches por si se había quedado frito. Todo siguió igual.

Los errpt de los AIX rebosaban fallos en los hdisk.

Empezamos a mirar mal a la SAN, nos costaba trabajo creer que la IBM DS8100, un animal de casi 300.000€, se hubiera flipado o estropeado físicamente. La cuestión era que el cfgmgr sí que devolvía el listado de los discos pero cuando intentabas hacer algo con alguno no respondía. He de decir que lo último que se hizo en la SAN fue migrar unos discos de otra, una EMC, a ésta y justamente lo hice yo, pero hace más de una semana y todo había estado funcionando hasta ahora, pero llegué a dudar… La cosa era que éstos nuevos discos migrados están en otro grupo, dentro de la misma SAN, pero separados físicamente en una ampliación que se compró especialmente para éste propósito. Y la parte de productivo y desa-pruebas no se ven entre ellas. Y lo más curioso es que éstos discos sí que eran accesibles desde los AIX de desa pero las BBDD que corren sobre ellos se habían quedado en un estado un poco raro, sin IO’s tampoco.

En ésto que los de IBM ya estaban por aquí con el teléfono pegado a la oreja.

Viendo el panorama que ésta gente tampoco daba ninguna solución nos decidimos finalmente, bueno, el jefe de aquí fue el que empujó un poco y el que le dió al botón rojo pues a nosotros “nos daba la risa”.

Rebotamos el pedazo de SAN. Yo pensaba que la cosa tardaría tiempo pero la verdad es que en menos de 10 minutos ya estaba otra vez funcionando.

Las máquinas se habían flipado, o eso era lo que nosotros pensábamos, así que optamos por reiniciarlas.

En total tenemos 4 máquinas de producción y 3 de desa-pruebas

Empezamos a levantar los recursos de BBDD: a correr los scripts que ponen los alias IP, cogen los VG y levantan las BBDD. Las BBDD no arrancan, cagarsis.  Nos ponemos a ver qué es lo que pasa y un lsvg -l de los VG nos devuelve que hay varios FS cerrados, desmontados. Al intentar montarlos da un error de superbloque y demás. Así que empezamos a pasar fsck sobre los que no puede montar. Finaliza y la BBDD levanta correctamente. Recuperando alguna transacción, pero correctamente. Todo bien, de momento.

Vamos levantando máquinas y recursos hasta que un par de ellos, al hacer el varyonvg sobre el VG veo que tarda un poco demasiado.

– mmm, será que al haberse quedado pillada la cabina, puede que esté haciendo algún tipo de journaling o algo así…. – pensé yo – le daré algo más de tiempo.

Se lo comento mi compañero que está tardando mucho y me dice que ésto debía ser bastante rápido…. Nos vamos a otra máquina, topas, los discos de la SAN de la BBDD al 99%, no IO’s, otra vez igual !!!

Llamamos de nuevo al de IBM que ya se marchaba…

En ésto ya eran sobre las 17h.

Finalmente aparece otro y siguiendo el protocolo, empiezan mirando switches y conectividad, nosotros no paramos de decirles que ese no era el camino, pero claro, el protocolo es el protocolo.

Después de un buen rato y desde Alemania ven que internamente los discos aparecen como “bloqueados”, “reservados”, como cuando hacemos la reserva desde el AIX cuando hacemos el varyonvg pero en todos los discos. Nos preguntan si tenemos puesto nosotros algún bloqueo y les decimos que no, que los pueden quitar todos, procedieron.

Al ratito empieza a funcionar un varyonvg desde una máquina aislada que tenemos. Oh, funciona!!!  lspv -l vg muestra los discos!!!

Empezamos a levantar de nuevo las máquinas y arrancar recursos muy poquito a poco, 1 a 1, cuando llevábamos 3 ya empezamos a lanzarlas en paralelo xD

Y finalmente, a eso de las 21h ya lo teníamos todo up & running como se suele decir, habiendo recuperado casi todos los FS de los VG pues estaban corruptos. Las BBDD se comportaron muy bien, se recuperaron las transacciones sin problemas.  Sólo algunos NFS que no se habían montado y se nos escaparon el viernes me llamaron para montarlos el sábado por la mañana, pero pude hacerlo sin problemas vía teléfono.

Conclusión de todo ésto: todavía estamos flipando de que nos haya fallado una DS8100, a ver qué cuentan los de IBM.

Casi 2 años hace ya …

… que cambié de empresa, un poco con el miedo metido en el cuerpo y sabiendo que arriesgaba, ya se sabe que uno de las primeras apariencias no debe fiarse, pasa como los anuncios de madrugada que prometen productos fantásticos a precios irrisorios y luego resultan un fraude y te dan más trabajo que alegrías.

Pero la verdad es que la cosa ha salido bastante bien: de estar prácticamente todos los días solucionando incidencias tipo “el correo no me va”, “el pc me va lento” (léase, me ha entrado alguna mierda en el Windows por navegar por sitios no muy recomentables y bajar todo tipo de mierdas del Ares), dando soporte directo al usuario y tocando de vez en cuando algún servidor con Linux e instalando algún Samba como mucho… a no ver más Windows que el del portátil de la empresa y estar toooodo el santo día trasteando en Aix y Linux.

Y la verdad que ésto de estar en el cliente es una gozada, porque en la Administración Pública el horario es una cosa de lo mejor, quién me iba a decir a mí que iba a tener 4 meses de jornada intensiva?? Y durante el año 2 tardes sólamente… está muy bien porque por las tardes puedo estar con Pau, aunque ya me sepa el Barrio Sésamo de memoria.