Snapshots problemáticos

Actualización 18/11/09

Como bien me apuntó mi compañero (que debe ser el único que ha entrado al blog) tengo que decir que los snapshots no tienen nada que ver con las caídas de máquina que hemos estado sufriendo.  Sólo fueron una fatídica concurrencia de tareas que se nos presentó.

Lo único que pasa si se nos llenan los LV donde están hechos los snapshots es que la copia no será consistente, de hecho, al hacer un simple ls del directorio donde los tenemos montados nos devuelve un error de E/S, pero nada más.

#################################

El otro día y más concretamente ayer, nos tocó tirar de  snapshot de la BBDD para hacer una copia y replicar el entorno productivo en el entorno de pruebas.  La cosa se nos fue de las manos la última semana, parecía que la caída de la máquina algo tenía que ver con el snap que habíamos hecho pero no había nada demostrado.

Para los que no sepan de qué va ésto de los snapshots, una breve explicación:

Lo primero que hay que saber es que sólo se pueden hacer snapshots de filesystems, si tenemos volúmenes lógicos de tipo RAW como hace tiempo se hacía para aumentar el rendimiento, no nos dejará hacerlo.

Al crear un snapshot de un filesystem, estamos creando punteros al contenido del filesystem en un determinado momento. Ésto tiene sus ventajas e inconvenientes. La ventaja principal que se nos presenta es la rapidez con la que lo hacemos. Ésto nos permite parar la BBDD, lanzar el snapshot de todos los FS de la BBDD y volver a levantarla, todo ésto en 5 minutos escasos. Una vez que tenemos el snap, arrancamos de nuevo la BBDD. El snapshot apuntará a los ficheros tal cual estaban cuando se hizo, teniendo los FS consistentes para hacer la copia. Podemos entonces montar los snaps y hacer la copia a otro FS.

En condiciones normales, ésta teoría se convierte en práctica satisfactoria. Pero éstas últimas veces….. no se ha dado tan bien como esperábamos.

En éste entorno, con una BBDD de 800GB con mucho, mucho, mucho trasiego de datos, los volúmenes lógicos que albergan los snapshots se empiezan a saturar. Y aquí viene la desventaja del snapshot: los punteros de los snaps apuntan a los ficheros tal cual estaban cuando se lanzó, pero si hay modificaciones y mucha entrada/salida, los datos nuevos necesitan ser copiados o mirroreados a la ubicación donde está el snapshot, para mantenerlo consistente. Y aquí nos vino el problema: los volúmenes lógicos de los snaps se llenaron, la máquina no podía satisfacer los requerimientos de espacio y, para asombro de todos, volcado de memoria, system dump y máquina caída. Es algo que no me explico. En vez de llenarse el LV y decir que no puede serguir copiando en él, como si fuera un LV cualquiera, pues no, se cuelga la máquina entera! Increíble. Estamos en nivel de versión 5.3.00-11 y ésto todavía no lo han arreglado… en la versión 6.1 ya no hay referencias a éste error, espero que lo solucionen.

De momento, ésta mañana me ha tocado arrancar la BBDD a mí, menos mal que hasta las 9 no empieza la gente a trabajar…

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s