systemadmin.es > Hardware > Historias para no dormir: La batería fantasma

Historias para no dormir: La batería fantasma

Para parchear el bug del kernel de los 208,5 días tocó reiniciar algunos equipos, entre ellos una especie de pseudo-blade de la marca supermicro. Y evidentemente, se lió

Al reiniciar los equipos, el rendimiento cayó en picado. Estos servidores son datanodes de Hadoop y además envían newsletters, por lo que al poco de arrancar se quedaban tiesos. La política de cache de la controladora RAID pasó de WriteBack (considera escrito un dato cuando llegue a la caché de la controladora) a WriteThrough (considera escrito un dato cuando llega al disco). Evidentemente, es más rápido llegar únicamenta a la cache de la controladora (una memoria volátil) que esperar a que se mueva el disco y lo escriba. A parte del correspondiente check de nagios para verificar la política de cache, al arrancar el equipo también aparecía el siguiente mensaje:

LSI notificando que la batería se esta cargando

LSI notificando que la batería se esta cargando

Indicando textualmente: “This is caused by battery being charged, missing or bad“. Evidentemente llamé a soporte para que nos cambien la batería. Es algo que ya he vivido con un servidor de bases de datos, por lo que tampoco se le dí mayor importancia, simplemente tocó quitar los datanodes de hadoop y mandar las newsletters mediante otros servidores hasta que se cambiasen dichas baterías.

La sorpresa llegó al día siguiente en el datacenter cuando me llaman del proveedor diciendo que dichos servidores no tienen batería. La primera reacción es pensar que se están confundiendo de pedido o de cliente, por lo que simplemente abriendo el server y mandando una foto se soluciona. Al fin y al cabo… ¿a quien se le ocurriría que una controladora no tuviera batería para la memoria cache siendo volátil? Cualquier problema eléctrico podría corromper los sistemas de ficheros.

Un nodo de un supermicro 2UTwin2

Un nodo de un supermicro 2UTwin2

¿Dónde esta la batería? Efectivamente no existía ninguna batería. Según me han comentado los de soporte, al realizar un reinicio mediante la consola de gestión fuera de banda (equivalente a la DRAC de los Dell o la iLO de los HP) y volver a arrancar te advierte que no tienes batería, por lo que si no le dices nada, automáticamente te cambia de “Always WriteBack” a WriteBack con batería (WriteBack with BBU).

Mediante la interfaz de la controladora se debe volver a cambiar:

Configuración de política de cache en la interfaz de megaRAID

Configuración de política de cache en la interfaz de megaRAID

O bien, con el sistema operativo arrancado, mediante MegaCLI se puede cambiar dicha política de caché:

# /opt/MegaRAID/MegaCli/MegaCli -LDSetProp WB -LALL -aALL
                                     
Adapter 0: Get BBU Status Failed.

So policy Change to WB will not come into effect immediately

Set Write Policy to WriteBack on Adapter 0, VD 0 (target id: 0) success

Exit Code: 0x00

Aquí el problema es:

  • No tiene sentido que se cambie por hacerle un “botonazo” al equipo. Es algo que se puede necesitar si el equipo se queda frito. Tener que estar pendiente de algo así justo cuando has tenido que realizar dicha operación me parece como mínimo curioso.
  • Al comprar una controladora con caché que pedimos, la esperaba con batería. Como mínimo podrían haber preguntado si la quería con o sin batería pero no me ha gustado un pelo que me la colaran sin batería y sin avisar de ello en algo tan sensible como son los datos que escribimos en disco.
  • Al ver que no tenía batería sin pensarlo pedí el presupuesto de ella. Son 4 equipos los que las necesitan, aunque únicamente he tenido el problema en dos de ellos. No esperaba que costasen mucho dichas baterías, supuse 20€ cada una como mucho. Este es el presupuesto:
    Presupuesto de 4 baterías para controladora LSI

    Presupuesto de 4 baterías para controladora LSI


    Un total de, redondeando, 787€ por 4 baterías, por lo tanto, a casi 200€ por batería
  • Para culminar el día, después de salir del trabajo a las 9 de la noche, al llegar al paquing rocé con el coche en la columna:

    Besito entre columna y guardabarros

    Besito entre columna y guardabarros

6 comments to “Historias para no dormir: La batería fantasma”

  1. ¡Vaya precios! Entiendo que estamos hablando de unas baterías con polímero de sangre de unicornio 😛

  2. Si es que…. hay días que es mejor no levantarse de la cama 😛

  3. No sé si es la foto o tienes las ruedas mal gastadas… por si hay que sumar algo a toda la que llevabas.

  4. Supongo que es la foto. La hice en el parquing del trabajo donde ahorran en fluorescentes

  5. Casi 800 euros por las baterías, así que lo que dices de “nos hubieran preguntado si las queríamos o no” no hubiera sido solo una pregunta si una variante en la factura, o sea que te hubieran costado 800 euros más las controladoras, aunque supongo que el asunto fue que algún listillo de las robo o se le olvido ponerlas.

  6. Simplemente ahorrarían para engordar beneficios. Si compro controladoras con caché se espera que tengan baterías:

    De hecho, el comportamiento de la controladora es el esperado, avisar que sin batería no debería estar

Deja un comentario:

XHTML - Tags permitidos:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>