Las valiosas enseñanzas que puede extraer cualquier empresa de la caída de Facebook

El pasado 4 de octubre durante casi seis larguísimas horas los más de 3.500 millones de usuarios que totalizan Facebook, Instagram y WhatsApp no pudieron acceder a ninguna de estas aplicaciones que comparten capital inversor, por culpa de una falla insólita originada en los sistemas de Facebook (de los que dependen las otras dos), que motivó una caída general cuya duración y gravedad hizo tambalearse los cimientos del gigante de Palo Alto, habiéndose cifrado ya en unos 6.000 millones de dolares las pérdidas bursátiles de la compañía a consecuencia del incidente.

Pese a que alguna organización ha querido atribuirse el ‘mérito’ del estrago, la explicación parece encontrarse en un error de configuración achacable a un fallo humano, que no solo dejó inoperativas las aplicaciones para los usuarios, sino que también inhabilitó todos los sistemas de gestión interna de las compañía, desde los canales de comunicación hasta los propias tarjetas electrónicas que permiten el acceso físico a la empresa y sus distintos espacios de trabajo.

De hecho, precisamente por tratarse de un fallo en cascada los equipos de ingeniería de Facebook no pudieron diagnosticar rápidamente qué estaba pasando y solucionarlo, hasta el punto que según el New York Times para solventar el problema hubo que ir a buscar a un equipo de especialistas para que se desplazase a un centro de datos en Santa Clara.

¿Por qué se cayó Facebook?

Según especialistas externos, todo se habría originado por un cambio de configuración que provocó que los servidores DNS de Facebook quedaran inaccesibles, al no poder anunciar a los sistemas autónomos (AS) las rutas donde se encontraban mediante Border Gateway Protocol (BGP), el sistema que se usa desde los orígenes del World Wide Web para llevar paquetes de datos de una red a otra.

Así, los servidores DNS de la compañía quedaron ocultos al resto de internet, lo que impedía que se resolvieran los dominios de Facebook. Además, el problema se agravó porque los sistemas internos de la compañía también dependían para funcionar de resoluciones de nombres de dominio, lo que causó que muchos elementos quedarán inoperativos, entre ellos el control de acceso físico a instalaciones.

Finalmente, tras más de seis horas de inactividad Facebook, Instagram y WhatsApp fueron recuperando lentamente su actividad normal, tras haber vivido el peor incidente de su historia, que reveló que ni la compañía tecnológica más emblemática de nuestra era está a salvo de sufrir percances que afecten de lleno a su funcionamiento.

La valiosas enseñanzas que deja el incidente de Facebook

Este importante incidente también deja unas enseñanzas muy valiosas para cualquier empresa o negocio que trabaje con sistemas TI con independencia de su actividad; y es que resulta muy fácil sufrir un desastre de consecuencias potencialmente demoledoras, no librándose de padecer problemas ni siquiera un gigante como Facebook que cuenta con impresionante despliegue en la Nube, los mejores ingenieros, data centers propios y todos los recursos que se puedan imaginar.

Pero pese a existir un importante grado de inevitabilidad en este tipo de incidentes, no por ello hemos de dejar de aplicar los tres pilares básicos para operar bien con los sistemas de información:

Planificar y ensayar cada cambio que se vaya a implementar en producción, así como tener diseñado un plan de vuelta atrás (‘fallback‘). Sin importar las veces que hayamos hecho la misma operación ni lo automatizada que esté. Así, debe testearse cualquier modificación o mejora antes de lanzarse a producción y tener a mano la marcha atrás. Aunque se trate de operaciones automatizadas, ya que estas también pueden provocar errores, como probablemente fue lo que ocurrió en el percance de Facebook.
La importancia de la redundancia en infraestructuras que tienen que proveer de un servicio continuo a sus usuarios. En el caso que nos ocupa, el servicio DNS hubiera admitido servidores DNS secundarios ubicados en otros AS, bien fueran propios de Facebook, o lo más razonable en coste, de un tercero, lo que hubiera garantizado que continuaran accesibles a pesar del problema en BGP. De la misma forma, el incidente también pone de manifiesto la importancia de separar y redundar la vertiente de gestión/control del sistema de información, de la del servicio, aunque ello suponga un sobrecoste apreciable.
Por último, el incidente de manera indirecta señala la importancia de contar con el apoyo de terceros en el despliegue de nuestras infraestructuras IT. Facebook tenía la capacidad para redundar su sistema DNS entre varios sistemas autónomos, sin embargo no tuvo la previsión de hacerlo. Hubiera sido suficiente con ubicar uno de sus servidores DNS en un proveedor externo dentro de otro ASN para evitar una caída generalizada de esa magnitud.

En ITRES somos especialistas en la prevención y respuesta a todo tipo de incidentes en los sistemas TI de las empresas, si quieres que te informemos sobre cómo podemos ayudar a la tuya a prevenirlos y solucionarlos no dudes en contactar con nosotros. ¡Llámanos al 868 300 513 o escríbenos a [email protected], estaremos encantados de atenderte!