InicioInfoInforme Oficial sobre la falla de Facebook (Detalles)

Informe Oficial sobre la falla de Facebook (Detalles)

Info9/24/2010




Temprano hoy Facebook estaba abajo o inalcanzable para muchos de ustedes durante aproximadamente 2.5 horas. Esto es la interrupción peor que hemos tenido en más de cuatro años, y quisimos pedir perdón en primer lugar por ella. También quisimos proporcionar mucho más detalle técnico de lo que pasó y compartir una lección grande aprendida.

El defecto clave que hizo que esta interrupción fuera tan severa era un manejo inoportuno de una condición de error. Un sistema automatizado para verificar valores de configuración terminó causando muchos más daños en el sistema.

La intención del sistema automatizado es comprobar valores de configuración que son inválidos en el escondite y los sustituyen por valores actualizados de la tienda persistente. Esto trabaja bien para un problema pasajero con el escondite, pero no trabaja cuando la tienda persistente es inválida.

Hoy hicimos un cambio en la copia persistente de un valor de configuración que fue interpretado como inválido. Esto significó que cada cliente vio el valor inválido e intentó fijarlo. Como el apuro implica hacer una pregunta a un racimo de bases de datos, aquel racimo fue rápidamente abrumado por cientos de miles de preguntas un segundo.

Para hacer asuntos peores, cada vez un cliente consiguió un error intentando preguntar una de las bases de datos lo interpretó como un valor inválido, y suprimió la llave de escondite correspondiente. Esto significó que hasta después de que el problema original había sido fijado, la corriente de preguntas siguió. Mientras las bases de datos dejaron de atender algunas peticiones, ellos causaban hasta más peticiones a ellos. Habíamos entrado en un bucle de realimentación que no permitió que las bases de datos se recuperaran.

El modo de parar el ciclo de reacción era completamente doloroso - tuvimos que parar todo el tráfico a este racimo de base de datos, que significó apagar el sitio. Una vez que las bases de datos se habían recuperado y la causa primordial había sido fijada, despacio permitimos a más personas entrar en el sitio.

Esto recuperó el sitio y corriendo hoy, y por el momento hemos apagado el sistema que intenta corregir valores de configuración. Exploramos nuevos diseños para este sistema de configuración después de modelos de diseño de otros sistemas en Facebook que tratan más elegantemente con bucles de realimentación y puntos pasajeros.

Pedimos perdón otra vez por la interrupción de sitio, y queremos que usted sepa que tomamos la interpretación y la fiabilidad de Facebook muy seriamente.




Datos archivados del Taringa! original
0puntos
969visitas
0comentarios
Actividad nueva en Posteamelo
0puntos
5visitas
0comentarios
Dar puntos:

Dejá tu comentario

0/2000

Autor del Post

l
luisfgj94🇦🇷
Usuario
Puntos0
Posts4
Ver perfil →
PosteameloArchivo Histórico de Taringa! (2004-2017). Preservando la inteligencia colectiva de la internet hispanohablante.

CONTACTO

18 de Septiembre 455, Casilla 52

Chillán, Región de Ñuble, Chile

Solo correo postal

© 2026 Posteamelo.com. No afiliado con Taringa! ni sus sucesores.

Contenido preservado con fines históricos y culturales.