Alta Disponibilidad

Xavier Trilla

20 de febrero de 2020 11:39
Actualización

En Clouding hemos creado una plataforma de Alta Disponibilidad para tus proyectos. Nuestro objetivo es ofrecerte siempre la mayor disponibilidad en el servicio y para ello utilizamos múltiples estrategias.

Monitorización

Nuestro sistema de monitorización es uno de los sistemas principales de Clouding. Tenemos configurados decenas de miles de monitores, que controlan constantemente el estado de todos los equipos e infraestructura.

Esto nos permite anticiparnos a cualquier problema antes de que afecte al servicio y monitorizar muy de cerca todo el rendimiento de la plataforma.

Sería extremadamente largo detallar todos los tipos de monitores que utilizamos, pero algunos ejemplos que pueden ayudarte a hacerte una idea del nivel de monitorización serían:

Sistema eléctrico
- Consumo eléctrico por armario
- Estado y consumo de las 2 tomas eléctricas de cada armario (A y B)
- Estado y consumo de las 2 fuentes de alimentación de cada equipo
Red
- Estado de todos los puertos de red (En Switches y Equipos)
- Errores CRC en puertos de Switch y tarjetas de red
- Nivel de carga de cada puerto de red
- Carga de cada proveedor de acceso a internet
- Tiempo de respuesta de cada proveedor desde diferentes puntos internacionales
CPU
- Nivel de carga de cada Core físico
- Interrupciones de hardware por segundo en cada Core físico
- Tiempo de espera en cada Core físico
- Cambios de contexto por Core por segundo
Memoria
- Porcentaje de uso de memoria de todos los equipos
- Estado de fragmentación de memoria de todos los equipos
- Errores de single bit corregidos por el sistema ECC
- Nivel de Swap utilizado (Debe ser siempre 0)
- Estado de balanceo NUMA
Disco
- Tiempos de respuesta de disco
- Porcentaje de carga de acceso a disco
- Capacidad utilizada por disco
- Nivel de wearing de discos de estado sólido
- Errores de sector en disco rotacionales (en caso de detectarse un error se reemplaza el disco preventivamente)
Temperatura
- Múltiples sensores de temperatura por equipo (CPU, Discos, Chipset, etc.)
- Revoluciones por Minuto de cada ventilador

Estos y otros monitores reportan continuamente a los técnicos de guardia de Clouding, que son los encargados de mantener la plataforma siempre funcionando y con el mejor rendimiento. Nuestro sistema de monitorización reporta por E-Mail, SMS e incluso llamadas telefónicas para asegurarnos de que una alerta importante nunca se traspapela entre alertas de menor importancia o urgencia.

Hypervisores y discos separados

Esta es quizás la principal característica de nuestra plataforma. En Clouding tenemos separado el almacenamiento de los Servidores Cloud, de los equipos en los que se ejecutan.

La gran ventaja de este sistema, frente a utilizar un RAID local tradicional, es que en el caso de un fallo de hardware en un Hypervisor, los Servidores Cloud alojados en el mismo, pueden volverse a iniciar de inmediato en otro Hypervisor diferente.

Esto hace que podamos recuperar un error de hardware en un hypervisor en minutos, en lugar de en varias horas como ocurriría utilizando un RAID local.

Triple Réplica

Aunque tengamos discos y hypervisores separados, eso no serviría de nada si no dispusiéramos de una infraestructura de almacenamiento capaz de asegurar que los datos siempre estarán disponibles.

En Clouding utilizamos un cluster de almacenamiento en alta disponibilidad, capaz de garantizar que tus datos siempre estarán disponibles.

Puedes ver toda la información sobre nuestro sistema de Triple Réplica aquí.

Plataforma 100% redundada

Para ofrecerte la más alta disponibilidad, es muy importante que un fallo en cualquier parte de la misma no pueda afectar al servicio. Es por ello, que todos los sistemas que conforman la plataforma de Clouding están redundados.

Gracias a la redundancia, aunque ocurran errores en algún sistema no afectarán al servicio que te prestamos.

Puedes ver toda la información sobre la redundancia de nuestra plataforma aquí.

Artículos en esta sección

Monitorización

Hypervisores y discos separados

Triple Réplica

Plataforma 100% redundada

Artículos relacionados