Monitoramento de Dell EqualLogic e características de Storages

Conceitos básicos

Storage atualmente designa tanto o armazenamento de informações digitais processadas por computadores quanto o próprio dispositivo de armazenamento, também chamado de storage appliance.

Storage appliances são dispositivos especificamente criados para fornecer grandes quantidades de espaço de armazenamento, além de funcionalidades como disk mirroring (espelhamento, a replicação de volumes lógicos de disco em diferentes discos físicos em tempo real para garantir continuidade), data striping (distribuição de dados, a segmentação da informação por vários dispositivos para que um requisitante a obtenha mais rapidamente) e RAID, organizados em uma storage area network (SAN), network-attached storage (NAS) ou mesmo direct-attached storage (DAS).

RAID (ou Conjunto Redundante de Discos Independentes) é o mecanismo de armazenamento que reúne diversos discos físicos em uma unidade lógica para fins de redundância, segurança ou incremento de capacidade e desempenho.

Dentre os diversos níveis de RAID existentes, os principais são:

Raid 0 – Distribuição (ou divisão) de dados em discos paralelos. Com esse mecanismo é possível ler e gravar com muito mais velocidade, pois os discos são acessados ao mesmo tempo. Para a operação de gravação os dados são fatiados em pedaços e cada pedaço é gravado em um disco diferente ao mesmo tempo. Na operação de leitura, ocorre a mesma técnica, cada fatia do dado requerido é lido nos discos paralelamente;

Raid 1 – Espelhamento de dados em discos distintos. Nesta técnica, o conteúdo é replicado nos discos extras, ambos ficando exatamente iguais;

Raid 5 – Essa técnica é mais complexa e necessita no mínimo 3 discos. Esse mecanismo fatia os dados e grava em um ou mais discos, porém, além destas fatias de dados, são gravados também dados de paridade. Esses dados de paridade são para garantir a segurança caso algum disco falhe, possibilitando a reconstrução dos dados do disco que falhou. Desde 2012 a Dell recomenda não usar esta estrutura em qualquer configuração de arranjos de EqualLogic (informações sobre EqualLogic mais abaixo);

Raid 10 – Também conhecido como Raid 1 + 0, esse mecanismo é a junção das técnicas do Raid 1 com o Raid 0, ou seja, existem discos que distribuem os dados (Raid 0) e, após a divisão, os discos são espelhados (Raid 1).

Input/output operations per second (IOPS) é o número de operações por segundo que um disco consegue chegar, e serve como medidor de desempenho de leitura e escrita para caracterizar storages como hard disk drives (HDD), solid state drives (SSD), e storage area networks (SAN). 

Tipos de storage

Storage area network (SAN) é uma rede de armazenamento de dados cujos dispositivos são identificados pelo servidor como se fossem locais, funcionando em nível de leitura e escrita. Geralmente essa rede não é acessível por outros dispositivos em rede local (LAN).

SANs aumentam a utilização da capacidade de armazenamento, uma vez que múltiplos servidores utilizam uma gama de discos para esse mesmo fim, e são comumente usadas para acesso rápido a informações, como em servidores de e-mail, bases de dados e servidores de arquivos com alta requisição.

Network-attached storage (NAS) designa appliances (hardwares ou softwares com um propósito específico) que contêm um ou mais discos exclusivamente para armazenamento de informações de dispositivos em nível de arquivo, conectados a uma rede, organizados de maneira lógica, redundante ou em RAID.

O NAS não está limitado a redes locais. Há versões de equipamentos com recurso de acesso remoto pela nuvem, com segurança SSL (padrão global de segurança que criptografa a comunicação entre um servidor web e um navegador). Há também distribuições de código aberto que transformam um PC comum em um NAS, como o FreeNAS, Open Media Vault e o OpenFiler.

Direct-attached storage (DAS) é um armazenamento digital diretamente conectado a um computador, mas não a uma rede.

São os hard disk drives (HDD), solid state drives (SSD), discos ópticos, e drives externos. No DAS, assim como no NAS, pode-se aumentar a disponibilidade da informação através de RAID ou de clusterização (união de diversos dispositivos para que ajam como se fossem apenas um).

Tipos de disco

Introduzido pela IBM em 1956, o hard disk drive (HDD) é um dispositivo de storage que guarda e recupera informação usando um ou mais discos giratórios magnetizados. Um braço mecânico lê e escreve sobre os discos, acessando a informação de maneira aleatória. HDDs possuem memória não-volátil, mantendo a informação armazenada mesmo quando desligados.

Já o solid-state drive (SSD) não possui partes móveis, diferente do HDD ou do floppy. São mais resistentes a impactos físicos, silenciosos, têm tempo de acesso reduzido e menor latência.

Tipos de conexões

Serial ATA (SATA, ou Serial AT Attachment) é um barramento em série que conecta os adaptadores do host a dispositivos de storage como HDDs, discos ópticos e SSDs. É a evolução do ATA, uma vez que tem sete condutores na conexão ao invés de 40 ou 80, hot swapping de fábrica (possibilidade da troca de storages defeituosos com a máquina/servidor funcionando e sem perda de dados), transferência mais rápida e mais eficiente graças a um protocolo de input/output mais eficiente.

O padrão SCSI (Small Computer System Interface) define comandos e protocolos para a conexão em paralelo entre computadores e storages. Foi padronizado em 1986 originalmente para barramentos em paralelo, mas atualmente está adaptado para uso com Fibre Channel, iSCSI, Serial Attached SCSI, e outras camadas de transferência.

Serial Attached SCSI (SAS), assim como o SCSI, é um protocolo que faz a conexão entre computadores e storages, porém em série. Os benefícios incluem taxas de transmissão mais altas, cabeamento simplificado, alcance maior, melhor identificação de defeitos e reduzido consumo de energia. Como este protocolo permite a entrega de frames SATA via conexões de infraestrutura SAS, os conectores em comum entre drive e cabo garantem o plug and play entre SAS e SATA.

O protocolo iSCSI (Internet Small Computer Systems Interface) é responsável por conectar storages via rede. Permite acesso de leitura e escrita a dispositivos de storage ao transferir comandos SCSI por uma rede TCP/IP (LANs, WANs ou a internet).

O iSCSI é usado para transferir informações via intranet e administrar storages remotos como se fossem discos SCSI locais. Dessa forma, o iSCSI usa um barramento local de alto desempenho e o replica em rede, criando uma área de storage em rede (SAN), porém sem cabeamento dedicado como alguns protocolos SAN, uma vez que pode ser usada a própria infraestrutura de rede. Contudo, se a rede não for dedicada pode haver competição pela largura de banda, diminuindo o desempenho.

O exemplo do Dell EqualLogic

EqualLogic era uma empresa independente que foi comprada pela Dell em 2008. Seus produtos são voltados para storage em rede (SAN) baseados no protocolo iSCSI.

Dentro de cada série de produtos Dell EqualLogic há diversas opções de tipos e tamanhos de hard disk drives ou solid-state drives. O EqualLogic têm opções que combinam o HDD e o SSD no mesmo chassi e migram automaticamente as informações mais acessadas para os SSDs.

Arranjos EqualLogic (arrays) podem ser montados em grupos de 16. Grupos podem incluir diferentes gerações de hardware e tipos de RAID. Cada arranjo possui dois controllers, oferecendo redundância e load-balancing (balanceamento da carga de informações no servidor entre dispositivos). Com as combinações possíveis, pode-se obter capacidades de storage muito elevadas, acima de 1,5 petabytes. Arranjos podem ser segmentados em pools, e estes em volumes, expostos em uma rede SAN e usados por hosts, máquinas virtuais ou outros computadores.

Como monitorar um storage Dell EqualLogic

Abra a Unit Platform e acesse Multisite Monitoring > Gerenciamento de rede > Discovery:

  1. Digite o endereço ou conjunto de IPs para serem verificados (por padrão o discovery usa a opção de Rede local. Mude as opções de empresa e site, caso necessário)
  2. Caso não tenha criado as credenciais SNMP adequadas a seu equipamento, clique em Gerenciar credenciais e crie; Selecione a(s) credencial(is) adequada(s);
  3. Clique em Executar discovery.

Imagem 1 – Executar discovery

Após algum tempo, todos os serviços identificados pelo sistema serão listados. Você poderá selecionar aqueles que preferir. Uma vez definidos os itens, basta clicar em Salvar no fim da página, conforme imagem 2.

Imagem 2 – Resultado do discovery

Opções de monitoramento

A tabela abaixo lista todas as opções de monitoramento de storages EqualLogic disponíveis na Unit Platform, bem como as principais razões para monitorar:

PluginPor que monitorar?
EqualLogic - Estado da bateria da controladoraO equipamento conta com baterias que mantêm as operações de disco durante uma falha de energia, evitando que o sistema se desligue sem completar as operações de disco. Saber se está OK pode ser decisivo contra catástrofes, sendo um dos itens a serem revisados na manutenção preventiva.
EqualLogic - Conexões ISCSIAs conexões são limitadas, dependendo do modelo. Saber quantas estão ativas permite evitar problemas de sobrecarga e auxiliar no diagnóstico de problemas de conectividade.
EqualLogic - Estado da controladoraAs controladoras são conhecidas como SP (Storage Processor) e são o coração do equipamento. Todo modelo vem equipado com SPs redundantes, ou seja, que mantém o sistema funcionando no caso de falha de uma delas.
EqualLogic - Estado do discoInternamente, a storage controla os discos independentemente e automatiza tarefas de distribuição de dados, transição de volumes, reconstrução de RAID dentre outras tarefas. Cada disco pode acabar assumindo um estado que pode (ou não) apontar um problema e a necessidade de substituição.
EqualLogic - Estado e RPMs da fanAs fans, também conhecidas como "coolers" são os elementos de ventilação que faz parte do sistema de resfriamento da storage. Você pode saber se eles estão falhando ou parados, podendo assim antecipar ações antes de um eventual sobreaquecimento.
EqualLogic - Saúde geralEsse indicador é um estado geral dado pela própria storage, por critérios do fabricante. É uma forma bastante genérica de monitoramento baseada em estados globais, como "OK" e "WARNING".
EqualLogic - Alertas de saúdeO monitoramento lista quais dos alertas internos do equipamento foram disparados. O equipamento pode fornecer informações, por exemplo, de componentes do sistema que foram removidos, se há uma fonte de energia com erro ou faltando, entre vários outros. É um item importante para ser monitorado.
EqualLogic - Serial e informações geraisPermite saber o modelo, número de discos, controladoras e o serial do equipamento:
Ex.: "PS4100-02, model: 70-0120, no. of controllers: 2, no. of disks: 15, serial: SHU0000000A1000"
EqualLogic - Contador de I/O por segundoÉ possível acompanhar o crescimento do número de operações de I/O do equipamento, um indicador chave no dimensionamento do fluxo de dados que seu ambiente possui.
EqualLogic – LatênciaEste indicador, aliado a outros indicadores de carga como o número de conexões ISCSI, permite avaliar o nível de carga em que o equipamento se encontra. É a medida do tempo médio que a storage está levando para completar suas operações. Altas latências estão associadas à lentidão dos sistemas que usam o equipamento para acessar seus dados. Monitorando a latência é possível prever quando é necessária uma readequação no seu ambiente.
EqualLogic - Uso de disco do membroEm uma abordagem mais simples, é o total de espaço utilizado dos discos do equipamento.
Este espaço é usado para as LUNs (ex.: áreas de armazenamento que são disponibilizadas para VMs como espaço "disponível"), snapshots e outras operações internas do equipamento.
Acompanhar este valor é crucial para poder evitar a falta de espaço em disco e planejar o dimensionamento do ambiente.
EqualLogic - Estado do sistema de energiaCada controladora (SP) possui duas fontes de energia redundantes. Você pode monitorar o estado de cada uma delas.
EqualLogic - Uso da reserva de snapshot do volumeEste monitoramento é importante em qualquer ambiente, mas principalmente para ambientes onde há alta utilização de snapshots (cópias) dos volumes. Como parte do volume total dos discos é reservado para essas operações, você poderá enfrentar falhas ao tentar criar novos snapshots quando houver diminuição excessiva, dependendo da configuração do equipamento.
EqualLogic – TemperaturaVocê pode monitorar a temperatura de cada um dos vários sensores de existentes no equipamento. Qualquer variação drástica nessas medições pode indicar uma falha de hardware grave, ou talvez um problema com o ambiente onde o equipamento está.
Temperaturas muito baixas podem causar condensação de umidade que levam à deterioração e, em casos mais extremos, aos temidos curtos-circuitos internos.
Temperaturas altas demais podem levar a falhas operacionais, diminuição da vida útil dos componentes, queima de componentes, entre outros riscos.
EqualLogic - Uso de disco do volumeÉ o espaço total utilizado por volumes disponibilizados pelo GroupArray (grupo de storages interconectadas entre si). Como a arquitetura dos equipamentos EqualLogic é de matriz, todas as storages conectadas passam a ser vistas como uma. Isso permite que volumes sejam disponibilizados para os ambientes de forma centralizada, mas distribuída entre várias storages.
Este é um monitoramento útil, pois trata justamente do espaço disponibilizado para as aplicações.
EqualLogic - Estado do volumeO monitoramento do estado do volume mostra eventuais problemas que estão ocorrendo com o sistema de armazenamento. É capaz de mostrar se há blocos de dados que foram perdidos devido a falhas de discos individuais, ou se o volume está próximo de entrar em estado de falha total.
Sua importância é relevante para estar sempre ciente da saúde dos volumes usados pelo ambiente e agir em correções antes que hajam perdas irreversíveis.
EqualLogic - Estado do sensor de temperaturaJuntamente com o monitoramento da temperatura, este monitoramento verifica se cada sensor interno está dentro dos limites considerados adequados pelo fabricante.
A temperatura é comparada aos thresholds do próprio sistema e acusa quando estão fora da normalidade.