Propriedades da matriz

Uma propriedade-chave de uma matriz não distribuída é que algumas unidades dentro da matriz são designadas como "unidades sobressalentes". Em uma configuração de matriz não distribuída, as unidades sobressalentes são usadas somente quando outras unidades na matriz falham.

Uma matriz não distribuída pode conter 2 - 16 unidades; várias matrizes criam a capacidade para um conjunto. Para redundância, unidades sobressalentes ("hot spares") são alocadas para assumir operações de leitura/gravação se alguma das outras unidades falhar. No restante do tempo, as unidades sobressalentes ficam inativas e não processam solicitações para o sistema. Quando uma unidade do membro falha na matriz, os dados podem ser recuperados apenas na sobressalente com a mesma rapidez com que essa unidade pode gravar os dados. Devido a esse gargalo, a reconstrução dos dados pode levar muitas horas enquanto o sistema tenta balancear o host e reconstruir a carga de trabalho. Consequentemente, a carga nas unidades restantes do membro pode aumentar significativamente. A latência de E/S na matriz de reconstrução é afetada durante todo esse tempo. Como dados de volume são divididos nos MDisks, todos os volumes são afetados durante o tempo que leva para reconstruir a unidade.

Exemplos de uma matriz

Figura 1 mostra um exemplo de uma matriz que está configurada com RAID nível 6. Essa matriz contém 5 unidades ativas e 2 unidades sobressalentes.
  •  1  Uma unidade ativa
  •  2  Unidades sobressalentes; ambas as unidades estão inativas
  •  3  Faixa de dados
  •  4  Largura da faixa, que é igual à largura da matriz; somente a unidades ativas são incluídas na largura da faixa
Figura 1. Matriz não distribuída (nível do RAID 6)
Esta figura mostra um exemplo de uma matriz não distribuída com uma configuração de nível de RAID 6; todas as unidades estão ativas.
A Figura 2 mostra uma matriz que contém uma unidade com falha. Os dados são lidos a partir de todas as unidades ativas restantes. Todos os dados recuperados são, então, gravados em 1 das unidades sobressalentes. A outra unidade sobressalente permanece não utilizada e inativa durante esse processo.
  •  1  Unidade com falha
  •  2  Unidades ativas remanescentes, a partir das quais os dados recuperados são lidos
  •  3  Dados recuperados são gravados em 1 unidade sobressalente
  •  4  Unidade sobressalente restante permanece não utilizada e inativa
Figura 2. Matriz não distribuída (nível do RAID 6) com uma unidade com falha
Essa figura mostra um exemplo de uma matriz não distribuída com uma configuração RAID nível 6. Uma unidade falhou.

Níveis suportados do RAID

O sistema suporta os seguintes níveis do RAID: RAID 0, RAID 1, RAID 5, RAID 6 e RAID 10.

RAID 0
Matrizes RAID 0 não têm redundância e não suportam controle hot spare.
RAID 1
O RAID 1 fornece espelhamento de disco, que duplica os dados entre duas unidades. Uma matriz RAID 1 é idêntica internamente a uma matriz RAID 10 de dois membros.
RAID 5
As matrizes RAID 5 distribuem dados nas unidades do membro com 1 faixa de paridade em cada faixa. As matrizes RAID 5 possuem redundância única com thin provisioning mais alto que matrizes RAID 10, mas com alguma penalidade de desempenho. As matrizes RAID 5 podem tolerar a falha de 1 unidade de membro.
RAID 6
As matrizes RAID 6 distribuem dados nas unidades de membro com 2 faixas de paridade em cada faixa. Uma matriz RAID 6 pode tolerar qualquer unidade de membro duas falhas simultâneas.
RAID 10
faixa de dados sobre matrizes RAID 10 pares espelhados de unidades. matrizes RAID 10 têm redundância único. Os pares espelhados reconstruir independentemente. Um membro de cada par pode estar em reconstrução ou ausente ao mesmo tempo. RAID 10 combina os recursos de RAID 0 e RAID 1.

Tabela 1 compara as características dos níveis de RAID.

Tabela 1. comparação de nível do RAID
Nível contagem de unidade (DC)1 matriz de capacidade aproximada Redundância2
RAID 0 1 – 8 DC * DS3 Nenhuma
RAID 1 2 DS 1
RAID 5 3 16 (DC – 1) * DS 1
RAID 6 5 – 16 Menor que (DC – 2) * DS 2
RAID 10 2 – 16, desforra (DC/2) * DS 14
  1. Na GUI de gerenciamento, você não pode criar matrizes de todos os tamanhos porque o tamanho depende de como as unidades forem configuradas.
  2. Redundância significa quantas falhas da unidade a matriz pode tolerar. Em alguns casos, uma matriz pode tolerar a falha de mais de uma unidade. Para obter detalhes, consulte Unidade falhas e redundância.
  3. DS significa que o tamanho da unidade.
  4. Entre 1 e MC/2.

Inicialização da matriz

Quando uma matriz for criada, os membros da matriz são sincronizadas entre si por um processo de inicialização de segundo plano. A matriz está disponível para a E/S durante esse processo. A inicialização não tem nenhum impacto na disponibilidade devido a falhas da unidade do membro.

Unidade falhas e redundância

Se uma matriz tiver a redundância necessária, uma unidade foi removida da matriz se ele falhar ou acesso a ele seja perdido. Se uma unidade sobressalente adequada estiver disponível, ele será levado para a matriz e a unidade, em seguida, inicia a sincronização.

Cada matriz tem um conjunto de objetivos que descrevem a localização preferencial e desempenho de cada membro da matriz. Se uma unidade falhar, uma sequência de falhas de unidade e controles hot spare poderão deixar uma matriz não balanceada; isto é, a matriz pode conter membros que não correspondem a esses objetivos. Quando as unidades apropriadas estão disponíveis, o sistema automaticamente reequilibra essas matrizes.

Rebalancear é conseguida utilizando troca simultânea, o que migra dados entre as unidades sem afetar a redundância.

É possível iniciar manualmente uma troca e os objetivos da matriz também podem ser atualizados para facilitar as mudanças na configuração.

unidade de proteção e objetivos

Cada membro da matriz é protegido por um conjunto de unidades sobressalentes que são correspondências válidas. Algumas dessas unidades sobressalentes são mais adequadas do que outras unidades sobressalentes. Por exemplo, algumas unidades sobressalentes podem comprometer o desempenho, a disponibilidade da matriz ou ambos. Uma unidade sobressalente ativa tem uma das características a seguir:
  • Uma correspondência exata de capacidade de objetivo do membro, desempenho e local.
  • Uma correspondência de desempenho; a unidade sobressalente possui uma capacidade que é igual ou maior e possui o mesmo desempenho ou melhor.
Uma boa unidade sobressalente também tem uma destas características:
  • Uma unidade com uma utilização de sobressalente.
  • Uma unidade antiga de troca concomitante que é destinada a se tornar uma unidade hot spare quando a troca é concluída.

Comandos na Matriz têm um atributo que é chamado spare_protection, que pode ser usado para especificar o número de bons sobressalentes para um membro da matriz. A matriz de atributos spare_protection_min é o mínimo da proteção sobressalente os membros da matriz.

O atributo de matriz spare_goal é o número de boas unidades sobressalentes que são necessárias para proteger cada membro da matriz. Este atributo é definido quando a matriz é criada e pode ser alterado com o comando charray.

Se o número de unidades sobressalentes adequadas pelas quais um membro da matriz é protegido incidir abaixo do objetivo sobressalente da matriz, você receberá um erro de evento 084300.

Configurações de Prioridade de Gravação Lenta

Quando um nível de matriz redundante estiver executando operações de E/S de leitura/gravação, o desempenho da matriz será limitado pelo desempenho da unidade do membro mais lenta. Quando as unidades executam processos ERP internos, se a rede SAS estiver instável ou se muito trabalho estiver sendo direcionado para a matriz, o desempenho para as unidades do membro poderá ser muito pior do que o normal. Nesta situação, as matrizes que oferecem redundância podem aceitar uma breve interrupção da redundância para evitar a gravação, ou leitura, a partir do componente lento. Gravações que são mapeadas para uma unidade com execução abaixo do ideal são confirmadas para outra cópia ou paridade e, em seguida, são concluídas com um status válido (supondo nenhuma outra falha). Quando a unidade do membro for recuperada, a redundância será restaurada por um processo de segundo plano de gravar as faixas que foram marcadas fora de sincronização enquanto o membro estava lento.

Esta técnica é controlada pela configuração do atributo slow_write_priority da matriz, que é padronizado para latency. Quando configurado como latency, a matriz tem permissão para ficar fora de sincronização em uma tentativa de suavizar o desempenho insatisfatório do membro. É possível usar o comando charray para mudar o atributo slow_write_priority para redundancy. Quando configurado para redundancy, não é permitido que a matriz fique fora de sincronização. No entanto, a matriz pode evitar a perda de desempenho de leitura retornando leituras para o componente lento a partir de caminhos redundantes.

Quando a matriz usa o modo latency ou tenta evitar ler um componente no modo redundancy, o sistema avalia a unidade regularmente para verificar quando ela se tornará uma parte confiável do sistema novamente. Se a unidade nunca oferecer bom desempenho ou causar um excesso de falhas de desempenho na matriz, o sistema falhará o hardware para evitar exposição contínua para a unidade com desempenho insatisfatório. O sistema falhará o hardware somente se não puder detectar outra explicação para o desempenho insuficiente da unidade.

Reconstrução Incremental Offline da Unidade

Quando uma unidade fica off-line em uma matriz RAID interna, o sistema tenta evitar a execução de um controle hot spare. Para um período de 60 segundos, a unidade marca onde ocorreram novas gravações. Se a unidade reaparecer online, ela concluirá uma "reconstrução incremental" dos locais em que as gravações ocorreram em vez de uma reconstrução integral do componente. Esta técnica ocorrerá independentemente da configuração slow_write_priority da matriz porque evitar um controle sobressalente é desejável manter a alta disponibilidade do sistema.

Substituição de unidade

Uma unidade com um LED de falha aceso indica que a unidade foi marcada como com falha e não está mais em uso pelo sistema. Quando o sistema detecta que tal unidade com falha foi substituída, ele reconfigura a unidade de substituição para ser uma unidade sobressalente. A unidade com falha que foi substituída é automaticamente removida da configuração. A nova unidade sobressalente é, então, usada para preencher os objetivos de associação da matriz do sistema.