Planejando configurações de matriz

Ao planejar sua rede, deve-se considerar o tipo de configuração RAID usada. Storwize V3700 suporta uma configuração de matriz não distribuída ou de matriz distribuída.

Matriz

Uma matriz não distribuída pode conter 2 - 16 unidades; várias matrizes criam a capacidade para um conjunto. Para redundância, unidades sobressalentes ("hot spares") são alocadas para assumir operações de leitura/gravação se alguma das outras unidades falhar. No restante do tempo, as unidades sobressalentes ficam inativas e não processam solicitações para o sistema. Quando uma unidade do membro falha na matriz, os dados podem ser recuperados apenas na sobressalente com a mesma rapidez com que essa unidade pode gravar os dados. Devido a esse gargalo, a reconstrução dos dados pode levar muitas horas enquanto o sistema tenta balancear o host e reconstruir a carga de trabalho. Consequentemente, a carga nas unidades restantes do membro pode aumentar significativamente. A latência de E/S na matriz de reconstrução é afetada durante todo esse tempo. Como dados de volume são divididos nos MDisks, todos os volumes são afetados durante o tempo que leva para reconstruir a unidade.

Matriz distribuída

Matrizes RAID distribuídas resolvem esses problemas, porque as áreas de reconstrução são distribuídas entre todas as unidades na matriz. A carga de trabalho de gravação da reconstrução se dispersa entre todas as unidades em vez de em uma única unidade sobressalente, o que resulta em reconstruções mais rápidas em uma matriz. As configurações de matrizes distribuídas poderão conter entre 4 - 128 unidades. Matizes distribuídas acabam com a necessidade de unidades separadas que ficam inativas até ocorrer uma falha. Ao invés de alocar uma ou mais unidades como sobressalentes, a capacidade sobressalente é distribuída sobre áreas de reconstrução específicas em todas as unidades do membro. Os dados podem ser copiados com mais agilidade para a área de reconstrução e a redundância é restaurada com muito mais agilidade. Além disso, à medida que a reconstrução progride, o desempenho do conjunto é mais uniforme porque todas as unidades disponíveis são usadas para cada extensão de volume. Após a substituição da unidade com falha, os dados são copiados de volta para a unidade da capacidade sobressalente distribuída. Diferentemente de unidades "hot spares", solicitações de leitura/gravação são processadas em outras partes da unidade que não estão sendo usadas como áreas de reconstrução. O número de áreas de reconstrução é baseado na largura da matriz. O tamanho da área de reconstrução determina quantas vezes a matriz distribuída pode recuperar unidades com falha sem arriscar tornar-se degradada. Por exemplo, uma matriz distribuída que usa unidades RAID 6 pode manipular duas falhas simultâneas. Após as unidades com falha terem sido reconstruídas, a matriz pode tolerar falhas de outras duas unidades. Se todas as áreas de reconstrução forem usadas para recuperar dados, a matriz se tornará degradada na próxima falha de unidade.

O conceito de RAID distribuída é distribuir uma matriz com largura W por meio de um conjunto de unidades X. Por exemplo, você pode ter uma matriz 2+P RAID-5 que é distribuída entre um conjunto de 40 unidades. O tipo de matriz e largura definem o nível de redundância. No exemplo anterior, há uma sobrecarga de capacidade de 33% para a paridade. Se um avanço de matriz precisar ser reconstruído, duas faixas de componente deverão ser lidas para reconstruir os dados para o terceiro componente. O tamanho do conjunto define quantas unidades são usadas pela matriz distribuída. É evidentemente um requisito que o desempenho e a escalação de capacidade utilizável de acordo com o número de unidades no conjunto. O outro recurso-chave de uma matriz distribuída é que, em vez de ter um hot spare, a configuração inclui faixas sobressalentes que também são distribuídas entre o conjunto de unidades. Os dados e sobressalentes são distribuídos de forma que se uma unidade no conjunto falhar, a redundância pode ser restaurada por meio da reconstrução dos dados nas faixas sobressalentes a uma taxa muito maior que a taxa de um único componente.

Matrizes distribuídas são usadas para criar discos gerenciados internos de larga escala. Elas podem gerenciar 4 – 128 unidades e contêm suas próprias áreas de reconstrução para executar recuperação de erro quando as unidades falham. Como resultado, os tempos de reconstrução são drasticamente reduzidos, o que diminui a exposição que os volumes têm à carga extra da recuperação de redundância. Como a capacidade destes discos gerenciados é potencialmente tão grande, quando eles são configurados no sistema, os limites gerais mudam para permitir que eles sejam virtualizados. Para cada matriz distribuída, o espaço para 16 alocações de extensões do MDisk é reservado e, portanto, 15 outras identidades de MDisk são removidas do conjunto geral de 4096. As matrizes distribuídas também têm como objetivo fornecer um nível de desempenho uniforme. Uma matriz distribuída pode conter várias classes de unidades se as unidades forem semelhantes (por exemplo, as unidades têm os mesmos atributos, mas as capacidades são maiores) para atingir esse desempenho. Todas as unidades em uma matriz distribuída deve vir do mesmo grupo de E/S para manter um modelo de configuração simples.

Os principais benefícios de uma matriz distribuída são:
  • Tempos de reconstrução mais rápidos com menos impacto para a E/S do host.
  • Mais flexibilidade do usuário na definição de quantas unidades são usadas por uma matriz (por exemplo, um usuário pode criar 9+P matrizes com 24 unidades sem ter quatro unidades deixadas sem uso).
  • Reconstruir áreas significa que não há nenhum eixo inativo no sistema e, assim, o desempenho melhora levemente.

Uma desvantagem de uma matriz distribuída é que a redundância da matriz está cobrindo um número maior de componentes. Portanto, o tempo médio entre falhas (MTBF) é reduzido. Tempos de reconstrução mais rápidos melhoram o MTBF; no entanto, ainda há limites no quão amplamente distribuída uma matriz pode ser antes que o MTBF se torne inaceitável.