Raid théorie

lundi 29 juin 2009
par  Jerome ROBERT
popularité : 10%

Auteurs : Amélie VANBOCKSTAEL et Olivier ROLAND

Quelle est la signification du terme RAID’

 
 

RAID est un acronyme qui signifie "Redundant Array of Inexpensive (or Independent) Disks"
soit un Réseau Redondant de Disques bons marchés. Ceci est la définition historique, le terme "bon marché" étant utilisé en référence au
système de sauvegarde de l’époque, de la taille d’une armoire et valant jusqu’à plusieurs centaines de milliers de francs. De nos jours, "inexpensive"
est souvent remplacé par "independant".
 
 

La définition officielle de RAID est la suivante :

Une matrice de disques dans laquelle une partie de la capacité physique est utilisée pour y stocker de l’information redondante concernant les données d’utilisateurs. Cette information redondante permet la régénération des données d’utilisateurs perdues lorsqu’une unité ou un chemin de données à l’intérieur d’une matrice est défaillant.

<A
name=_Toc473994772>Un peu
d’histoire.

 
 

Le principe de la technologie RAID a été établi en 1987 par trois chercheurs de l’université de Berkeley. Ce principe existait déjà bien avant
RAID avec la technique bien connue du Mirroring qui était utilisée par les fabriquants de serveurs.
 
 

Quels sont les objectifs’

Raid a été développé pour permettre d’augmenter les capacités limitées des disques durs, pour améliorer les
performances et pour augmenter la fiabilité en apportant la tolérance de panne.

Quel est le principe de la technologie RAID’
 
 

Un système RAID organise les données parmi plusieurs disques durs et utilise un processus de correction d’erreurs afin d’assurer la fiabilité des archives.

Le système d’exploitation voit la matrice de disques comme étant un seul disque.

Il y a cinq types de RAID reconnus de RAID 1 à RAID 5. Ces classifications sont basées sur la division des données et sur les informations de corrections d’erreurs utilisées. De plus, le dépouillage des données sans redondance est communément dénommé RAID 0.

  • Augmenter la capacité : RAID permet de mettre "bout à bout" des disques durs, ce qui permet d’accroître la taille du volume.
  • Améliorer les performances : Les données sont écrites sur plusieurs disques à la fois. Ainsi, chacun des disques n’a qu’une partie des données à inscrire.
  • Apporter la tolérance de panne : Certaines configurations RAID permettent de se prémunir contre les défaillances d’un disque. Cette fonctionnalité est très importante, car sinon, la panne d’un seul des disques d’un ensemble RAID entraîne la perte des données de tous les disques. C’est d’ailleurs ce qui arrive au niveau de RAID 0.

<A
name=_Toc473998044>RAID 0 : sécurité 0
 
 

RAID 0 est un cas un peu à part puisqu’il n’y a pas de redondance du tout.

RAID 0 n’est d’ailleurs pas, en général, considéré comme une solution RAID.

Le principe est de répartir les données à sauvegarder sur plusieurs disques.

L’écriture et la lecture de données se faisant alors à une vitesse record puisqu’on agit en parallèle sur toutes les unités. (dans la mesure ou les limites du contrôleur SCSI ne sont pas atteintes !)

Bien sûr si une seule unité est défaillante, toutes les données sont perdues !
 
 
 


 
 
 
 
 

Avantages :

  • Pas de redondance donc on utilise réellement toute la capacité des disques
  • 2 disques suffisent
  • La mise bout a bout des disques est transparente pour le système

Inconvénients :

  • Risque accru de pertes de données.
  • Pas de Hot-Plug

Applications :

  • Toute application nécessitant une vitesse d’enregistrement très élevée.
  • Photoshop étant l’application type

<FONT
size=+1>RAID 1 : La sécurité : le mode miroir

 
 

Ce niveau de RAID accroît la sécurité des données en les dupliquant sur un deuxième disque. Si un des disques tombe en panne, l’autre
théoriquement identique servira de secours : Les données sont écrites de façon redondante et en même temps sur deux disques en miroir afin de préserver les
données en cas de panne physique, en ayant la possibilité d’utiliser pour cela des disques d’architectures différentes (nombre de cylindres et de têtes).
Cette technique est utilisée depuis les années 60, et elle est souvent appelée " disk mirroring " ou " dual copy " ou " disk shadowing ". Deux contrôleurs de disques distincts peuvent être utilisés, on parle alors de duplexing.

MATRICE DE DISQUES ASYNCHRONES AVEC DISQUES MIRROIR :

Une matrice de RAID-1 est constituée d’une paire de disques mirrorés. Si une unité est défaillante, la matrice RAID-1 continue à fonctionner dans un mode dégradé. Comme les accès disque de lecture ne peuvent être effectués que
depuis une seule unité, la matrice devient légèrement plus lente. Les données sont reconstituées par une procédure de copie déclenchée après l’installation
d’un disque de remplacement.

Ecriture :

La performance en écriture sur disque
est variable en RAID 1 piloté par un logiciel, une carte contrôleur ou un contrôleur hardware. Les opérations d’écriture sont plus rapides qu’en RAID-5.

Lecture :

Lors de la lecture, il est aussi possible d’accéder simultanément aux 2 unités d’o๠une amélioration des performances en lecture.
 
 

 

Avantages :

 

    • L’architecture la plus rapide avec tolérance d’erreurs
    • Plus petite réduction de performance lors d’une défaillance d’une unité
    • Au minimum deux disques suffisent
    • Taux de duplication maximum
    • Hot-Swap possible
    • Hot-Spare possible

 

 



 

 

 

 



 

 

 

 

 

Inconvénients
 :

 

 

 

 

    • L’espace disque est doublé : 2 disques de 1 Go donnent 1 Go de capacité de stockage.
    • La capacité et le débit (sauf en lecture) ne sont pas augmentés.

 

 



 

 

 

 



 

 

 

 

 

Applications :

 

 

 

 

 

<FONT
size=+1>RAID 2 : anecdotique

 
 

Très peu répandu, cette technique utilise les codes de Hamming, un algorithme de calcul et de vérification des données qui permet de diminuer le
taux de redondance des informations.

Cette solution permet d’exploiter des disques durs dépourvus de tout dispositif de correction d’erreurs. Or tous les disques durs SCSI sont pourvus de tels systèmes, c’est pourquoi RAID 2 est toujours resté très confidentiel.
 
 
 
 



 
 
 
 

RAID 3 : lecture haute performance
 

 

Cette technique utilise plusieurs disques pour répartir les données à la manière RAID 0 et un disque supplémentaire pour stocker les bits de parités.

Si l’un des disques durs tombe en panne le disque dur qui contient les parités permet de reconstruire les données.

Le nombre des disques durs que l’on utilise avec RAID 3 n’est théoriquement pas limité, mais il faut bien voir que chaque écriture sur un des disques entraîne une écriture sur le disque de parité qui constitue ainsi rapidement le goulet d’étranglement du système.
 
 
 

 
 
 



 
 
 
 

 
 

Un système de disques RAID 4 ne présente qu’une différence de structure des données avec un RAID 3.

Un système RAID 4 est une matrice de plusieurs disques identiques asynchrones (entrelacement des données bloc par bloc sur l’ensemble des disques constitutifs de la pile considérée ), avec 1 seul disque de parité, mais les accès disques ne sont pas synchronisés.

En cas de défaillance d’un disque, le RAID continue de fonctionner, mais en mode dit "dégradé". Ces données permettent de reconstituer les données perdues
consécutivement à la défaillance de l’un des disques.

Les opérations de lecture/écriture se font en même temps sur les disques.
Les informations sont regroupées dans des segments de taille variable, d’un ou plusieurs secteurs. Cela permet d’assurer le traitement de demandes de lecture
de taille inférieure au segment en parallèle sur plusieurs disques physiques.

Lors d’écritures de taille inférieure à la taille des segments, le
contrôleur doit mettre à jour les données de parité. Cette opération nécessite entre autre une lecture de l’ancienne parité suivie de l’écriture de la
nouvelle
. Ces deux opérations impliquent un unique disque de parité mais le transforment en goulot d’étranglement et dégradent les performances
de la grappe Raid 4.
 
 
 
 

    • Ecriture :

En écriture, les données sont décomposées en blocs de petite taille et répartis
sur les différents disques composant le RAID 4. Simultanément, le contrôle de parité s’inscrit sur le disque dédié à cet effet.

    • Lecture :

 
 
 
 
 
 

 
 
 
 

    • Avantages :
    • Tolérance de panne et parité centralisée sur un disque dédié.
    • Parité : processus algorithmique permettant au système de reconstituer une donnée défectueuse ou manquante à partir de l’information de parité mémorisée au cours de l’écriture.
    • Un sous-système en RAID 4 présente un rapport capacité/ performance/ investissement intéressant.
    • Les performances en lecture des piles de disques de niveau RAID 4 sont excellentes (comparables à celles du niveau RAID 0).
    • Puisqu’il n’y a pas duplication des données, mais uniquement enregistrement des données de parité correspondantes, le coût par méga-octet d’une solution de niveau RAID mode 4 demeure raisonnable.
    • La capacité utile du volume RAID 4 est égale à la somme des capacités de tous les disques moins un disque (réservé pour la parité). Ex : 4 disques de 9 Go en RAID 4 = 36 Go bruts = 36 - 9 = 27 Go utiles.

 

 



 

 

 

 



 

 

 

 

 

Inconvénients :

 

 

 

 

    • La mise à jour des données de parité dégrade les performances de Raid 4. Pour cette raison, les matrices à parité distribuée sur l’ensemble des disques (RAID 5) sont toujours préférées aux systèmes RAID de niveau 4.

 

 



 

 

 

 



 

 

 

 

 

Applications :

 

 

 

 

 

 

RAID 5 : le plus astucieux

 
 

Il s’agit cette fois de découper les fichiers en paquets d’octets de la taille d’un cluster de disque dur, puis de répartir sur n disques (et non plus n-1 comme en RAID 3 ou 4).

Aucun disque dur n’est plus dédié au stockage des bits de parité, la tâche est partagée entre tous les disques. Ainsi le goulet d’étranglement de RAID 4 est éliminé.

RAID 5 est une solution très populaire et il existe de nombreuses implémentations sur le marché.
 
 
 
 


 
 
 
 

Avantages :

Inconvénients :

Applications :

 

 

Performances

En pratique, les RAID de type 1, 3 et 5 sont de
loin les plus implantés.
 

Le RAID 1 obtient les meilleures performances mais à cause de la redondance totale il est coûteux à implanter. Il est donc souvent limité à un
système RAID de petite capacité ou à un petit segment d’un système RAID plus complexe.

Le RAID 3 obtient les meilleures performances pour un environnement avec de nombreux transferts séquentiels. Il est aussi moins coûteux à implanter que le RAID 1 puisqu’un disque de parité peut supporter un grand nombre de lecteurs de données. Le système RAID 3 est commun pour le traitement d’images, et les applications vidéo et audio.

Le RAID 5 obtient les meilleures performances pour un environnement o๠les taux d’entrée /sortie sont élevés surtout avec des activités de lecture. Il est aussi moins coûteux à implanter que RAID 1 puisque l’information de parité peut être partagée parmi un grand nombre de lecteurs de données. Grâce à sa mémoire cache c’est le système RAID le plus implanté aujourd’hui.

    • Audio-Vidéo
    • Imagerie
    • Pré-presse
    • Toutes les applications pour lesquelles la performance et la sécurité sont critiques. Les capacités utiles peuvent être élevées.
    • Transferts de fichiers massivement séquentiels.
    • Bonne tolérance aux erreurs
    • Enormément d’implantations commerciales
    • Hot-spare
    • Hot-plug
    • 3 disques au minimum
    • En cas de problème, remise en ordre assez lente
    • Les applications qui utilisent les E/S de manière aléatoire sur de petits volumes
    • Typiquement les serveurs de bases de données
    • Comparaison entre les différents systèmes les plus implantés :
NIVEAU
AVANTAGES
INCONVENIENTS
RAID 1
Les meilleures performances
Espace disque pour redondance
RAID 3
Débit

Espace disque pour redondance

Performances en entrées-sorties
RAID 5
Entrées / Sorties

Espace disque pour redondance

Performances en écriture
 
    • Nécessité de Raid étant donné le taux de fiabilité sans cesse croissant des disques durs à l’heure actuelle’

 

 



 

 

 

 

Aujourd’hui, les ordinateurs mis en réseau sont de plus en plus utilisés pour des applications critiques de haute performance, donc la
disponibilité, la fiabilité des données et la performance des sous-systèmes sont plus importantes que jamais. En utilisant des éléments redondants, un système RAID permet une fiabilité des données extrêmement élevée.

 

 

 

 

Les fabricants de disques durs insistent pour dire que leurs disques possèdent une moyenne de temps de bon fonctionnement entre les défaillances
phénoménale cependant le taux annuel de défaillances est tout de même de 2%. Pour des applications cruciales, le coût différentiel d’un RAID est facilement justifiable afin de se protéger contre ces défaillances.

Puisqu’un système RAID utilise plusieurs pièces redondantes accessibles aux consommateurs et que le coût des disques durs continue de chuter dramatiquement, les administrateurs peuvent entretenir eux-mêmes les pièces de leur système RAID à un rapport qualité/prix inégalé.

 
 

 

Mise en ouvre d’un système RAID.

 
 

 

Il existe trois possibilités pour mettre en place un système de stockage RAID.

Le contrôle et la gestion du RAID peuvent être assurés par :

 



 

 

 

 



 

 

 

 

  • un logiciel
  • une carte et son driver
  • un contrôleur hardware intégré dans une tour

 

La solution logicielle est la moins onéreuse mais c’est aussi est de loin la plus lente.

 

La carte utilise dans une certaine mesure les ressources de l’ordinateur hôte et ses performances sont étroitement lié à la disponibilité de la machine.

La tour externe présente de nombreux avantages, totalement indépendante des ressources de l ’ordinateur ses performances sont optimales. De plus et c’est le
plus important le RAID reste disponible en cas de panne ou d’indisponibilité de l ’hôte. Cette solution est bien entendu la plus onéreuse.
 
 

 
 
 
 

RAID ne remplace pas les sauvegardes.
 
 

Il ne faut surtout pas "voir" la technologie RAID comme un système de sauvegarde, ce n’est pas du tout l’objectif des solutions RAID.

Une sauvegarde des données implique une réelle délocalisation des données pour parer à tout accident grave (incendie, inondation, sabotage)

RAID ne met pas à l’abri d’une erreur humaine. RAID ne protège pas d’un rm -rf fichier client malencontreux.

C’est pourquoi même un système "protégé" par RAID doit être sauvegardé régulièrement.
 
 

Conclusion.
 
 

RAID a su s’imposer sur le marché, les solutions RAID qu’elles soient logicielles ou matérielles sont devenues un standard incontournable.

De nouvelles solutions sont apparues, des solutions propriétaires qui présentent certes quelques avantages mais qui les font payer très cher aux utilisateurs.

D’une manière générale, les solutions RAID sont assez chères. Les principaux acteurs sur le marché jouent clairement sur la corde sensible qu’est la sécurité. Les discours sont souvent alarmistes et les clients potentiels pas toujours à même de se faire une idée claire des risques réels.

Ceci ne doit cependant pas nous faire oublier les atouts indéniables de RAID à savoir fiabilité et performance. De plus RAID bénéficie pleinement de la baisse constante des disques durs.

Tout ceci laisse à penser que la technologie RAID a de beaux jours devant elle.

Auteurs : Amélie VANBOCKSTAEL et Olivier ROLAND

 
 
 
 
 
 

 

 


Commentaires  Forum fermé

Navigation

Articles de la rubrique

Statistiques

Dernière mise à jour

mercredi 4 octobre 2023

Publication

273 Articles
Aucun album photo
Aucune brève
6 Sites Web
2 Auteurs

Visites

29 aujourd’hui
133 hier
827414 depuis le début
1 visiteur actuellement connecté