La numérisation du son : Comment ça marche ?

Le numérique nous entoure.
Facile à stocker, facile à copier, offrant des possibilités d’exploitation et de traitement beaucoup plus importantes que l’analogique, le numérique a su se rendre indispensable, et ce dans tous les domaines.

Mais comment fait-t-on pour numériser un son ?

LA CONVERSION ANALOGIQUE/NUMERIQUE

On utilise pour ce faire, un convertisseur analogique/numérique (CAN).

Deux paramètres vont régir la numérisation du son, au sein de ce convertisseur :

  • L’échantillonnage : définition temporelle
  • La quantification : définition d’amplitude

 

Selon la méthode PCM (Pulse Coded Modulation/Modulation d’impulsion codée), qui est le standard en audionumérique (ainsi qu’en téléphonie), on va relever à intervalles réguliers la valeur de l’amplitude de la forme d’onde et coder cette valeur en langage binaire.

En rouge la forme d'onde analogique, en noir sa représentation numérique. On remarque que l'amplitude ne peut prendre qu'un nombre de valeurs fini. (Dans cet exemple, 16)

La fréquence d’échantillonnage détermine le nombre d’analyses par seconde. Plus elle est élevée, plus la définition temporelle sera bonne, et plus le résultat sera fidèle à l’onde de départ.

Plus la fréquence d'échantillonnage est grande, plus on se rapproche de la forme d'onde originale

Selon le théorème de Nyquist-Shannon, pour qu’il n’y ait pas de perte flagrante, la fréquence d’échantillonnage doit être au moins deux fois plus élevée que la fréquence maximale contenue dans le son à numériser.
Sachant que la bande passante de l’oreille monte jusqu’à environ 20000 Hz, il faut que la fréquence d’échantillonnage soit d’au moins 40000Hz pour avoir un résultat correct.

L’amplitude relevée à chaque étape va être codée en binaire sur un certain nombre de bits : 8, 16, 24, 32… C’est la quantification.
Là encore, plus le nombre de bits va être élevé, plus la valeur numérique de l’amplitude sera proche de la valeur originale.
En effet,

  • sur 8 bits on a 2^8 niveaux de quantification, soit 256 niveaux possibles.
  • sur 16 bits on a 2^16 niveaux de quantification, soit 65536 niveaux possibles.
  • sur 24 bits on a 2^24 niveaux de quantification, soit plus de 16 millions de niveaux possibles.

Lorsque la valeur réelle d’amplitude de l’onde est comprise entre 2 niveaux de quantification (ce qui est quasiment toujours le cas), on choisira le niveau dont la valeur est la plus proche. On a donc une approximation qui engendre une erreur de quantification. Cette erreur a une valeur maximale de q/2 avec q la valeur d’amplitude entre deux niveaux de quantification (pas de quantification).
Donc, plus on a de niveaux, plus cette erreur sera réduite.

De la même manière, plus on code sur un nombre de bits élevé, plus la dynamique de notre signal numérique sera importante.
La dynamique théorique est donnée approximativement par le nombre de bits multiplié par 6. Soit 96dB pour du 16 bits, et 144dB pour du 24 bits.

A la diffusion, on utilise une convertisseur numérique/analogique (CNA) sous le même principe, mais inversé.

Parmi les constructeurs de CAN et CNA, les plus réputés sont Apogee, SSL, RME ou encore Drawmer.

Lissage de la forme d’onde numérique

Nous sommes donc passé d’un signal continu (analogique) à un signal discontinu (numérique). Il est possible de lisser la courbe qu’on obtient à l’aide d’un filtre passe-bas dont la fréquence de coupure est supérieure à 20kHz.

 

Les standards

  • CD : Fréquence d’échantillonnage 44,1 kHz sur 16 bits
  • DVD/SACD :  De 96 kHz à 192 kHz sur 16 ou 24 bits
  • Enregistreurs numériques professionnels et grand public (DAT, Minidisc) : 48kHz sur 16bits

 

Un mot sur la technologie DSD.

C’est une technique remplaçant la méthode PCM, notamment pour le SACD (Super Audio CD)
Le DSD (Direct Stream Digital) exploite des convertisseurs à suréchantillonnage (convertisseurs delta-sigma). Ceux-ci ont une fréquence d’échantillonnage beaucoup plus élevée que pour un convertisseur normal (2,8 Mhz) et codent sur 1 seul bit.
On a alors une représentation numérique dite en PDM (Pulse Density Modulation) qui donne la densité de pulsation de l’onde sonore.

Cette méthode donne une représentation numérique relativement proche de l’analogique. Par rapport au PCM, on obtient avec le DSD une gamme de fréquences beaucoup plus élevée (jusqu’à 100kHz), ainsi qu’une plage dynamique également plus grande (jusqu’à 120dB).

 

LES INTERFACES DE LIAISONS NUMÉRIQUES

 

Le Word-Clock

Tous les appareils numériques travaillant ensembles doivent être asservis au même word-clock.
Le word-clock est un signal carré à la même fréquence que la fréquence d’échantillonnage utilisée, ou à un multiple de cette fréquence. C’est l’horloge qui va ponctuer les opérations, et elle doit être très stable. Dans la plupart des cas, le word-clock est inclus dans le signal numérique. Si ce n’est pas le cas, il faut utiliser un générateur de word-clock externe. Le word-clock est alors disponible en In et Out sur les appareils en connecteurs BNC.

Si les appareils ne sont pas synchronisés, cela occasionne des anomalies tels des distorsions, des déformations de la courbe ou des clics numériques, extrêmement gênants lors de l’exploitation du son.

Lorsque plusieurs appareils sont reliés entre eux, il faut définir quel est l’appareil émetteur de word-clock (master/maitre). Tous les autres appareils seront donc en mode réception (slave/esclave). Les appareils sont reliés en série et forment une boucle (le dernier appareil de la chaine est lui-même connecté au premier (maitre). Il est logique de choisir l’appareil de plus haute qualité comme maitre car il aura certainement l’horloge la plus précise et la plus stable.

Exemple de générateur de word-clock externe : l'Apogee Big Ben

 

Les liaisons numériques

  • Le SP/DIF (Sony Phillips Digital InterFace) : C’est une liaison essentiellement grand public 2 canaux sur connecteurs Cinch/RCA, TosLink ou mini-jack optique. Niveau : -10dBu. Le word-clock est inclus dans le signal.
  • Le SDIF (Sony Digital InterFace) : 1 canal par liaison, WC non inclus, connectique BNC.
  • L’AES/EBU (Audio Engineering Society/European Broadcasting Union) : Liaison Pro, symétrique, +4dBu, 2 canaux par liaisons sur connecteurs XLR, WC inclus.
  • L’ADAT (Alesis Digital Audio Tape) : 8 canaux sur liaison optique, WC inclus
  • Le TDIF (Tascam Digital InterFace) : 8 canaux sur connecteur Sub-D 25 broches, WC inclus.
  • Le MADI (Multichannel Audio Digital Interface) : Version multipiste de l’AES/EBU permet de transporter jusqu’à 64 canaux sur câble coaxial ou liaison optique.

 

AVANTAGES ET INCONVÉNIENTS DU NUMÉRIQUE

 

  • Le numérique est facile à stocker : Sur un disque dur on peut stocker l’équivalent de milliers de bandes analogiques. Le gain de place est conséquent et l’accès à l’information grandement facilité.
  • La reproduction est aisée et ne détériore pas le signal, même après un grand nombre de copies.
  • On a en numérique un meilleur rapport signal/bruit qu’en analogique : le numérique est insensible au bruit de fond et aux parasites électriques ou mécaniques.
  • Les possibilités de traitement du son sont multipliées. On peut travailler et façonner le son à l’extrême.
  • Par contre, on a forcément une perte d’informations lors du passage au numérique, surtout dans le haut du spectre.
  • Le traitement numérique est plus lent et plus gourmand en ressources matérielles que le traitement en analogique.

 

Bonne lecture, et n’hésitez pas si vous avez des questions ou des remarques !