Tech

La croissance continue de l'audience de ses offres numériques a poussé France Télévisions à s'interroger sur l'intelligibilité des programmes consommés en mobilité. La grande variété des moyens d'écoute (oreillettes, casques audio, barres de son...) et la multiplication des occasions de suivre son programme favori en tout lieu, à tout moment, mettent au défi les productions et leurs ingénieur(e)s du son dans leur quête du meilleur équilibre. Grâce à la collaboration de France Télévisions Studio et la participation de plus de 500 volontaires, cette étude a permis d'évaluer l'intelligibilité des dialogues au milieu des musiques, ambiances et autres effets sonores... dans toutes les situations d'écoute possibles !

L’étude dont nous vous proposons les résultats a été publiée sur le site francetvlab.fr en août 2021.

Les volontaires ont été invités à décrire leurs matériels et conditions d'écoute. Chacun a ensuite écouté 13 courts extraits issus de deux programmes produits par France TV Studio : le documentaire "Ours, simplement sauvage" réalisé par Vincent Munier et Laurent Joffrion et le feuilleton quotidien de France 2 « Un Si Grand Soleil ».

Pour chaque extrait, une seule réponse était attendue parmi 3 :

- J'ai tout compris dès la première écoute.

- Je n'ai pas tout entendu à la première écoute.

- Ce n'était pas du tout intelligible à la première écoute.

En fonction de chaque réponse, l'extrait suivant présentait un rapport dialogues/ambiance différent, en faveur ou en défaveur de l'intelligibilité des dialogues, afin justement d'explorer les limites de la situation d'écoute du téléspectateur.

Méthodologie

Il faut tout d'abord comprendre rapidement le principe des LU ou Loudness Unit. Cette mesure d'énergie sonore est utilisée pour évaluer l'écart entre le niveau ressenti des dialogues d'une part et le niveau ressenti du reste des éléments sonores (ambiances, musiques, effets) d'autre part.

16 LU d'écart, qui correspond à la partie la plus à gauche du graphique (voir plus bas), signifie que le niveau sonore des dialogues surpasse de 16 décibels le niveau des ambiances, musiques et effets sonores réunis. Autrement dit, la prépondérance des dialogues est quasi absolue, le reste des éléments sonores est difficilement audible.

A l'inverse, tout à droite du graphique, 0 LU d'écart illustre les extraits ou le niveau des dialogues et le niveau des autres éléments sonores ont été mesurés comme équivalents. Dans ce contexte, il devient très difficile de comprendre ce qui se dit dans un programme.

Dans le cadre de l'étude, les 13 extraits choisis ont été déclinés en 39 versions, permettant d'explorer toutes les valeurs de rapports dialogues/ambiances entre 16 et 0 LU, du plus intelligible au moins intelligible.

Résultats

La couleur verte représente la part des téléspectateurs qui ont tout compris dès la première écoute. La couleur orange représente ceux qui n'ont pas tout entendu, et la couleur rouge représente la part des candidats qui n'ont pas du tout compris ce qui était dit.

Fig.1 - Variation de l'intelligibilité en fonction du niveau des dialogues
Fig.1 - Variation de l'intelligibilité en fonction du niveau des dialogues

On remarque logiquement, sur cette figure 1, que la part des candidats qui ont tout compris dès la première écoute diminue au fur et à mesure que l'écart entre le niveau des dialogues et le niveau des ambiances s'amenuise, de 16 LU à 0 LU. Il s'agit ici du résultat global compilé à partir de toutes les réponses reçues.

Pour entrer dans le détail de l'étude, les résultats des candidats ont été répartis différemment. Le figure 2 ci-dessous se focalise sur le rôle du matériel d'écoute sur l'intelligibilité des dialogues.

Les courbes continues correspondent au matériel "haute fidélité", on considère ici les casques à réducteurs de bruit, les home-cinémas et barres de son.

Les courbes en pointillés correspondent au matériel "bas coût" constitué des haut-parleurs intégrés aux smartphones, tablettes, ordinateurs et TV à écran plats.

Fig. 2 - Variation de l'intelligibilité en fonction du matériel d'écoute
Fig. 2 - Variation de l'intelligibilité en fonction du matériel d'écoute

Sur cette figure 2, la qualité du matériel d'écoute utilisé influe sensiblement sur l'intelligibilité ressentie. Lorsque des séquences riches en musique et bruitages viennent nuire à l'intelligibilité des dialogues (par exemple, pour les extraits présentant seulement 2 à 4 LU de prépondérance du niveau des dialogues sur les ambiances), les candidats ne sont plus que 55%, en moyenne, à considérer ces séquences comme intelligibles (Fig.1). Dans le détail, les personnes qui utilisent un matériel d'écoute de haute qualité sont un peu plus nombreuses, 57%, que celles qui utilise du matériel à bas coût (50%). Pour ces mêmes extraits de programmes, on retrouve également 7% de téléspectateurs supplémentaires qui n'ont absolument pas compris les dialogues car ils écoutaient sur du matériel à bas coût. 

Pour être plus sûr de ce résultat, l'étude s'est également penchée sur les conditions d'écoute : milieu calme ou milieu bruyant. 4 types de milieux bruyants ont même été différenciés (ambiance urbaine, musique de fond, transport, brouhaha d'un lieu animé). La figure 3 ci-dessous nous démontre rapidement que le milieu d'écoute n'a pas du tout d'effet sur l'intelligibilité.

Fig. 3 - Variation de l'intelligibilité en fonction du milieu d'écoute
Fig. 3 - Variation de l'intelligibilité en fonction du milieu d'écoute

Il n'est même pas nécessaire de différencier les différents milieux bruyants tant les courbes se confondent. Cela s'explique notamment par la capacité du cerveau humain à discriminer les sons pour se concentrer uniquement sur certaines conversations. Il est tout à fait probable qu'une écoute en milieu bruyant soit plus fatigante, mais le milieu d'écoute ne modifie pas notre capacité à comprendre ce qui se dit.

La multiplication des conditions d'écoute en mobilité a entrainé, depuis le début des années 2010, une explosion des ventes de casques et oreillettes, plaçant de facto les haut-parleurs au plus près de nos conduits auditifs. La figure 4 ci-dessous présente une nette supériorité de ces matériels d'écoute, là encore quel que soit le milieu d'écoute, dans leur garantie d'une meilleure intelligibilité des programmes.

Fig. 4 - Variation de l'intelligibilité lors d'une écoute au casque
Fig. 4 - Variation de l'intelligibilité lors d'une écoute au casque

Conclusion

Plusieurs conclusions émergent déjà de cette étude, lorsque l'on sait qu'en moyenne un programme TV présente une prépondérance du niveau des dialogues entre 2 et 12 LU lors de sa diffusion.

En premier lieu, la qualité du matériel d'écoute joue un rôle déterminant dans 7% des cas concernant les contenus présentant une différence de 2 à 4 LU. Or ces types de programmes sont relativement fréquents (7 extraits sur les 13 que nous avons sélectionnés).

En second lieu, le bruit de fond du milieu d'écoute n'impacte pas l'intelligibilité du programme.

Enfin, l'écoute au casque assure aux téléspectateurs un confort d'écoute supérieur de 10 à 20% aux solutions de haut-parleurs standards à bas coût, ce qui explique notamment le niveau record de leurs ventes et ouvre des perspectives de développement attractives pour les productions immersives (binaurales).  

Cela se traduit aussi par la recommandation suivante : afin de conserver un maximum d'intelligibilité pour un panel de téléspectateur aussi varié dans leurs modes de consommation, il convient de garantir une prépondérance du niveau des dialogues supérieures à 4 LU.

Eléments complémentaires

Le cerveau humain possède aussi une mémoire sonore très efficace. Si la question posée dans cette étude se limite à la première écoute, c'est qu'il est particulièrement difficile de jauger l'intelligibilité d'une phrase en totale indépendance lors d'une seconde écoute. Cette particularité cognitive est bien connue des ingénieurs du son qui ont parfois besoin d'appeler une "oreille externe" pour jauger l'intelligibilité d'une séquence. En effet, après plusieurs écoutes du même extrait, le cerveau sait "reconstruire" les éléments masqués par d'autres éléments sonores, et l'ingénieur du son risque alors de trop baisser le niveau des dialogues tout en continuant à parfaitement comprendre ce qui est dit.

Chaque participant a également été invité, sans obligation, à déclarer son son âge ainsi que d'éventuelles carences d’acuité visuelle et auditive. Nous étendrons cet article dans quelques semaines lorsque ces données supplémentaires auront été analysées.