«Clow-dia», dis-je une fois. Deux fois. Une troisième fois. Défait, je dis la version américanisée de mon nom: «Claw-dee-ah». Enfin, Siri le reconnaît.
Devoir adapter notre façon de parler pour interagir avec les technologies de reconnaissance vocale est une expérience familière pour les personnes dont la langue maternelle n’est pas l’anglais ou qui n’ont pas de noms à consonance américaine conventionnelle. J’ai même cessé d’utiliser Siri à cause de cela.
La mise en œuvre de la technologie de reconnaissance vocale au cours des dernières décennies a dévoilé un problème très problématique enraciné en eux: les préjugés raciaux. Une étude récente, publiée dans PNAS, a montré que les programmes de reconnaissance vocale sont biaisés contre les locuteurs noirs. En moyenne, les cinq programmes des principales sociétés technologiques comme Apple et Microsoft ont montré des disparités raciales importantes; ils étaient deux fois plus susceptibles de transcrire incorrectement l’audio des haut-parleurs noirs par rapport aux haut-parleurs blancs.
Dans les conversations normales avec d’autres personnes, nous pouvons choisir de changer de code, en alternant entre les langues, les accents ou les façons de parler, selon le public. Mais avec les programmes de reconnaissance vocale automatisés, il n’y a pas de changement de code – soit vous assimilez, soit vous n’êtes pas compris. Cela censure efficacement les voix qui ne font pas partie des langages ou accents «standard» utilisés pour créer ces technologies.
«Je ne négocie pas avec ces appareils à moins d’adapter mes modèles linguistiques», explique Halcyon Lawrence, professeur adjoint de communication technique et de conception de l’information à l’Université Towson, qui ne faisait pas partie de l’étude. « C’est problématique. » Concrètement, le problème va au-delà du simple fait de changer de façon de parler: cela signifie devoir adapter son identité et s’assimiler.
Pour Lawrence, qui a un accent de Trinité-et-Tobagon et d’autres, une partie de notre identité vient de parler une langue particulière, d’avoir un accent ou d’utiliser un ensemble de formes de discours comme l’anglais afro-américain vernaculaire (AAVE). Pour moi en tant que Portoricain, dire mon nom en espagnol, plutôt que d’essayer de traduire les sons pour le rendre compréhensible pour les auditeurs nord-américains, signifie rester fidèle à mes racines. Devoir changer une telle partie intégrante d’une identité pour pouvoir être reconnu est intrinsèquement cruel, ajoute Lawrence: « De la même façon, on ne s’attendrait pas à ce que j’enlève la couleur de ma peau. »
L’incapacité d’être compris par les programmes de reconnaissance vocale a un impact sur d’autres communautés marginalisées. Allison Koenecke, étudiante diplômée en informatique et première auteure de l’étude, souligne une communauté particulièrement vulnérable: les personnes handicapées qui dépendent de la reconnaissance vocale et des outils de synthèse vocale. «Cela ne fonctionnera que pour un sous-ensemble de la population qui peut être compris par [automated speech recognition] systèmes », dit-elle. Pour une personne handicapée et dépendante de ces technologies, une mauvaise compréhension pourrait avoir de graves conséquences.
Il existe probablement de nombreux responsables de ces disparités, mais Koenecke pointe le plus probable: les données d’entraînement. Dans l’ensemble, les données «standard» utilisées pour former les technologies de reconnaissance vocale sont principalement blanches. En utilisant des corpus de discours étroits à la fois dans les mots utilisés et dans la façon dont ils sont prononcés, les systèmes excluent les accents et les autres façons de parler qui ont des caractéristiques linguistiques uniques, telles que l’AAVE. En fait, l’étude a révélé qu’avec une utilisation accrue de l’AAVE, la probabilité de malentendu a également augmenté. Plus précisément, les disparités trouvées dans l’étude étaient principalement dues à la façon dont les mots étaient prononcés, car même lorsque les locuteurs prononçaient des phrases identiques, les locuteurs noirs étaient à nouveau deux fois plus susceptibles d’être mal compris par rapport aux locuteurs blancs.
De plus, l’accent et le biais linguistique vivent chez les humains qui créent ces technologies. Par exemple, la recherche montre que la présence d’un accent affecte si les jurés jugent les gens coupables et si les patients trouvent leurs médecins compétents. Reconnaître ces biais serait un moyen important d’éviter de les mettre en œuvre dans les technologies.
Safiya Noble, professeur agrégé d’études de l’information à l’Université de Californie à Los Angeles, admet que le langage est difficile à intégrer dans une technologie. «La langue est contextuelle», explique Noble, qui n’a pas participé à l’étude. « Certains mots signifient certaines choses quand certains corps les disent, et ceux-ci [speech] les systèmes de reconnaissance n’en tiennent vraiment pas compte. » Mais cela ne signifie pas que les entreprises ne devraient pas s’efforcer de réduire les biais et les disparités dans leurs technologies. Cependant, pour essayer de le faire, ils doivent apprécier les complexités du langage humain. Pour cette raison, les solutions peuvent provenir non seulement du domaine de la technologie mais aussi des domaines des sciences humaines, de la linguistique et des sciences sociales.
Lawrence soutient que les développeurs doivent être conscients des implications des technologies qu’ils créent et que les gens doivent se demander à quoi servent ces technologies et à qui elles servent. La seule façon de le faire est d’avoir des humanistes et des spécialistes des sciences sociales à la table et en dialogue avec les technologues pour se poser les questions importantes de savoir si ces technologies de reconnaissance pourraient être cooptées comme armes contre les communautés marginalisées, à l’instar de certains développements nuisibles avec la reconnaissance faciale les technologies.
Du côté de la technologie, l’introduction de données de formation plus diversifiées dans les programmes pourrait combler cet écart, explique Koenecke. «Je pense qu’au moins l’augmentation de la part d’échantillons audio anglais non standard dans l’ensemble de données d’entraînement nous amènera à combler l’écart de course», ajoute-t-elle. Ils devraient également tester leurs produits plus largement et disposer d’une main-d’œuvre plus diversifiée afin que des personnes d’horizons et de perspectives différents puissent directement influencer la conception des technologies vocales, explique Noble.
Mais les deux parties conviennent que les entreprises technologiques doivent être tenues responsables et devraient viser à changer. Koenecke suggère que les entreprises de reconnaissance vocale automatisée utilisent leur étude comme référence préliminaire et continuent de l’utiliser pour évaluer leurs systèmes au fil du temps.
Avec ces stratégies, les entreprises technologiques et les développeurs peuvent être en mesure de rendre les technologies de reconnaissance vocale plus inclusives. Mais s’ils continuent d’être déconnectés des complexités du langage humain et de la société sans reconnaître leurs propres préjugés, il y aura toujours des lacunes. Dans l’intervalle, beaucoup d’entre nous continuerons de lutter entre l’identité et la compréhension lorsqu’ils interagissent avec Alexa, Cortana ou Siri. Mais Lawrence choisit à chaque fois son identité: « Je ne change pas, je ne le fais pas. »
July 05, 2020 at 09:39AM
https://ift.tt/2VQQ7Zf
La technologie de reconnaissance vocale est un autre exemple de biais - Breakingnews.fr
https://ift.tt/382G1JE
La technologie
Bagikan Berita Ini
0 Response to "La technologie de reconnaissance vocale est un autre exemple de biais - Breakingnews.fr"
Post a Comment