Spraakherkenning vertoont bias

Spraakherkenning vertoont bias

by Ziptone
30 maart 2020

Onderzoekers van de Stanford University hebben ontdekt dat de software voor spraakherkenning die gebruikt wordt door de leidende consumentenmerken een bias bevat. Het gaat om de software van Amazon, Apple, Google, IBM en Microsoft. De bevindingen zijn gepubliceerd in het research paper ‘Racial disparities in automated speech recognition’.

Waar deze systemen gemiddeld zo’n 19 procent van de woorden verkeerd begrijpen als ze worden uitgesproken door blanke mensen, ligt de ‘word error rate’ (WER) op 35 procent bij tekst uitgesproken door zwarte mensen. In slechts 2 procent van de gevallen classificeren de softwaretoepassingen ‘witte’ audiofragmenten als ‘onbegrijpelijk’. Bij gekleurde sprekers komt dat op 20 procent uit.

Om de WER te vergelijken voor verschillende groepen hebben de onderzoekers gebruik gemaakt van twee datasets, de Corpus of Regional African American Language (CORAAL) en de Voice of California (VOC) dataset. Uit beide datasets zijn fragmenten van 5 tot 50 seconden gebruikt die eerst warden vertaald door menselijke vertalers. De resultaten warden vergeleken met de output van de spraaksoftware van de genoemde aanbieders.

Er bestaan wel verschillen in de prestaties en de bias van de verschillende leveranciers. Apple scoorde het slechtst in beide datasets (meer dan 20 procent fout). Google en Microsoft laten de kleinste verschillen zien, maar de afwijking is nog altijd meer dan 10 procent. Amazon (verantwoordelijk voor Alexa) vertoonde bijna geen verschillen tussen witte en zwarte spraakfragmenten, maar de software was iets nauwkeuriger bij witte spraak. Daarnaast zijn er nog regionale verschillen, gebaseerd op het gebied waar de spraakfragmenten vandaan komen.

De onderzoekers hebben ook aangegeven wat zij als mogelijke oorzaken zien. Zo zouden zwarte mensen woorden gebruiken die niet in de lexicons zijn opgenomen. Ook zouden ook de akoestische modellen tekortschieten. Er zouden ook verschillen bestaan in uitspraak en prosodie (ritme, klemtoon en intonatie).

Het is niet voor het eerst dat software onvoldoende rekening houdt met verschillen in de samenleving. Het Amerikaanse instituut voor standaardisatie, NIST, constateerde al eerder bias in gezichtsherkenning. (BiometricUpdate)

Technologie

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Top