"Kan AI ook zorgen voor een gebarentolk tijdens een statement of speech van de burgemeester bij crisis?"
Die vraag stelde één van de deelnemers bij de sessie 'AI, ChatGPT en crisiscommunicatie' die ik gaf bij een veiligheidsregio. Een mooie vraag, die ik nog niet eerder had gehoord. En waar ik niet direct het antwoord op wist.
Dus vroeg ik ChatGPT hoe ik aan een digitale Irma Sluis kom. Het antwoord vind je hieronder, inclusief alle stappen die je moet nemen om dit regelen. Niet gemakkelijk, maar misschien wel makkelijker dan een gebarentolk op hard piket.
Tom: zou je met AI video's kunnen maken die je op een scherm afspeelt naast een burgemeester of minister waarop een AI gegenereerde gebarentolk te zien is voor doven en slechthorenden?
ChatGPT: Ja, het is mogelijk om AI-video's te maken waarin een AI-gegenereerde gebarentolk te zien is naast een burgemeester of minister, wat zeer nuttig kan zijn voor doven en slechthorenden.
Hier zijn de stappen die je kunt nemen om dit te realiseren:
- Transcriptie van de toespraak:
- De gesproken woorden van de burgemeester of minister worden omgezet naar tekst, ofwel door handmatige transcriptie of door automatische spraakherkenningstechnologie.
- Gebarenvertaling:
- De getranscribeerde tekst wordt vervolgens vertaald naar gebarentaal. Dit kan door middel van software die gebarentaal begrijpt en kan uitvoeren.
- AI-Gebarentolk Animatie:
- Met behulp van AI-technologie zoals computer vision en 3D-modellering kan een virtuele avatar worden gecreëerd die de gebaren uitvoert. Tools zoals DeepMotion of NVIDIA Omniverse kunnen hiervoor gebruikt worden.
- Video Integratie:
- De video van de burgemeester of minister wordt gecombineerd met de video van de AI-gebaarentolk. Dit kan worden gedaan met video-editing software zoals Adobe Premiere Pro of een speciaal ontwikkelde applicatie voor dit doel.
- Synchronisatie:
- Zorg ervoor dat de gebaren nauwkeurig zijn gesynchroniseerd met de gesproken tekst. Dit kan worden bereikt door tijdscodes en het nauwkeurig afstemmen van de gebarenanimaties met de audio.
Voorbeeld Workflow:
- Transcriptie: Gebruik een tool zoals Google Speech-to-Text om de toespraak automatisch te transcriberen.
- Vertaling naar Gebarentaal: Gebruik een AI-vertaler die de getranscribeerde tekst omzet in gebaren. Dit kan door samenwerking met taalkundigen die gebarentaal beheersen.
- Animatie: Gebruik een AI-gedreven avatar, bijvoorbeeld met software zoals Unreal Engine of Unity, om de gebaren te laten uitvoeren.
- Video Editing: Integreer de gebarenvideo naast de oorspronkelijke video van de spreker.
Uitdagingen en Overwegingen:
- Nauwkeurigheid van de Gebarentaal: AI moet de nuances van gebarentaal begrijpen, wat complex kan zijn omdat gebarentaal visueel en ruimtelijk is.
- Realtime Vertaling: Voor live-evenementen is realtime vertaling een uitdaging, waarvoor zeer geavanceerde AI en snelle verwerking nodig zijn.
- Culturele en Regionale Variaties: Gebarentaal verschilt per regio en cultuur, dus de AI moet worden getraind om deze verschillen te herkennen en correct toe te passen.
Dit is een innovatieve toepassing van AI die kan bijdragen aan inclusie en toegankelijkheid, en met de huidige technologische vooruitgang is het haalbaar om dit te realiseren.
Tom: Het kan dus live? Terwijl de burgemeester spreekt?
ChatGPT: Ja, live vertalen naar gebarentaal met een AI-gegenereerde gebarentolk is mogelijk, maar het brengt wel enkele technologische uitdagingen met zich mee. Hier zijn de stappen en technologieën die nodig zijn om dit te realiseren:
Stappen voor Live AI-Gebarentolk
- Realtime Spraakherkenning:
- Gebruik geavanceerde spraakherkenningstechnologie om de gesproken woorden van de burgemeester of minister direct om te zetten in tekst. Technologieën zoals Google Speech-to-Text of IBM Watson kunnen hiervoor worden gebruikt.
- Realtime Gebarentaal Vertaling:
- De getranscribeerde tekst wordt in realtime vertaald naar gebarentaal. Dit vereist een zeer geavanceerde AI die getraind is in de specifieke gebarentaal (bijvoorbeeld Nederlandse Gebarentaal, NGT).
- Realtime Animatie:
- Een AI-gedreven avatar wordt gebruikt om de gebaren in realtime uit te voeren. Dit kan met software zoals NVIDIA Omniverse, dat realistische animaties kan genereren op basis van invoer van de gebarentaal AI.
- Video Integratie:
- De live video van de burgemeester wordt gecombineerd met de live gegenereerde gebarenavatar. Dit kan door middel van videomixer hardware of software die de twee videostreams samenvoegt.
Technologische Vereisten:
- Krachtige Hardware:
- Hoge verwerkingskracht is nodig om de spraakherkenning en animatie in realtime uit te voeren. Dit betekent meestal gebruik van krachtige GPU’s en snelle netwerken.
- Geavanceerde AI-Modellen:
- De AI-modellen moeten zeer goed getraind zijn op zowel spraakherkenning als gebarentaalvertaling. Het trainen van deze modellen kan tijdrovend en complex zijn, omdat ze veel data en fijne afstemming vereisen.
- Realtime Video Processing:
- Software zoals OBS (Open Broadcaster Software) kan worden gebruikt om de verschillende videostreams te combineren en live uit te zenden.
Voorbeeld Workflow voor Live Vertaling:
- Spraakherkenning:
- Terwijl de burgemeester spreekt, wordt de audio-feed direct ingevoerd in een spraakherkenningstool.
- Gebarentaal Vertaling:
- De tekstuitvoer van de spraakherkenning wordt direct doorgegeven aan een AI die de tekst vertaalt naar gebarentaal.
- Avatar Animatie:
- De gebareninstructies worden in realtime uitgevoerd door een geanimeerde avatar.
- Video Combinatie:
- De live video van de burgemeester en de animatie van de gebarentolk worden gecombineerd en uitgezonden naar het publiek.
Uitdagingen en Overwegingen:
- Nauwkeurigheid en Vertraging: De nauwkeurigheid van de spraakherkenning en gebarentaalvertaling moet hoog zijn, en vertragingen moeten tot een minimum worden beperkt.
- Beschikbaarheid van Training Data: Voor specifieke gebarentalen kan het moeilijk zijn om voldoende training data te vinden.
- Integratie: Het combineren van de verschillende technologieën in een naadloze ervaring vereist goede technische expertise en robuuste software-oplossingen.
Ondanks de uitdagingen is het technisch mogelijk en kan het enorm bijdragen aan de toegankelijkheid van live evenementen voor doven en slechthorenden.