Iscriviti: Feed RSS
cerca nel sito
LipNet, IA al servizio dei non udenti
Il nuovo sistema di intelligenza artificiale sviluppato dall’Università di Oxford analizza i video riconoscendo il labiale con una precisione del 93 per cento. La lettura delle labbra è una pratica complessa, ma necessaria per abbattere le barriere della comunicazione. Normalmente i professionisti della lettura labiale riescono ad essere accurati con una precisione che può oscillare dal 20 al 60 per cento poiché nella velocità di un normale discorso le lievi variazioni delle labbra, così come la distanza o una parziale copertura del soggetto rendono difficoltoso capire cos’è stato detto. Un team di ricercatori del Dipartimento di Informatica dell’Università di Oxford ha sviluppato un software di lettura delle labbra chiamato LipNet supportato in parte da Deep Mind di Alphabet che grazie a un approccio differente vanta una percentuale di riconoscimento del parlato del 93 per cento.
Nonostante il successo del progetto vengono rivelati anche alcuni dei limiti della moderna ricerca sull’intelligenza artificiale poiché il team di Oxford ha utilizzato un set di video accuratamente scelto per insegnare all’IA come leggere le labbra. Ogni persona è stata rivolta in avanti, ben illuminata, e ha parlato con una struttura della frase standardizzata.
“Place blue in m 1 soon” (ossia “posiziona blu in m 1 presto”) è una delle frasi standard da 3 secondi utilizzate composta da un comando, un colore, una preposizione, una lettera, un numero da 1 a 10 e un avverbio. Ogni frase segue questo modello e l’elevata precisione dell’IA potrebbe quindi derivare dal fatto che è stata addestrata e testata in condizioni straordinarie, mentre se venisse richiesto di leggere le labbra da un video preso a caso da YouTube probabilmente i risultati sarebbero molto meno precisi.
Secondo Jack Clark di OpenAI per riuscire a far sì che questo sistema possa operare nel mondo reale si dovranno ottenere tre importanti miglioramenti: riuscire a operare con video in cui sono presenti grandi quantità di persone che parlano in contesti reali, ottenere che l’AI sia in grado di leggere le labbra da più angolazioni, variare i tipi di frasi che l’intelligenza artificiale è in grado di prevedere.
Lo stesso Clark afferma che “la tecnologia ha un’utilità talmente evidente che sembra inevitabile che debba essere costruita. Insegnare all’IA a leggere le labbra è una competenza di base che può essere applicata a innumerevoli situazioni. Un sistema simile potrebbe essere impiegato per aiutare i non udenti a capire le conversazioni che avvengono intorno a loro o per aumentare altre forme di intelligenza artificiale in modo da ascoltare audio e video generando rapidamente didascalie accurate”.
Luca Algieri – Fonte: punto-informatico.it