Pavan Mulabagal Director – IoT Strategy and Marketing (ON Semiconductor)

Chiunque possieda un dispositivo connesso, avrà quasi sicuramente notato che molto spesso è possibile controllarlo o istruirlo mediante comandi vocali. In effetti il controllo vocale sta diventando un metodo di interfacciamento molto diffuso. A questo proposito basti pensare che il numero degli smart speaker, o altoparlanti “intelligenti”, venduti passerà dalle 125 milioni di unità del 2019 ai 300 milioni previsti per il 2022, con una crescita particolarmente sostenuta nel continente asiatico. Poiché a questi altoparlanti “intelligenti” viene connesso un numero sempre crescente di dispositivi esterni (Fig. 1), secondo le stime fornite dalla società di ricerca Canalys™ entro il 2022 saranno 1,6 miliardi i dispositivi controllati, sia direttamente sia indirettamente, attraverso la voce.

Fig. 1 – Applicazioni delle interfacce vocali nell’universo IoT

Uno dei maggiori vantaggi delle interfacce vocali è rappresentato dal fatto che, occupando uno spazio nettamente inferiore rispetto alle tradizionali tastiere, rispondono alle esigenze di miniaturizzazione dei moderni dispositivi portatili e indossabili. Senza dimenticare che le interfacce VUI (Voice User Interface) permettono di effettuare operazioni a mani libere che, oltre ad aumentare la sicurezza durante la guida di veicoli, assicurano una maggiore libertà a tutti coloro che hanno difficoltà a utilizzare correttamente le mani a causa di lesioni o deformità.

Per sviluppare un’interfaccia VUI in grado di soddisfare le aspettative del mercato è necessario prendere in considerazione numerosi aspetti in fase di progettazione. Costo e dimensioni sono due parametri che rivestono una particolare importanza, anche in considerazione del fatto che la tecnologia di comando vocale viene integrata in numerose applicazioni per le quali sono previsti elevati volumi, così come in dispositivi indossabili di dimensioni molto ridotte come smartwatch e bracciali per fitness.

Affinché la ricezione del suono risulti soddisfacente per la funzionalità prevista, il front end audio integrato dovrà prevedere l’utilizzo di tecniche di riduzione del rumore e di cancellazione automatica dell’eco al fine di garantire una corretta e chiara comprensione di ogni comando vocale che venga impartito. Nei dispositivi più sofisticati che possono integrare più microfoni (come appunto gli smart speaker), si ricorre a tecniche di beamforming (filtraggio spaziale) in modo da direzionare la sensibilità sonora verso il punto in cui è localizzata la persona che sta parlando. Poiché molti dispositivi che integrano un’interfaccia VUI sono alimentati a batteria, è importante che il microcontrollore utilizzato abbia core a bassissima dissipazione, che potrebbe richiedere la capacità di operare a frequenze di clock più basse.

[boris]

Praticità e capacità di sviluppare dispositivi universali da utilizzare in tutto il mondo sono altre due fattori da considerare con attenzione in fase di progetto. Per questo motivo è importante il supporto in più lingue, corredato da un vocabolario di termini e frasi esaustivo. La sicurezza è senza dubbio migliorata grazie alla capacità di riconoscere la voce dei singoli individui e di agire in maniera coerente con i comandi di questi ultimi. Tra i numerosi esempi di utilizzo che sfruttano tale capacità si possono annoverare l’accensione o lo spegnimento di un dispositivo, eseguita solamente se il comando viene dato da una persona autorizzata a impartire tale ordine oppure, in considerazione del fatto che gli altoparlanti intelligenti possono essere collegati a siti di shopping online, la verifica che la persona che sta parlando sia realmente il titolare dell’account prima di procedere all’elaborazione di acquisti e pagamenti online.

Elaborazione locale o su cloud: vantaggi e svantaggi

Le due principali modalità di funzionamento di un’interfaccia vocale sono quella locale oppure basata su cloud. Nel primo caso il dispositivo elabora il segnale vocale in ingresso localmente e quindi fornisce una risposta, mentre nel secondo caso l’elaborazione e la definizione della risposta vengono eseguite nel cloud. Entrambi gli approcci evidenziano vantaggi e svantaggi, riassunti nella figura 2. L’elaborazione locale è caratterizzata da bassa latenza, richiede una potenza di elaborazione e risorse di memoria inferiori e non necessita di una connessione di rete (anche se potrebbe averne una). Spesso l’elaborazione locale è portabile, assicura livelli di sicurezza e protezione della privacy più elevati e, in generale, è caratterizzata da consumi più contenuti.

Fig. 2 – Confronto tra i due tipi di elaborazione: locale e basata su cloud

L’elaborazione su cloud, dal canto suo, supporta tipologie di comandi più complesse e offre la possibilità di effettuare l’apprendimento tramite l’utilizzo dell’intelligenza artificiale (AI). Ovviamente richiede una connessione di rete, che può essere di tipo cablato oppure wireless, oltre a maggiori risorse in termini sia di memoria sia di potenza di elaborazione rispetto al funzionamento locale, a fronte comunque di una maggiore espandibilità. Nel caso delle soluzioni basate su cloud, latenza e consumo di potenza sono maggiori, mentre la portabilità è limitata. A causa della loro natura connessa, i livelli i sicurezza e di protezione della privacy sono inevitabilmente inferiori rispetto a quelli delle soluzioni di tipo locale.

Una tipica applicazione di un’interfaccia VUI

Parecchie interfacce vocali, come gli smart speaker di ultima generazione e i sistemi VUI integrati in elettrodomestici, giocattoli e dispositivi sofisticati includono la sezione vocale e un’interfaccia utente di tipo fisico, come ad esempio un touch screen (fig. 3).

Fig. 3 – Schema di un tipico sistema VUI in grado di ricevere input mediante microfono e touchscreen

Il fabbisogno energetico di un sistema di questo tipo è relativamente modesto e, con un scelta oculata dei vari componenti, la potenza richiesta può essere molto bassa. In molti casi l’alimentazione primaria è fornita da un dispositivo esterno (tipicamente un adattatore da parete) in grado di erogare una potenza di 15 W. L’alimentazione nominale da 12V fornita è convertita a livello locale a 5V mediante un convertitore step-down (buck) ad alta efficienza come a esempio il mod. NCP3170 di ON Semiconductor. Estremamente versatile e destinato principalmente all’uso in applicazioni consumer, NCP3170 è un regolatore buck a commutazione sincrono flessibile operante in modalità PWM. Grazie all’elevato grado di integrazione è possibile impostare internamente alcune funzionalità tra cui soft start (avvio graduale), rilevamento di “power good” e frequenza di commutazione. Ciò consente di ridurre dimensioni, costi e complessità del sistema, facendone il componente ideale per l’uso in applicazioni VUI dove i vincoli di spazio risultano particolarmente severi.

Per generare i rail (in pratica i valori) di tensione aggiuntivi spesso si fa ricorso a semplici regolatori LDO (Low Drop Out), come visibile in figura 3. Un dispositivo adatto allo scopo è NCP170, un regolatore realizzato in tecnologia CMOS in grado di fornire tensioni nell’intervallo compreso tra 1,2 e 3,6V e quindi ideale per la maggior parte delle applicazioni logiche. Le caratteristiche di questo regolatore, tra cui integrazione di numerose funzionalità di protezione, possibilità di operare utilizzando solo una coppia di condensatori esterni, assorbimento di corrente a riposo di soli 500nA e ingombri di appena 1×1 mm lo rendono adatto per l’impiego in tutte le applicazioni portatili alimentate a batteria.

Anche se i microfoni MEMS si stanno diffondendo in misura sempre maggiore, i microfoni ECM (Electret Condenser Microphone, ovvero microfoni a condensatori basati su elettrete) garantiscono alcuni vantaggi in fase di progetto. In una tipica applicazioni VUI ci possono essere due o più microfoni ECM che richiedono una qualche forma di amplificazione. Il pre-amplificatore per microfoni FAN3852 è compatibile con i microfoni ECM e, grazie alla presenza di un convertitore A/D integrato, fornisce in uscita un flusso di dati con modulazione a densità d’impulso (PDM – Pulse Density Modulation). Questo formato integra la funzionalità di reiezione del rumore e si interfaccia in maniera molto semplice con i dispositivi preposti all’elaborazione vocale.

Fig. 4 – Il SoC LC823455 di ON Semiconductor integra le funzionalità chiave per sistemi audio portatili

Il nucleo centrale di ogni sistema VUI è il sistema di elaborazione audio. Il processore LC823455 per sistemi audio portatili di ON Semiconductor è un SoC (System on Chip) ad alto grado di integrazione con capacità di elaborazione audio a 32 bit/192 kHz ad alta risoluzione. Questa soluzione di ON Semiconductor integra due processori Arm® Cortex®-M3 e un DSP a basso consumo (LPDSP) proprietario. Questo sistema multi-core, con 4316 kB di SRAM dedicata e doppia CPU mette a disposizione ampie capacità di elaborazione e consente l’implementazione di programmi per applicazioni WLAN senza richiedere risorse di memoria aggiuntive.

Il dispositivo include un’interfaccia PDM per microfoni digitali a 4 canali e un amplificatore in classe D a basso consumo, oltre a un mixer hardware e un equalizzatore a 6 bande. Sono altresì previsti un codec MP3, un codec SBC e un codec FLAC.

La ricca dotazione di interfacce, tra cui USB, eMMC, schede SD, SPI e I2C, semplifica l’interfacciamento a una pluralità di periferiche, di processori host e di risorse di memoria rimovibili esterne. Per il supporto dell’audio Bluetooth è prevista un’interfaccia UART con DMA e FIFO.

Tempi di progettazione e costi di sviluppo sono ridotti grazie alla disponibilità a titolo gratuito di codice sorgente per il DSP e librerie che forniscono le funzioni chiave richieste per gli altoparlanti intelligenti e altre applicazioni VUI come ad esempio cancellazione del rumore, soppressione dell’eco e numerose altre ancora.

Questa soluzione SoC su chip singolo che occupa una superficie di soli 4,086 mm2 permette non solo di risparmiare spazio prezioso a bordo della scheda PCB, ma anche di ridurre il costo della BoM grazie all’elevato grado di integrazione e all’inclusione del codice.

Considerazioni conclusive

La voce è divenuto un mezzo ampiamente utilizzato per interfacciarsi con i moderni dispositivi come gli altoparlanti intelligenti e altri prodotti di largo consumo che integrano tale tecnologia (o un suo sottoinsieme).

La chiave di volta per il successo commerciale di queste interfacce è un’efficiente elaborazione dei comandi vocali – che comprende operazioni quali digitalizzazione, soppressione dell’eco, cancellazione del rumore e riconoscimento effettuate localmente oppure sul cloud – ciascuna delle quali può risultare difficile da implementare in sistemi discreti. Il progetto in questione deve anche essere caratterizzato da dimensioni contenute, per garantire, oltre alla portabilità, l’efficienza energetica richiesta per il funzionamento a batteria.

Un dispositivo come il processore audio LC823455 di ON Semicoductor è un SoC ad alto grado di integrazione che dispone di tutte le risorse necessarie – in termini di elaborazione del segnale, memoria, interfacce e codice campione – per consentire lo sviluppo di VUI in tempi brevi e con minime difficoltà.

[/boris]

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Menu