Antallet af applikationer og betydningen af stemmegrænseflader vokser hurtigt

Indhold

fire store
Amerikanerne vil gerne købe
Vask, bag, rens!
Gammelt koncept. Er hendes tid endelig kommet?
teknisk vanskeligt spørgsmål
Stemme? Grafisk kunst? Eller måske begge dele?
Pas på sikkerheden!

En amerikansk familie i Portland, Oregon erfarede for nylig, at Alexs stemmeassistent optog deres private chats og sendte dem til en ven. Ejeren af huset, kaldet Danielle af medierne, fortalte journalister, at hun "aldrig ville tilslutte den enhed igen, fordi hun ikke kan stole på."

Alexa, leveret af Echo (1) højttalere og andre gadgets i titusinder af amerikanske hjem, begynder at optage, når den hører sit navn eller "kaldeord" udtalt af brugeren. Det betyder, at selvom ordet "Alexa" er nævnt i en tv-annonce, kan enheden begynde at optage. Det er præcis, hvad der skete i denne sag, siger Amazon, hardware-distributøren.

"Resten af samtalen blev tolket af stemmeassistenten som en kommando om at sende en besked," sagde virksomheden i en erklæring. "På et tidspunkt spurgte Alexa højlydt: "Til hvem?" Fortsættelsen af familiesamtalen om trægulve burde have været opfattet af maskinen som et punkt på kundens kontaktliste.” Det er i hvert fald, hvad Amazon mener. Dermed er oversættelsen reduceret til en række ulykker.

Angsten består dog. For af en eller anden grund, i et hus, hvor vi stadig følte os godt tilpas, er vi nødt til at gå ind i en slags "stemmetilstand", se, hvad vi siger, hvad tv'et sender, og selvfølgelig hvad denne nye højttaler på brystet. skuffer siger. os.

Alligevel, På trods af teknologiske ufuldkommenheder og bekymringer om privatlivets fred begynder folk med stigningen i popularitet af enheder som Amazon Echo at vænne sig til ideen om at interagere med computere ved hjælp af deres stemme..

Som Werner Vogels, CTO for Amazon, bemærkede under sin AWS re:Invent-session i slutningen af 2017, har teknologien indtil videre begrænset vores evne til at interagere med computere. Vi taster søgeord ind i Google ved hjælp af tastaturet, da dette stadig er den mest almindelige og nemmeste måde at indtaste informationer i maskinen på.

sagde Vogels. -

fire store

Når vi brugte Google-søgemaskinen på telefonen, har vi sikkert bemærket et mikrofonskilt med et opkald om at tale for længe siden. Dette Google nu (2), som kan bruges til at diktere en søgeforespørgsel, indtaste en besked med stemmen osv. I de senere år har Google, Apple og Amazon forbedret sig markant stemmegenkendelsesteknologi. Stemmeassistenter som Alexa, Siri og Google Assistant optager ikke kun din stemme, men forstår også, hvad du siger til dem og besvarer spørgsmål.

Google Now er tilgængelig gratis for alle Android-brugere. Applikationen kan for eksempel indstille en alarm, tjekke vejrudsigten og tjekke ruten på Google maps. Samtaleudvidelse af Google Now stater Google Assistant () – virtuel assistance til brugeren af udstyret. Det er hovedsageligt tilgængeligt på mobile og smarte hjemmeenheder. I modsætning til Google Now kan den deltage i en tovejsudveksling. Assistenten debuterede i maj 2016 som en del af Google-meddelelsesappen Allo såvel som i Google Home-stemmehøjttaleren (3).

3. Google Home

IOS-systemet har også sin egen virtuelle assistent, Siri, som er et program, der følger med Apples styresystemer iOS, watchOS, tvOS homepod og macOS. Siri debuterede med iOS 5 og iPhone 4s i oktober 2011 ved Let's Talk iPhone-konferencen.

Softwaren er baseret på en samtalegrænseflade: den genkender brugerens naturlige tale (med iOS 11 er det også muligt at indtaste kommandoer manuelt), besvarer spørgsmål og udfører opgaver. Takket være introduktionen af machine learning, en assistent over tid analyserer personlige præferencer brugeren til at give mere relevante resultater og anbefalinger. Siri kræver en konstant internetforbindelse - de vigtigste informationskilder her er Bing og Wolfram Alpha. iOS 10 introducerede understøttelse af tredjepartsudvidelser.

Endnu en af de fire store Cortana. Det er en intelligent personlig assistent skabt af Microsoft. Det understøttes på Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android og iOS platforme. Cortana blev først introduceret på Microsoft Build Developer Conference i april 2014 i San Francisco. Navnet på programmet kommer fra navnet på en karakter fra Halo-spilserien. Cortana er tilgængelig på engelsk, italiensk, spansk, fransk, tysk, kinesisk og japansk.

Brugere af det allerede nævnte program Alexa de skal også overveje sprogrestriktioner - den digitale assistent taler kun engelsk, tysk, fransk og japansk.

Amazon Virtual Assistant blev først brugt i Amazon Echo og Amazon Echo Dot smart højttalere udviklet af Amazon Lab126. Det muliggør stemmeinteraktion, musikafspilning, oprettelse af huskelister, alarmindstilling, podcast-streaming, lydbogsafspilning og vejr-, trafik-, sport- og anden nyhedsinformation i realtid såsom nyheder (4). Alexa kan styre flere smarte enheder for at skabe et hjemmeautomatiseringssystem. Det kan også bruges til at gøre praktisk shopping i Amazon-butikken.

4. Hvad brugere bruger ekko til (ifølge forskning)

Brugere kan forbedre Alexa-oplevelsen ved at installere Alexa "skills" (), yderligere funktioner udviklet af tredjeparter, mere almindeligt omtalt som apps såsom vejr- og lydprogrammer i andre indstillinger. De fleste Alexa-enheder giver dig mulighed for at aktivere din virtuelle assistent med en vækningsadgangskode, kaldet en .

Amazon dominerer absolut markedet for smarte højttalere i dag (5). IBM, som introducerede en ny tjeneste i marts 2018, forsøger at komme ind i top fire Watsons assistent, designet til virksomheder, der ønsker at skabe deres egne systemer af virtuelle assistenter med stemmestyring. Hvad er fordelen ved IBM-løsningen? Ifølge virksomhedens repræsentanter, først og fremmest, om meget større muligheder for personalisering og beskyttelse af privatlivets fred.

For det første er Watson Assistant ikke mærket. Virksomheder kan skabe deres egne løsninger på denne platform og mærke dem med deres eget brand.

For det andet kan de træne deres hjælpesystemer ved at bruge deres egne datasæt, hvilket IBM siger gør det nemmere at tilføje funktioner og kommandoer til dette system end andre VUI-teknologier (stemmebrugergrænseflade).

For det tredje giver Watson Assistant ikke IBM information om brugeraktivitet – udviklere af løsninger på platformen kan kun holde værdifulde data for sig selv. I mellemtiden bør enhver, der bygger enheder, for eksempel med Alexa, være opmærksom på, at deres værdifulde data ender på Amazon.

Watson Assistant har allerede flere implementeringer. Systemet blev for eksempel brugt af Harman, som skabte en stemmeassistent til Maserati-konceptbilen (6). I München Lufthavn driver en IBM-assistent en Pepper-robot til at hjælpe passagerer med at bevæge sig rundt. Det tredje eksempel er Chameleon Technologies, hvor stemmeteknologi bruges i en smart home-måler.

6. Watson Assistant i en Maserati konceptbil

Det er værd at tilføje, at den underliggende teknologi her heller ikke er ny. Watson Assistant inkluderer krypteringsfunktioner til eksisterende IBM-produkter, Watson Conversation og Watson Virtual Agent, samt API'er til sproganalyse og chat.

Amazon er ikke kun førende inden for smart stemmeteknologi, men gør det til en direkte forretning. Nogle virksomheder har dog eksperimenteret med Echo-integration meget tidligere. Sisense, en virksomhed i BI- og analyseindustrien, introducerede Echo-integrationen i juli 2016. Til gengæld besluttede startup Roxy at skabe sin egen stemmestyrede software og hardware til hotelbranchen. Tidligere i år introducerede Synqq en note-app, der bruger stemme- og naturlig sprogbehandling til at tilføje noter og kalenderposter uden at skulle skrive dem på et tastatur.

Alle disse små virksomheder har høje ambitioner. Mest af alt lærte de dog, at ikke alle brugere ønsker at overføre deres data til Amazon, Google, Apple eller Microsoft, som er de vigtigste aktører i opbygningen af talekommunikationsplatforme.

Amerikanerne vil gerne købe

I 2016 udgjorde stemmesøgning 20 % af alle Googles mobilsøgninger. Folk, der bruger denne teknologi på daglig basis, nævner dens bekvemmelighed og multitasking blandt dens største fordele. (f.eks. muligheden for at bruge en søgemaskine, mens du kører bil).

Visiongain-analytikere anslår den nuværende markedsværdi af smarte digitale assistenter til 1,138 milliarder dollars.Der er flere og flere sådanne mekanismer. Ifølge Gartner allerede ved udgangen af 2018 30 % af vores interaktioner med teknologi vil være gennem samtaler med stemmesystemer.

Det britiske analysefirma IHS Markit anslår, at markedet for AI-drevne digitale assistenter vil nå op på 4 milliarder enheder ved udgangen af dette år, og det tal kan stige til 2020 milliarder i 7.

Ifølge rapporter fra eMarketer og VoiceLabs brugte 2017 millioner amerikanere stemmestyring mindst en gang om måneden i 35,6. Det betyder en stigning på næsten 130 % i forhold til året før. Alene markedet for digitale assistenter forventes at vokse med 2018 % i 23. Det betyder, at du allerede vil bruge dem. 60,5 millioner amerikanere, hvilket vil resultere i konkrete penge til deres producenter. RBC Capital Markets anslår, at Alexa-grænsefladen vil generere op til $2020 milliarder i omsætning for Amazon i 10.

Vask, bag, rens!

Stemmegrænseflader kommer i stigende grad modigt ind på markedet for husholdningsapparater og forbrugerelektronik. Det kunne man allerede se under sidste års IFA 2017-udstilling. Det amerikanske firma Neato Robotics introducerede for eksempel en robotstøvsuger, der kobles til en af flere smart home-platforme, herunder Amazon Echo-systemet. Ved at tale med Echo-smarthøjttaleren kan du instruere maskinen i at rense hele dit hus på bestemte tidspunkter af dagen eller natten.

Andre stemmeaktiverede produkter blev vist frem på showet, lige fra smart-tv'er solgt under Toshiba-mærket af det tyrkiske firma Vestel til varmetæpper af det tyske firma Beurer. Mange af disse elektroniske enheder kan også fjernaktiveres ved hjælp af smartphones.

Ifølge Bosch-repræsentanter er det dog for tidligt at sige, hvilke af hjemmeassistentmulighederne, der bliver dominerende. Ved IFA 2017 fremviste en tysk teknisk gruppe vaskemaskiner (7), ovne og kaffemaskiner, der forbinder til Echo. Bosch ønsker også, at deres enheder skal være kompatible med Google og Apples stemmeplatforme i fremtiden.

7. Bosch vaskemaskine, der tilsluttes Amazon Echo

Virksomheder som Fujitsu, Sony og Panasonic er ved at udvikle deres egne AI-baserede stemmeassistentløsninger. Sharp tilføjer denne teknologi til ovne og små robotter, der kommer på markedet. Nippon Telegraph & Telephone hyrer hardware- og legetøjsproducenter til at tilpasse et stemmestyret kunstig intelligenssystem.

Gammelt koncept. Er hendes tid endelig kommet?

Faktisk har konceptet Voice User Interface (VUI) eksisteret i årtier. Enhver, der så Star Trek eller 2001: A Space Odyssey for år siden, forventede sandsynligvis, at omkring år 2000 ville vi alle styre computere med vores stemmer. Det var heller ikke kun science fiction-forfattere, der så potentialet i denne type grænseflade. I 1986 spurgte Nielsen-forskere it-professionelle, hvad de troede ville være den største ændring i brugergrænseflader i år 2000. De pegede oftest på udviklingen af stemmegrænseflader.

Der er grund til at håbe på en sådan løsning. Verbal kommunikation er trods alt den mest naturlige måde for mennesker at bevidst udveksle tanker, så at bruge det til menneske-maskine interaktion virker som den bedste løsning indtil videre.

En af de første VUI'er, kaldet skoæske, blev skabt i begyndelsen af 60'erne af IBM. Det var forløberen for nutidens stemmegenkendelsessystemer. Udviklingen af VUI-enheder var imidlertid begrænset af grænserne for computerkraft. At analysere og fortolke menneskelig tale i realtid kræver en stor indsats, og det tog mere end halvtreds år at nå dertil, hvor det faktisk blev muligt.

Enheder med stemmegrænseflade begyndte at dukke op i masseproduktion i midten af 90'erne, men vandt ikke popularitet. Den første telefon med stemmestyring (opkald) var Philips Sparkudgivet i 1996. Denne innovative og brugervenlige enhed var dog ikke fri for teknologiske begrænsninger.

Andre telefoner udstyret med former for stemmegrænseflade (skabt af virksomheder som RIM, Samsung eller Motorola) kommer jævnligt på markedet, hvilket giver brugerne mulighed for at ringe med stemmen eller sende tekstbeskeder. Alle af dem krævede dog at huske specifikke kommandoer og udtale dem i en tvungen, kunstig form, tilpasset til datidens enheders muligheder. Dette genererede en lang række fejl, som igen førte til brugernes utilfredshed.

Men vi går nu ind i en ny æra inden for databehandling, hvor fremskridt inden for maskinlæring og kunstig intelligens frigør samtalepotentialet som en ny måde at interagere med teknologi på (8). Antallet af enheder, der understøtter stemmeinteraktion, er blevet en vigtig faktor, som har haft stor indflydelse på udviklingen af VUI. I dag ejer næsten 1/3 af verdens befolkning allerede smartphones, der kan bruges til denne type adfærd. Det ser ud til, at de fleste brugere endelig er klar til at tilpasse deres stemmegrænseflader.

8. Moderne historie om udviklingen af stemmegrænsefladen

Men før vi frit kan tale med en computer, som heltene fra A Space Odyssey gjorde, skal vi overvinde en række problemer. Maskiner er stadig ikke særlig gode til at håndtere sproglige nuancer. Udover mange mennesker føler sig stadig utilpas med at give stemmekommandoer til en søgemaskine.

Statistik viser, at stemmeassistenter primært bruges i hjemmet eller blandt nære venner. Ingen af de interviewede indrømmede at have brugt stemmesøgning på offentlige steder. Denne blokade vil dog sandsynligvis forsvinde med udbredelsen af denne teknologi.

teknisk vanskeligt spørgsmål

Problemet, som systemer (ASR) står over for, er at udtrække nyttige data fra et talesignal og forbinde dem med et bestemt ord, der har en bestemt betydning for en person. De producerede lyde er forskellige hver gang.

Talesignalvariabilitet er dens naturlige egenskab, takket være hvilken vi for eksempel genkender en accent eller intonation. Hvert element i talegenkendelsessystemet har en specifik opgave. Ud fra det behandlede signal og dets parametre skabes en akustisk model, som er tilknyttet sprogmodellen. Genkendelsessystemet kan arbejde ud fra et lille eller stort antal mønstre, som bestemmer størrelsen af det ordforråd, det arbejder med. Det kan de være små ordbøger i tilfælde af systemer, der genkender individuelle ord eller kommandoer, samt store databaser indeholdende ækvivalent til sprogsættet og under hensyntagen til sprogmodellen (grammatikken).

Problemer med stemmegrænseflader i første omgang forstå tale korrekt, hvori fx hele grammatiske sekvenser ofte udelades, støder man på sproglige og fonetiske fejl, fejl, udeladelser, talefejl, homonymer, uberettigede gentagelser osv. Alle disse ACP-systemer skal fungere hurtigt og pålideligt. Det er i hvert fald forventningerne.

Kilden til vanskeligheder er også andre akustiske signaler end den genkendte tale, der kommer ind i genkendelsessystemets input, dvs. alle slags interferens og støj. I det enkleste tilfælde har du brug for dem bortfiltrere. Denne opgave virker rutinemæssig og nem - trods alt filtreres forskellige signaler, og enhver elektronikingeniør ved, hvad de skal gøre i en sådan situation. Dette skal dog gøres meget omhyggeligt og omhyggeligt, hvis resultatet af talegenkendelse skal leve op til vores forventninger.

Den aktuelt anvendte filtrering gør det muligt sammen med talesignalet at fjerne den eksterne støj, som mikrofonen opfanger, og selve talesignalets interne egenskaber, som gør det svært at genkende det. Et meget mere komplekst teknisk problem opstår dog, når interferensen af det analyserede talesignal er ... et andet talesignal, det vil sige for eksempel højlydte diskussioner rundt omkring. Dette spørgsmål er kendt i litteraturen som det såkaldte . Dette kræver allerede brug af komplekse metoder, de såkaldte. dekonvolution (optrævler) signalet.

Problemerne med talegenkendelse slutter ikke der. Det er værd at indse, at tale indeholder mange forskellige typer information. Den menneskelige stemme antyder ejerens køn, alder, forskellige karakterer eller hans helbredstilstand. Der er en omfattende afdeling for biomedicinsk teknik, der beskæftiger sig med diagnosticering af forskellige sygdomme baseret på de karakteristiske akustiske fænomener, der findes i talesignalet.

Der er også applikationer, hvor hovedformålet med akustisk analyse af et talesignal er at identificere taleren eller verificere, at han er den, han udgiver sig for at være (stemme i stedet for nøgle, adgangskode eller PUK-kode). Dette kan være vigtigt, især for smarte bygningsteknologier.

Den første komponent i et talegenkendelsessystem er микрофон. Det signal, der opfanges af mikrofonen, er dog normalt kun til lidt nytte. Undersøgelser viser, at lydbølgens form og forløb varierer meget afhængigt af personen, talehastigheden, og dels samtalepartnerens humør – mens de i ringe grad afspejler selve indholdet af de talte kommandoer.

Derfor skal signalet behandles korrekt. Moderne akustik, fonetik og datalogi giver tilsammen et rigt sæt værktøjer, der kan bruges til at behandle, analysere, genkende og forstå et talesignal. Signalets dynamiske spektrum, det såkaldte dynamiske spektrogrammer. De er ret nemme at opnå, og tale præsenteret i form af et dynamisk spektrogram er relativt let at genkende ved hjælp af teknikker, der ligner dem, der bruges i billedgenkendelse.

Simple elementer af tale (for eksempel kommandoer) kan genkendes på den simple lighed mellem hele spektrogrammer. For eksempel indeholder en stemmeaktiveret mobiltelefonordbog kun nogle få tiere til nogle få hundrede ord og sætninger, normalt stablet på forhånd, så de let og effektivt kan identificeres. Dette er tilstrækkeligt til simple kontrolopgaver, men det begrænser i høj grad den samlede anvendelse. Systemer bygget i henhold til ordningen understøtter som regel kun specifikke højttalere, som stemmer er specielt uddannet til. Så hvis der er en ny, der vil bruge deres stemme til at styre systemet, bliver de højst sandsynligt ikke accepteret.

Resultatet af denne operation kaldes 2-W spektrogram, det vil sige et todimensionelt spektrum. Der er en anden aktivitet i denne blok, som er værd at være opmærksom på - segmentering. Generelt taler vi om at opdele et kontinuerligt talesignal i dele, der kan genkendes separat. Det er først ud fra disse individuelle diagnoser, at anerkendelsen af helheden sker. Denne procedure er nødvendig, fordi det ikke er muligt at identificere en lang og kompleks tale på én gang. Der er allerede skrevet hele bind om, hvilke segmenter der skal skelnes i et talesignal, så vi vil ikke nu tage stilling til, om de adskilte segmenter skal være fonemer (lydækvivalenter), stavelser eller måske allofoner.

Processen med automatisk genkendelse refererer altid til nogle funktioner i objekter. Hundredvis af sæt af forskellige parametre er blevet testet for talesignalet.Talesignalet har opdelt i anerkendte rammer og have udvalgte funktionerhvorved disse frames præsenteres i genkendelsesprocessen, kan vi udføre (for hver frame separat) klassifikation, dvs. at tildele en identifikator til rammen, som vil repræsentere den i fremtiden.

Den næste fase samling af rammer til separate ord - oftest baseret på den såkaldte. model af implicitte Markov-modeller (HMM-). Så kommer montagen af ord komplette sætninger.

Vi kan nu vende tilbage til Alexa-systemet et øjeblik. Hans eksempel viser en flertrinsproces med maskinel "forståelse" af en person - mere præcist: en kommando givet af ham eller et stillet spørgsmål.

At forstå ord, forstå betydning og forstå brugerhensigt er helt forskellige ting.

Derfor er det næste trin arbejdet med NLP-modulet (), hvis opgave er genkendelse af brugerens hensigt, dvs. betydningen af kommandoen/spørgsmålet i den sammenhæng, hvori den blev udtalt. Hvis hensigten er identificeret, så tildeling af såkaldte færdigheder og evner, dvs. den specifikke funktion, der understøttes af den smarte assistent. I tilfælde af et spørgsmål om vejret kaldes vejrdatakilder, som mangler at blive behandlet til tale (TTS - mekanisme). Som et resultat, hører brugeren svaret på det stillede spørgsmål.

Stemme? Grafisk kunst? Eller måske begge dele?

De fleste kendte moderne interaktionssystemer er baseret på et mellemled kaldet grafisk brugerflade (grafisk grænseflade). Desværre er GUI'en ikke den mest oplagte måde at interagere med et digitalt produkt på. Dette kræver, at brugerne først lærer at bruge grænsefladen og husker disse oplysninger med hver efterfølgende interaktion. I mange situationer er stemme meget mere praktisk, fordi du kan interagere med VUI blot ved at tale til enheden. En grænseflade, der ikke tvinger brugere til at huske og huske bestemte kommandoer eller interaktionsmetoder, forårsager færre problemer.

Naturligvis betyder udvidelsen af VUI ikke at opgive mere traditionelle grænseflader - snarere vil hybridgrænseflader være tilgængelige, der kombinerer flere måder at interagere på.

Stemmegrænsefladen er ikke egnet til alle opgaver i mobilsammenhæng. Med det vil vi ringe til en ven, der kører bil, og endda sende ham en SMS, men det kan være for svært at kontrollere de seneste overførsler - på grund af mængden af information, der overføres til systemet () og genereres af systemet (systemet). Som Rachel Hinman foreslår i sin bog Mobile Frontier, bliver brugen af VUI mest effektiv, når du udfører opgaver, hvor mængden af input og output information er lille.

En smartphone forbundet til internettet er praktisk, men også ubelejlig (9). Hver gang en bruger vil købe noget eller bruge en ny tjeneste, skal de downloade en anden app og oprette en ny konto. Her er der oprettet et felt til brug og udvikling af stemmegrænseflader. I stedet for at tvinge brugere til at installere mange forskellige apps eller oprette separate konti for hver tjeneste, siger eksperter, at VUI vil flytte byrden af disse besværlige opgaver til en AI-drevet stemmeassistent. Det vil være praktisk for ham at udføre anstrengende aktiviteter. Vi vil kun give ham ordrer.

9. Stemmegrænseflade via smartphone

I dag er mere end blot en telefon og en computer forbundet til internettet. Smarte termostater, lys, elkedler og mange andre IoT-integrerede enheder er også forbundet til netværket (10). Der er således trådløse enheder overalt omkring os, som fylder vores liv, men ikke alle passer naturligt ind i den grafiske brugerflade. Brug af VUI vil hjælpe dig med nemt at integrere dem i vores miljø.

10. Stemmegrænseflade med tingenes internet

Oprettelse af en stemmebrugergrænseflade vil snart blive en vigtig designerfærdighed. Dette er et reelt problem - behovet for at implementere stemmesystemer vil opmuntre dig til at fokusere mere på proaktivt design, det vil sige at forsøge at forstå brugerens oprindelige intentioner, forudse deres behov og forventninger på hvert trin af samtalen.

Stemme er en effektiv måde at indtaste data på - den giver brugerne mulighed for hurtigt at udstede kommandoer til systemet på deres egne betingelser. På den anden side giver skærmen en effektiv måde at vise information på: den giver systemerne mulighed for at vise en stor mængde information på samme tid, hvilket reducerer byrden på brugernes hukommelse. Det er logisk, at det lyder opmuntrende at kombinere dem i ét system.

Smarthøjttalere som Amazon Echo og Google Home tilbyder slet ikke et visuelt display. De forbedrer nøjagtigheden af stemmegenkendelse markant på moderate afstande og tillader håndfri betjening, hvilket igen øger deres fleksibilitet og effektivitet - de er ønskelige selv for brugere, der allerede har smartphones med stemmestyring. Men manglen på en skærm er en kæmpe begrænsning.

Kun bip kan bruges til at informere brugerne om mulige kommandoer, og det bliver kedeligt at læse outputtet, bortset fra de mest basale opgaver. Det er fantastisk at indstille en timer med en stemmekommando, mens du laver mad, men det er ikke nødvendigt at få dig til at spørge, hvor meget tid der er tilbage. At få en almindelig vejrudsigt bliver en hukommelsestest for brugeren, som skal lytte og absorbere en række fakta hele ugen i stedet for at samle dem op fra skærmen med et øjeblik.

Designerne har allerede hybrid løsning, Echo Show (11), som tilføjede en skærm til den grundlæggende Echo-smarthøjttaler. Dette udvider i høj grad udstyrets funktionalitet. Echo Show er dog stadig meget mindre i stand til at udføre de grundlæggende funktioner, der længe har været tilgængelige på smartphones og tablets. Den kan for eksempel ikke (endnu) surfe på nettet, vise anmeldelser eller vise indholdet af en Amazon-indkøbskurv.

En visuel visning er i sagens natur en mere effektiv måde at give folk et væld af information på end blot lyd. At designe med stemmeprioritet kan i høj grad forbedre stemmeinteraktionen, men i det lange løb vil en vilkårlig ikke at bruge den visuelle menu for interaktionens skyld være som at kæmpe med en hånd bundet bag ryggen. På grund af den truende kompleksitet af end-to-end intelligente stemme- og displaygrænseflader, bør udviklere seriøst overveje en hybrid tilgang til grænseflader.

Forøgelse af effektiviteten og hastigheden af talegenererings- og genkendelsessystemer har gjort det muligt at bruge dem i sådanne applikationer og områder som f.eks.

• militær (stemmekommandoer i fly eller helikoptere, f.eks. F16 VISTA),

• automatisk teksttransskription (tale til tekst),

• interaktive informationssystemer (Prime Speech, stemmeportaler),

• mobile enheder (telefoner, smartphones, tablets),

• robotteknologi (Cleverbot - ASR-systemer kombineret med kunstig intelligens),

• bilindustrien (håndfri kontrol af bilkomponenter, såsom Blue & Me),

• hjemmeapplikationer (smart home-systemer).

Pas på sikkerheden!

Biler, husholdningsapparater, varme-/køle- og sikkerhedssystemer til hjemmet og et væld af husholdningsapparater er begyndt at bruge stemmegrænseflader, ofte AI-baserede. På dette trin sendes de data, der er opnået fra millioner af samtaler med maskiner, til computerskyer. Det er tydeligt, at marketingfolk er interesserede i dem. Og ikke kun dem.

En nylig rapport fra Symantecs sikkerhedseksperter anbefaler, at stemmekommandobrugere ikke kontrollerer sikkerhedsfunktioner såsom dørlåse, endsige hjemmesikkerhedssystemer. Det samme gælder for opbevaring af adgangskoder eller fortrolige oplysninger. Sikkerheden ved kunstig intelligens og smarte produkter er endnu ikke undersøgt tilstrækkeligt.

Når enheder i hele hjemmet lytter til hvert ord, bliver risikoen for hacking og misbrug af systemet et ekstremt vigtigt emne. Hvis en hacker får adgang til det lokale netværk eller dets tilknyttede e-mailadresser, kan smartenhedens indstillinger ændres eller nulstilles til fabriksindstillinger, hvilket vil føre til tab af værdifuld information og sletning af brugerhistorik.

Med andre ord frygter sikkerhedsprofessionelle, at stemmedrevet AI og VUI endnu ikke er smarte nok til at beskytte os mod potentielle trusler og holde vores mund lukket, når en fremmed beder om noget.