Casa Endavant pensant Assistents intel·ligents: què passa després de siri?

Assistents intel·ligents: què passa després de siri?

2024

Vídeo: Google Assistant vs Apple Siri: Smart Assistant Battle 2020 Edition! (Setembre 2024)

Els assistents intel·ligents (Siri, Google Now, Cortana i similars) han passat de curiositats i trucs de sala d’uns pocs anys a eines essencials que molta gent utilitza en la seva vida diària. La setmana passada em vaig deixar caure per la Conferència d’Assistents Intel·ligents de Nova York, presentada per Opus Research, i em va impressionar el progrés que està fent el programari en diverses indústries, incloses les progressions de les empreses financeres, assegurances i mèdiques en la creació d’agents específics..

El fundador d'Opus Research, Dan Miller, va explicar que moltes de les tecnologies fonamentals, com el reconeixement de la parla, porten més de vint anys al voltant. Tot i que recentment ha vist algunes millores importants, més que una revolució, va dir que "estem en un camí evolutiu", amb molts productes en un continu amb diferents capacitats. Va assenyalar que hi ha centenars d'assistents intel·ligents empresarials que es poden utilitzar per a una conversa basada en text senzilla en anglès amb un conjunt de dades fix i com per exemple, navegar per un lloc web o un FAQ. A l’altre extrem de l’espectre, probablement només hi ha unes dotzenes d’aplicacions dinàmiques amb sensació humana que són més converses i coneixedores del context.

Miller va assenyalar les sol·licituds que van guanyar premis a la conferència. Julie d'Amtrak va començar com a agent de servei de telefonia de resposta interactiva de veu fa anys, però ara s'ha convertit en un agent que treballa al lloc web per guiar els viatgers a través de Amtrak.com, basat en un agent de Next IT. Telefónica Mexico té un agent anomenat Nico que té un avatar i també proporciona suport a través de Twitter i Facebook, basat en la plataforma AgentBot. ING Netherlands té Inge, una aplicació que permet consultar el saldo del vostre compte bancari o transferir diners mitjançant la veu, mitjançant tecnologia biomètrica de la veu de Nuance, per autentificar la vostra identitat.

Les mencions honorables inclouen aplicacions sanitàries, com ara una aplicació que us ajuda a triar un pla sanitari. Altres aplicacions de les que he sentit a la programació són Domino's Pizza, que té una aplicació anomenada Dom que et permet utilitzar la veu per demanar pizza; i BMW, que té un agent virtual com a part del seu finançament automàtic Up2drive.

Brett Beraneck de Nuance va parlar de com els avenços en les xarxes neuronals d’aprenentatge profund han millorat coses com la comprensió del llenguatge natural, així com el reconeixement de la veu, i com ara es conflueixen per permetre molt més interès en el camp. L’assistent Nina de Nuance va ser un exemple precoç, i des d’aleshores s’ha convertit en moltes aplicacions específiques, que van des dels sistemes interactius de resposta de veu a les companyies d’assegurances fins a les aplicacions de compres. Cadascuna d’aquestes aplicacions té una personalitat diferent, depenent del que s’intenta ajudar a fer.

Una de les grans novetats que va comentar va ser la biomètrica de la veu, en què la veu substitueix una contrasenya. Va parlar de com empreses com ING a Europa desenvolupen agents que no només utilitzen el reconeixement de veu i el processament del llenguatge natural, sinó que també comencen a utilitzar la veu per reconèixer la persona que truca. Va dir que això era més segur i natural que una contrasenya tradicional.

Tot i que els estudis recents han preocupat que les gravacions de veu puguin enganyar aquests sistemes, Nuance va assenyalar que la tecnologia actual inclou funcions destinades a recollir anomalies de la veu enregistrada i apunten a altres estudis que tenien un punt de vista diferent. A més, va dir, els dissenyadors poden utilitzar diferents nivells de biomètrica de la veu per a diferents funcions, com ara un simple reconeixement per comprovar el saldo del compte o demanar que torni a repetir una seqüència aleatòria de paraules per a transferències importants de diners.

La biomètrica de veu sembla, certament, guanyar una mica de tracció. Al Simposi Gartner de la setmana passada, una sessió sobre "casos de client frescos" als serveis financers incloïa una aplicació Citibank que feia servir aquesta funció.

MyWave té un ajudant anomenat Frank que està pensat per ser habilitat per diverses empreses per permetre’s interactuar amb elles d’una manera més conversativa, en lloc que cada negoci desenvolupi el seu propi. Els primers usos inclouen un banc de Nova Zelanda i una aplicació anomenada Saveawatt dissenyada per ajudar-vos a triar el proveïdor d’electricitat.

La directora general Geraldine McBride ha explicat que la companyia intenta crear assistents que solucionin la bretxa entre clients i aplicacions de serveis, amb el que denomina "relacions gestionades pel client" o CMR, un impuls en les aplicacions tradicionals de CRM. Una gran diferència, va dir, és que el client es fa càrrec de totes les seves dades, en lloc de l'empresa.

Una altra empresa relativament nova, Expect Labs té un producte anomenat MindMeld que funciona com a suport a diverses empreses que volen oferir una interfície de veu per substituir les interfícies tradicionals i gestionar preguntes i respostes. Es pot utilitzar per a diverses aplicacions, com ara veure programes de televisió només demanant el nom i consultant el sistema per a diversos sistemes. (Amazon Fire TV té algunes d’aquestes funcions, però no està integrada amb la vostra configuració de cables, mentre que un dels inversors de Expect Labs és l’empresa de cable Liberty Global.)

El conseller delegat, Tim Tuttle, va explicar que MindMeld acostuma a utilitzar el reconeixement de la parla ja disponible a la majoria de dispositius i, en canvi, es centra en la comprensió del llenguatge natural i la creació d’un gràfic de coneixement de la informació disponible. Va dir que la firma intenta escalar el sistema per incloure més informació de diverses fonts i descompondre les jerarquies de diferents categories d'informació que formen part de la majoria d'aquests sistemes. Va dir entendre realment qüestions significa ser capaç d’entendre la intenció en diverses categories.

Una cosa que vaig sentir de diversos assistents van ser estadístiques que suggereixen que aproximadament un 10 per cent de totes les cerques al web es fan ara mitjançant agents d’intel·ligència. (El pioner d'AI, Andrew Ng, va dir que això era cert per a la cerca de veu a Baidu l'any passat i diverses persones van dir que ara també era veritat a Google, però no he sentit cap confirmació de primera mà.)

Amb expectativa, Miller d'Opus Research va dir que encara hi havia molta feina per fer. La precisió bàsica dels sistemes té molt marge per a la millora, especialment en passar d’allò que dius a allò que vols dir a què fer com a resultat. Va mencionar una conferència del conseller delegat de Xerox PARC, Stephen Hoover, a la conferència, que va dir que els sistemes actuals són actuals fins al 90 per cent de comprendre què volem dir, però que el 10 per cent segueix sent un problema perquè és el que recorden la majoria de la gent quan tracta. un sistema. I Miller va dir que hi ha lloc per a una millor personalització, ja que si el sistema sap amb qui parla, pot donar millors resultats. Per exemple, va assenyalar que Facebook sap qui utilitza el sistema perquè teniu la sessió iniciada; i va dir que fer-ho perfectament amb més agents serà cada cop més important.

Sens dubte és una categoria fascinant, i espero que tots passarem molt més temps parlant amb els nostres telèfons i ordinadors i interactuarem amb agents que no són prou humans. Trobo aquesta una de les tendències més interessants de la informàtica en aquests dies.