Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Голосовий інтерфейс користувача

Другие языки:

Голосовий інтерфейс користувача

Подписчиков: 0, рейтинг: 0

Інтерфейс голосового користувача (англ. Voice user interface, VUI) робить можливим інтерактивну взаємодію людини з комп'ютерами, використовуючи розпізнавання мовлення для розуміння голосових команд і відповідей на запитання, і, як правило, синтезу мовлення для відтворення відповіді. Пристрій голосових команд (англ. voice command device, VCD) — це пристрій, який керується за допомогою голосового інтерфейсу користувача.

Голосові інтерфейси користувача були додані до автомобілів, систем домашньої автоматизації, операційних систем комп'ютерів, побутової техніки, як-от пральні машини та мікрохвильові печі, а також до пультів дистанційного керування телевізором. Вони є основним способом взаємодії з віртуальними помічниками на смартфонах і розумних колонках. Старі автоматизовані оператори (які направляють телефонні дзвінки на правильний внутрішній номер) та інтерактивні системи голосової відповіді (які здійснюють складніші транзакції по телефону) можуть реагувати на натискання кнопок клавіатури за допомогою тонів DTMF, але ті з повним голосовим інтерфейсом користувача дозволяють абонентам промовляти запити та відповіді, не натискаючи жодних кнопок.

Новіші VCD не залежать від мовця, тому вони можуть реагувати на кілька голосів, незалежно від акценту чи діалектного впливу. Вони також здатні реагувати на кілька команд одночасно, розділяти голосові повідомлення та надавати відповідний зворотний зв'язок, точно імітуючи природну розмову.

Огляд

VUI — це інтерфейс до будь-якої мовної програми. Управляти машиною, просто розмовляючи з нею, було науковою фантастикою ще зовсім недавно. Донедавна вважалося, що ця область досліджень повністю належить до штучного інтелекту. Проте досягнення в таких технологіях, як синтез мовлення, розпізнавання мовлення, обробка природної мови та хмарні сервіси, загалом, сприяли масовому впровадженню цих інтерфейсів. VUI стали більш звичними, і люди користуються перевагами, які надають ці інтерфейси без рук і очей, у багатьох ситуаціях.

VUI повинні надійно реагувати на введення, інакше користувачі будуть відхилені та часто висміяні своїми користувачами. Розробка хорошого VUI вимагає міждисциплінарних талантів у галузі інформатики, лінгвістики та психології — усі ці навички є дорогими та важкодоступними. Навіть за допомогою передових інструментів розробки, створення ефективного VUI вимагає глибокого розуміння як завдань, які потрібно виконати, так і цільової аудиторії, яка використовуватиме систему. Чим ближче VUI відповідає розумовій моделі завдання, тим легше буде використовувати його з невеликою кількістю даних або без них, що призведе до вищої ефективності та більшої задоволеності користувача.

VUI, розроблений для широкої публіки, він повинен підкреслювати простоту використання та надавати велику допомогу та вказівки для тих, хто телефонує вперше. На відміну від цього, VUI, розроблений для невеликої групи досвідчених користувачів (включаючи працівників польового обслуговування), має більше зосереджуватися на продуктивності, а менше на допомозі та вказівках. Такі програми повинні оптимізувати потоки викликів, звести до мінімуму підказки, усунути непотрібні ітерації та дозволити розробити «змішані ініціативи діалога», які дають змогу абонентам вводити кілька частин інформації в одному висловлюванні та в будь-якому порядку чи комбінації. Коротше кажучи, мовні програми мають бути ретельно розроблені для конкретного бізнес-процесу, який автоматизується.

Не всі бізнес-процеси однаково добре підходять для автоматизації мовлення. Загалом, чим складніші запити та транзакції, тим складніше їх буде автоматизувати, і тим більша ймовірність, що вони зазнають невдачі у широкому використанні. У деяких випадках автоматизація просто непридатна, тому єдиним варіантом є допомога агента в реальному часі. Гарячу лінію юридичної консультації, наприклад, було б дуже важко автоматизувати. З іншого боку, мова ідеально підходить для обробки швидких і рутинних транзакцій, як-от зміна статусу робочого замовлення, завершення запису часу чи витрат або переказ коштів між рахунками.

Історія

Ранні програми для VUI включали голосовий набір телефонів безпосередньо або через (зазвичай Bluetooth) гарнітуру або автомобільну аудіосистему.

У 2007 році в діловій статті CNN повідомлялося, що голосові команди становлять понад мільярд доларів і що такі компанії, як Google і Apple, намагаються створити функції розпізнавання мовлення. Минули роки з моменту публікації статті, і відтоді світ став свідком різноманітних пристроїв голосових команд. Крім того, Google створив механізм розпізнавання мовлення під назвою Pico TTS, а Apple випустила Siri. Пристрої голосового керування стають все більш доступними, і постійно створюються інноваційні способи використання людського голосу. Наприклад, Business Week припускає, що майбутнім пультом дистанційного керування буде людський голос. Наразі Xbox Live дозволяє такі функції, і Джобс натякнув на таку функцію на новому Apple TV.

Програмні продукти для голосових команд на обчислювальних пристроях

Як Apple Mac, так і Windows PC забезпечують вбудовані функції розпізнавання мовлення для своїх останніх операційних систем.

Microsoft Windows

Дві операційні системи Microsoft, Windows 7 і Windows Vista, забезпечують можливості розпізнавання мовлення. Microsoft інтегрувала голосові команди в свої операційні системи, щоб забезпечити механізм для людей, які хочуть обмежити використання миші та клавіатури, але все ще хочуть зберегти або підвищити свою загальну продуктивність.

Windows Vista

За допомогою голосового керування Windows Vista користувач може диктувати документи та електронні листи в основних програмах, запускати їх та перемикатися між ними, керувати операційною системою, форматувати документи, зберігати документи, редагувати файли, ефективно виправляти помилки та заповнювати форми в Інтернеті. Програмне забезпечення для розпізнавання мовлення навчається автоматично кожного разу, коли користувач його використовує, також розпізнавання мовлення доступне англійською (США), англійською (Велика Британія), німецькою (Німеччина), французькою (Франція), іспанською (Іспанія), японською, китайською (традиційною), і китайська (спрощена). Крім того, програмне забезпечення постачається з інтерактивним посібником, який можна використовувати для навчання як користувача, так і механізму розпізнавання мовлення.

Windows 7

На додаток до всіх функцій, наданих у Windows Vista, Windows 7 містить майстер налаштування мікрофона та підручник щодо використання цієї функції.

Mac OS X

На всіх комп'ютерах Mac OS X попередньо встановлено програмне забезпечення для розпізнавання мовлення. Програмне забезпечення є незалежним від користувача і дозволяє користувачеві «переміщатися по меню та вводити комбінації клавіш, вимовляти назви прапорців, назви перемикачів, елементів списку та назв кнопок, а також відкривати, закривати, керувати програмами та перемикатися між ними». Однак веб-сайт Apple рекомендує користувачам придбати комерційний продукт під назвою Dictate.

Комерційна продукція

Якщо користувач не задоволений вбудованим програмним забезпеченням розпізнавання мовлення або він не має вбудованого програмного забезпечення для розпізнавання мовлення для своєї ОС, то користувач може експериментувати з комерційним продуктом, таким як Braina Pro або DragonNaturallySpeaking для ПК з Windows і Dictate, назва того самого програмного забезпечення для Mac OS.

Голосові команди мобільних пристроїв

Будь-який мобільний пристрій під керуванням ОС Android, Microsoft Windows Phone, iOS 9 або новішої версії або ОС Blackberry забезпечує голосові команди. На додаток до вбудованого програмного забезпечення для розпізнавання мовлення та операційної системи кожного мобільного телефону, користувач може завантажувати програми голосових команд сторонніх розробників із магазину програм кожної операційної системи: Apple App Store, Google Play, Windows Phone Marketplace (спочатку Windows Marketplace for Mobile) або Світ додатків BlackBerry.

Android ОС

Google розробила операційну систему з відкритим вихідним кодом під назвою Android, яка дозволяє користувачеві виконувати голосові команди, такі як: надсилати текстові повідомлення, слухати музику, отримувати маршрути, телефонувати підприємствам, телефонувати контактам, надсилати електронну пошту, переглядати карту, переходити на веб-сайти, написати в нотатку та знайти у Google. Програмне забезпечення для розпізнавання мовлення доступне для всіх пристроїв, починаючи з Android 2.2 «Froyo», але в налаштуваннях потрібно встановити англійську мову. Google дозволяє користувачеві змінювати мову, і коли він або вона вперше використовує функцію розпізнавання мовлення, користувачу буде запропоновано, щоб його голосові дані були приєднані до його облікового запису Google. Якщо користувач вирішує скористатися цією послугою, це дозволяє Google навчати програмне забезпечення голосом користувача.

Google представила Google Assistant з Android 7.0 «Nougat». Він набагато розширеніший, ніж стара версія.

Amazon.com має Echo, який використовує спеціальну версію Android від Amazon для надання голосового інтерфейсу.

Microsoft Windows

Windows Phone — це операційна система мобільного пристрою Microsoft. У Windows Phone 7.5 програма мовлення не залежить від користувача і її можна використовувати, щоб: зателефонувати комусь із вашого списку контактів, зателефонувати на будь-який номер телефону, повторно набрати останній номер, надіслати текстове повідомлення, зателефонувати на голосову пошту, відкрити програму, прочитати зустрічі, запитувати статус телефону та здійснювати пошук в Інтернеті. Крім того, під час телефонного дзвінка також можна використовувати мовлення, а під час телефонного дзвінка можливі такі дії: натиснути номер, увімкнути гучномовець або зателефонувати комусь, що ставить поточний дзвінок на утримання.

Windows 10 представляє Cortana, систему голосового керування, яка замінює раніше використовувану систему на телефонах Windows.

iOS

Apple додала голосове керування до свого сімейства пристроїв iOS як нову функцію iPhone OS 3 . iPhone 4S, iPad 3, iPad Mini 1G, iPad Air, iPad Pro 1G, iPod Touch 5G та новіші моделі оснащені більш просунутим голосовим помічником Siri. Голосове керування все ще можна ввімкнути через меню налаштувань нових пристроїв. Siri — це незалежна від користувача вбудована функція розпізнавання мовлення, яка дозволяє користувачеві віддавати голосові команди. За допомогою Siri користувач може видавати команди, наприклад, надсилати текстове повідомлення, перевіряти погоду, встановлювати нагадування, знаходити інформацію, планувати зустрічі, надсилати електронний лист, знаходити контакт, встановлювати будильник, отримувати маршрути, відстежувати свої запаси, встановити таймер і запитати приклади запитів голосових команд. Крім того, Siri працює з Bluetooth і дротовими навушниками.

Amazon Alexa

У 2014 році Amazon представила пристрій для розумного дому Alexa. Його основним призначенням був просто розумний динамік, який дозволяв споживачеві керувати пристроєм за допомогою голосу. Згодом він перетворився на новинку, яка мала можливість керувати побутовою технікою за допомогою голосу. Тепер майже всі прилади керуються за допомогою Alexa, включаючи лампочки та температуру. Дозволяючи голосове керування, Alexa може підключатися до технології розумного дому, що дозволяє вам блокувати будинок, контролювати температуру та активувати різні інші пристрої. Ця форма A.I дозволяє комусь просто поставити йому запитання, а у відповідь Alexa шукає, знаходить і відповідає вам.

Розпізнавання мови в автомобілях

Оскільки автомобільні технології вдосконалюються, до автомобілів буде додано більше функцій, і ці функції, швидше за все, будуть відволікати водія. За словами CNET, голосові команди для автомобілів повинні дозволяти водієві віддавати команди і не відволікатися. CNET заявила, що Nuance припускає, що в майбутньому вони створять програмне забезпечення, яке буде нагадувати Siri, але для автомобілів. Більшість програмного забезпечення для розпізнавання мовлення на ринку в 2011 році мала лише від 50 до 60 голосових команд, але Ford Sync мав 10 000. Однак CNET припустив, що навіть 10 000 голосових команд недостатньо з огляду на складність і різноманітність завдань, які користувач може захотіти виконувати під час водіння. Голосові команди для автомобілів відрізняються від голосових команд для мобільних телефонів і комп'ютерів, оскільки водій може використовувати цю функцію, щоб шукати найближчі ресторани, шукати газ, маршрути проїзду, дорожні умови та місцезнаходження найближчого готелю. Наразі технологія дозволяє водієві віддавати голосові команди як на портативних GPS -пристроях, таких як Garmin, так і на навігаційній системі виробника автомобіля.

Список систем голосових команд, наданих виробниками двигунів:

Ford Sync
Lexus Voice Command
Chrysler UConnect
Honda Accord
GM IntelliLink
BMW
Mercedes
Pioneer
Harman
Hyundai

Невербальний вхід

Хоча більшість голосових користувацьких інтерфейсів розроблено для підтримки взаємодії через розмовну людську мову, нещодавні дослідження в розробці інтерфейсів використовують невербальні людські звуки як вхідні дані. У цих системах користувач керує інтерфейсом, видаючи немовні звуки, такі як дзижчання, свист або дмухування в мікрофон.

Одним із таких прикладів невербального голосового інтерфейсу користувача є Blendie, інтерактивна художня інсталяція, створена Келлі Добсоном. Ця деталь включала в себе класичний блендер 1950-х років, який був модернізований, щоб реагувати на мікрофон. Щоб керувати блендером, користувач повинен імітувати гуркітливі механічні звуки, які зазвичай видає блендер: він буде повільно обертатися у відповідь на низьке гарчання користувача та збільшувати швидкість, коли користувач видає більш високі вокальні звуки.

Іншим прикладом є VoiceDraw, дослідницька система, яка дає можливість цифрового малювання для людей з обмеженими руховими здібностями. VoiceDraw дозволяє користувачам «малювати» штрихи на цифровому полотні, модулюючи голосні звуки, які відображаються на напрямках пензля. Модулювання інших паралінгвістичних функцій (наприклад, гучності їхнього голосу) дозволяє користувачеві керувати різними функціями малюнка, такими як товщина мазка.

Інші підходи включають прийняття невербальних звуків для розширення сенсорних інтерфейсів (наприклад, на мобільному телефоні) для підтримки нових типів жестів, які були б неможливими лише за допомогою введення пальцем.

Проблеми дизайну

Голосові інтерфейси створюють значну кількість проблем для зручності використання. На відміну від графічних інтерфейсів користувача (GUI), найкращі методи дизайну голосового інтерфейсу все ще з'являються.

Виявленість

При взаємодії на основі суто аудіо голосового інтерфейса користувача, як правило, страждають від низької видимості : користувачам важко зрозуміти масштаб можливостей системи. Для того, щоб система могла передати те, що можливо без візуального відображення, їй потрібно буде перерахувати доступні варіанти, які можуть бути стомлюючими або нездійсненними. Низька видимість часто призводить до того, що користувачі повідомляють про плутанину щодо того, що їм «дозволено» говорити, або невідповідність очікувань щодо широти розуміння системи.

Транскрипція

Хоча технологія розпізнавання мовлення значно покращилася за останні роки, голосові інтерфейси користувача все ще страждають від помилок синтаксичного аналізу або транскрипції, коли мовлення користувача інтерпретується неправильно. Ці помилки, як правило, особливо поширені, коли в мовленні використовується технічна лексика (наприклад, медичні терміни) або нетрадиційні варіанти написання, наприклад, назви виконавців або пісень.

Розуміння

Ефективний дизайн системи для максимального розуміння розмови залишається відкритим полем досліджень. Голосові інтерфейси користувача, які інтерпретують стан розмови та керують ними, складно розробляти через притаманну складність інтеграції складних завдань обробки природної мови, як - от роздільна здатність кореференцій, розпізнавання іменованих об'єктів, пошук інформації та керування діалогами. Більшість голосових помічників сьогодні здатні дуже добре виконувати окремі команди, але обмежені в їх здатності керувати діалогом за межі вузького завдання або кількох поворотів у розмові.

Майбутнє використання

Пристрої кишенькового розміру, такі як КПК або мобільні телефони, наразі покладаються на невеликі кнопки для користувацького введення. Вони або вбудовані в пристрій, або є частиною інтерфейсу сенсорного екрана, наприклад, інтерфейсу Apple iPod Touch і iPhone Siri. Інтенсивне натискання кнопок на пристроях з такими маленькими кнопками може бути стомлюючим і неточним, тому простий у використанні, точний і надійний VUI потенційно стане серйозним проривом у простоті їх використання. Тим не менш, такий VUI також принесе користь користувачам ноутбуків та персональних комп'ютерів, оскільки він вирішить численні проблеми, пов'язані з використанням клавіатури та миші, зокрема травми від повторювання, такі як синдром зап'ястного каналу та повільна швидкість друку на клавіатурі. Крім того, використання клавіатури, як правило, передбачає сидіння або стояння нерухомо перед підключеним дисплеєм; навпаки, VUI дозволить користувачеві бути набагато мобільнішим, оскільки введення мови усуває необхідність дивитися на клавіатуру.

Такі розробки можуть буквально змінити вигляд сучасних машин і мати далекосяжні наслідки для того, щоб користувачі могли взаємодіяти з ними. Ручні пристрої будуть розроблені з більшими, легшими для перегляду екрана, оскільки клавіатура не знадобиться. Пристроям із сенсорним екраном більше не потрібно буде розділяти дисплей та екран, забезпечуючи таким чином повноекранний перегляд вмісту. По суті, портативні комп'ютери можна було б зменшити вдвічі з точки зору розміру, оскільки половину клавіатури було б усунуто, а всі внутрішні компоненти були б інтегровані за дисплеєм, фактично в результаті вийде простий планшетний комп'ютер. Настільні комп'ютери складатимуться з процесора та екрану, що заощаджує простір на робочому столі, яке в іншому випадку займає клавіатура. Телевізійні пульти дистанційного керування та клавіатури на десятках інших пристроїв, від мікрохвильових печей до копіювальних апаратів, також можуть бути усунені.

Однак для такого розвитку подій необхідно було б подолати численні проблеми. По-перше, VUI повинен бути достатньо складним, щоб розрізняти введення, наприклад команди, і фонову розмову; інакше буде зареєстровано помилковий ввод, і підключений пристрій буде вести себе нестабільно. Стандартна підказка, наприклад знаменита «Комп'ютер!» виклик персонажів науково-фантастичних телешоу та фільмів, таких як "Зоряний шлях ", може активувати VUI і підготувати його до отримання подальшого введення від того самого динаміка. Імовірно, VUI також може включати уявлення, схоже на людину: наприклад, голос або навіть екранного персонажа, який відповідає (наприклад, «Так, Вамші?») і продовжує спілкуватися з користувачем для уточнення отриманих даних та забезпечення точності.

По-друге, VUI повинен працювати разом із дуже складним програмним забезпеченням, щоб точно обробляти та знаходити/отримувати інформацію або виконувати дії відповідно до уподобань конкретного користувача. Наприклад, якщо Саманта віддає перевагу інформації з певної газети, і якщо вона віддає перевагу, щоб інформація була в узагальненому вигляді, вона може сказати: «Комп'ютер, знайди мені інформацію про повінь на півдні Китаю минулої ночі»; у відповідь, VUI, який знайомий з її вподобаннями, «знайде» факти про «повінь» у «південному Китаї» з цього джерела, перетворить їх у точкову форму та передасть їй на екрані та/або в голосовій формі, в комплекті з цитатою. Тому знадобиться точне програмне забезпечення для розпізнавання мовлення, а також певний ступінь штучного інтелекту з боку машини, пов'язаної з VUI.

Наслідки конфіденційності

Занепокоєння щодо конфіденційності викликає той факт, що голосові команди доступні постачальникам голосових інтерфейсів в незашифрованому вигляді, таким чином, можуть передаватися третім сторонам і оброблятися несанкціонованим або несподіваним чином. Крім мовного змісту записаного мовлення, манера висловлювання користувача та характеристики голосу можуть неявно містити інформацію про його або її біометричну особистість, риси особистості, форму тіла, фізичний та психічний стан здоров'я, стать, орієнтацію, настрій та емоції, соціально-економічний статус і географічне походження.

Див. також

Розпізнавання мовлення
Синтез мовлення
Список програм для розпізнавання мовлення
Інтерфейс користувача природною мовою
Дизайн інтерфейсу користувача
Голосовий браузер
Голосова команда
Розпізнавання мовлення в Linux
Linguatronic
Система розумний дім
Голосові обчислення

Посилання

Голосові інтерфейси: Оцінка потенціалу [Архівовано 28 червня 2011 у Wayback Machine.], Якоб Нільсен
Підйом голосу: Хронологія [Архівовано 15 липня 2021 у Wayback Machine.]
Voice First Глосарій термінів [Архівовано 17 червня 2021 у Wayback Machine.]
Голос Перший Список читання [Архівовано 29 травня 2022 у Wayback Machine.]

п о р Обробка природної мови

Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)

Аналіз тексту	Сегментація тексту Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів Видобування колокацій Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів Синтаксичний аналіз Вирішення лексичної багатозначності Навчання онтологій Видобування термінології Видобування інформації Визначення регістру

Автоматизоване реферування	Багатодокументне реферування Видобування речень Спрощення тексту

Машинний переклад	Автоматизований переклад На основі прикладів На основі правил На основі словника На основі трансформації Нейронний Гібридний Інтерлінгвіальний Статистичний

Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови

Тематичне моделювання	Розміщення патінко Приховане розміщення Діріхле Латентно-семантичний аналіз

Автоматизоване рецензування	Автоматизоване оцінювання творів (в освіті) Конкордансер Система перевірки граматики Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису

Інтерфейс користувача природною мовою	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача

Програмне забезпечення	Natural Language Toolkit SpaCy

п о р Інтелектуальний персональний програмний агент

Аліса Amazon Alexa Ask Ziggy Bixby Braina Cortana Google Assistant Google Now M (Facebook) Maluuba S Voice SILVIA Siri Viv Vlingo Voice Mate WolframAlpha