Wake word что это

  1. Home

  2. Smart Home
  3. News

Did you say ‘Alexa’? Amazon’s new wake word verification tool will make sure

Amazon Echo Alexa

Greg Mombert/Digital Trends
Was that a sneeze or did you actually say “Alexa?” Here to help devices answer that question (so you don’t have to) is Amazon’s new Cloud-Based Wake Word Verification, a feature Amazon’s developer platform describes as a way to improve “Alexa” wake word accuracy by identifying and reducing false wakes caused by like-sounding words. That means that you won’t accidentally turn an third-party, Alexa-enabled device on by saying “hexagon” or calling after your friend Alex.

As it stands, if you enable Alexa on a third-party device (that is to say, something other than the Amazon Echo or Echo Dot), that device likely does only one on-device check to determine whether you’ve said the wake word (Alexa). But now, Amazon wants to make these devices a bit better at picking up what you’re putting down — especially when you’re not necessarily putting down a command. Thanks to Wake Word Verification, a third-party device will send an audio file to Amazon’s servers, confirming that it’s the right wake word before turning itself on and awaiting any further commands.

Don’t worry — this double-checking feature won’t slow Alexa down. Even if you don’t actually say Alexa, and your third-party device mishears you, it’ll still go through the initial startup process. However, once it sees that the cloud verification has failed, Alexa will shut down, so you won’t hear Alexa’s “answer” to a question you never intended to ask.

Currently, Echo devices employ a similar method, which is why you don’t often accidentally wake up an actual Amazon device. But hopefully, this new feature will make other devices just as discerning.

“You’ll need to make some changes to your device to take advantage of Cloud-Based Wake Word Verification, but we believe this update will improve customer experience on any AVS device,” Amazon noted in a blog post. Currently, the Ecobee4 thermostat is the first product that has leveraged Cloud-Based Wake Word Verification, promising customers an “improved ‘Alexa’ wake word accuracy and a better user experience.”

Editors’ Recommendations

  • Amazon might be using Alexa to send you targeted ads

  • Amazon fall hardware event: Home robot, flying drone, and new Alexa devices

  • Everything new announced at Amazon Alexa Live 2021

  • 7 things you didn’t know Alexa could do on an Amazon Echo smart speaker

  • Amazon’s new AR tool lets you fill a room with multiple virtual items





  • Smart Home

Avoid saying these words near your smart speaker, if you don’t want it to listen

Echo Alexa

Smart speakers have been the focus of controversy and concern for some time, particularly with regard to privacy rights. Many people worry their smart devices are listening in on conversations even when the activation word has not been spoken — and to some extent, those fears are reasonably founded. After news surfaced last summer that Google sent its audio recordings to a third party to be transcribed, many people feared their private lives had been compromised.

This news had some re-evaluating the privacy settings on smart devices, and in some instances, changing the activation phrase to something that might not be so easily triggered. It also called into question the accuracy of smart assistant listening; if you speak a word that’s almost but not quite the activation phrase, will it work?

Read more

  • News

Amazon Alexa can now remind you to take your medication

3d printer custom medication magic pill mem2

If you struggle with remembering to take your pills every day, Amazon Alexa can now remind you to take them. 

Amazon announced that it has partnered with Giant Eagle Pharmacy locations to provide its customers the option to create medication reminders that will prompt participants to take their medicine at a particular time of the day, or even request prescription refills. Amazon is using Omnicell medication management tools to implement the new feature. 

Read more

  • Smart Home

Let Amazon Alexa or Google Assistant spook you on Halloween

amazon echo plus 2nd gen

Before those trick or treaters bang on your door or hit the button on that video doorbell, you can get into the Halloween mood with some useful skills using your Google or Amazon smart speaker. Packed with all kinds of spooky tricks, your Alexa or Google Assistant device can be a welcome companion for Halloween celebrations. With a little prompting, the voice assistants can serve as an idea generator, a much-needed distraction, a master of scary moments, and much more. Here are a few of our favorite ways to use Alexa and Google Assistant for all of your Halloween festivities and plans.

Alexa
Access your Halloween playlist
Alexa is ready and waiting to play all the creepy Halloween music you need. If you use Spotify, Alexa can connect to the music service and play all sorts of different Halloween playlists. Or you can create your own playlist on Amazon Music and have it ready at a moment’s notice.
Listen to your latest scary book
Maybe it’s not quite time for the party yet. What’s an impatient Halloween fan to do? Fortunately, Alexa works with Kindle and can read eBooks as well as play audiobooks. Do you have a spooky October story you haven’t quite finished yet? Ask Alexa to turn it on while you are setting up for Halloween or working on your costume and enjoy the best of both worlds.

Read more

Сбор обучающих данных Wake Word

Создавайте постоянно прослушивающие голосовые приложения с помощью настраиваемых обучающих данных пробуждения.

Wake Word Training Data Collection

Избранные клиенты

Расширение возможностей команд для создания ведущих в мире продуктов искусственного интеллекта.

Создайте шлюз между вами и вашими голосовыми продуктами с помощью точных и настраиваемых слов пробуждения и расширения возможностей распознавания слов голосовых помощников, чтобы помочь вам оставаться впереди конкурентов.

Голосовые помощники кардинально изменили способ взаимодействия клиентов со своими устройствами. Они упростили пользователям изучение продуктов и услуг — быстро и эффективно. Однако слушает ли голосовое приложение? Чтобы поставить эти приложения на высокий уровень, их нужно разбудить и перевести с пассивного на активное прослушивание с помощью WAKE WORDS. «Алекса» и «Привет, Сири» — два самых популярных слова для пробуждения в мире.

Statista

По прогнозам, к 2024 году число цифровых голосовых помощников достигнет 8.4 млрд ед. – больше, чем население земного шара. 

Рынки и рынки

Прогнозируется, что объем рынка приложений для голосовых помощников вырастет с 2.8 млрд долларов в 2021 году до 11.2 млрд долларов в 2026 году при среднегодовом темпе роста 32.4%. 

Что такое Wake Word и его примеры 

Пробуждающее слово — это определенное слово или фраза, например «Привет, Siri», «Окей, Google» и «Alexa»; предназначен для активации голосового устройства для ответа при произнесении. Тем не менее постоянно прослушиваемое слово пробуждения, локально интегрированное с устройством, значительно сокращает время отклика и повышает точность идентификации и обработки слова пробуждения даже без подключения к Интернету.

Как Шаип может помочь?

Благодаря программе Shaip, которая предлагает постоянное прослушивание слова пробуждения, ваши модели голосового помощника всегда настроены на прослушивание слова пробуждения, но без фактической записи или передачи данных в облако. Партнерство с Shaip дает вам преимущество работы с экспертами. Благодаря нашему обширному опыту использования технологий искусственного интеллекта и машинного обучения при разработке обучения голосовому помощнику, мы помогаем вам устранить риски, связанные с конфиденциальностью, улучшить взаимодействие с пользователем, снизить затраты на разработку и повысить масштабируемость.

Text Utterance Collection

Ценные советы о том, как выбрать правильные слова для пробуждения / триггерные слова


Выбирайте слова с разными звуками

Различные фонемы обычно создают более отчетливую подпись и обеспечивают лучшую точность результатов. Следовательно, выберите фразы в ваших данных, которые производят различные звуки.


Используйте подходящий префикс со своими словами

Сделайте слова пробуждения более эффективными, добавив к ним такие префиксы, как «Привет», «Привет», «Привет» или «ОК». Это сохранит однозначность слова пробуждения и гарантирует отсутствие случайного совпадения при использовании триггерного слова в обычной речи.


Используйте фонемы для создания слов-триггеров

Сделайте слова для пробуждения комбинацией не менее шести фонем, которые легко различимы машиной и легко произносимы людьми. Например, «Alexa» имеет шесть феноменов, а «Ok Google» — восемь феноменов.


Избегайте использования одного слова

Не делайте ошибку, используя одно слово в качестве слова для пробуждения. Слова пробуждения должны быть достаточно длинными, чтобы их можно было различить.


Простые и уникальные слова

Убедитесь, что триггерные слова, которые вы создаете, должны быть простыми и уникальными, чтобы их можно было легко запомнить.


Избегайте длинных фраз

Длинные пробуждающие фразы, состоящие из нескольких слов, трудно произносить и излишне усложняют процесс.

Ограничения обучающих данных Wake Word

Путаница из-за использования нескольких высказываний

Модель слова пробуждения обычно обучена распознавать нет. разных высказываний, чтобы он мог реагировать на разные вызовы. Однако наличие слишком большого количества различных пробуждающих слов может просто активировать речевой конвейер, и вы не будете знать, какое высказывание произнес пользователь.

Менее точные результаты из-за внешнего окружения

Такие факторы, как шум, расстояние и различия в акцентах и ​​языке, усложняют точное обнаружение ключевых слов для вашей модели искусственного интеллекта.

Создание точных слов пробуждения для вашего бренда

Поездом
Train

Наш опыт в области голосовых технологий помогает нам быстро разрабатывать слова для пробуждения, которые всегда можно услышать, и фирменные фразы для пробуждения. Благодаря распознаванию голоса в сочетании с пониманием обработки естественного языка алгоритмы машинного обучения помогают эффективно расшифровывать речь и выполнять голосовые команды.

Разработка
Develop

Мы сосредоточены на быстро развивающемся прототипировании слова пробуждения, чтобы обеспечить настройку фирменного слова. Прототип действует как доказательство концепции и помогает в точном обучении, ускорении выхода на рынок, ускоренном тестировании и устранении рисков.

Расти
Grow

Испытайте непрерывный рост и беспрепятственное взаимодействие с клиентами с исключительным голосовым помощником. Мы предоставляем возможности многоязычного распознавания речи, чтобы приложение могло точно распознавать слова и фразы даже в условиях сильного шума.

Быстрое проектирование, разработка и развертывание

Обучение, разработка и развертывание постоянно прослушиваемых настраиваемых слов пробуждения не должны быть утомительными и занимать много времени. При правильном содействии опытных технических экспертов Shaip вы можете упростить и сократить время выхода на рынок эффективно. Кроме того, наш опыт сбора данных, маркировки и аннотирования работает на вас, чтобы доставить слова пробуждения в течение нескольких недель.

Особенности обучения и развертывания Wake Words 

Customized Brand Wake Words

Индивидуальные слова пробуждения бренда

Фирменное слово пробуждения часто ассоциируется с ценностью и производительностью. Пришло время использовать огромные преимущества использования фирменных слов для пробуждения в вашу пользу. Создайте собственный бренд и разработайте индивидуальное пробуждающее слово или фразу, которая представит ваш бренд в лучшем свете. В Shaip мы можем помочь вашим клиентам использовать вашу торговую марку при каждом взаимодействии с фирменными заклинаниями со своими голосовыми помощниками.

Команда или фразы

Выход за рамки слова пробуждения — это обнаружение фраз, позволяющее пользователям использовать естественный язык для управления своими устройствами с голосовым управлением. Shaip имеет большой опыт, помогая малым и крупным предприятиям разрабатывать приложения, которые могут обрабатывать длинные фразы с нулевой задержкой и повышенной точностью.

Command Or Phrases Spotting

Embedded Phrase Detection

Встроенное определение слова или фразы

Разработчики Shaip помогают брендам предоставлять своим клиентам расширенные голосовые возможности, предоставляя встроенное определение ключевых слов или фраз. Мы обеспечиваем конфиденциальность, нулевую задержку и высокую точность за счет того, что технология механизма пробуждения слов обрабатывает несколько слов пробуждения в браузере, а не в облаке.

Понимание концепции разнообразия данных

Что такое разнообразие данных?

Это способ сбора важных данных о пользователях, таких как их личность, страна происхождения, возраст, пол, язык, акцент и т. д. Разнообразие данных используется для улучшения алгоритмов, ориентированных на пользователя, для достижения более точных результатов.

Обычно данные имеют тенденцию генерировать встроенные предубеждения. Поэтому, когда мы собираем данные из разных источников, систематическая ошибка в результатах значительно снижается. 

Вот несколько параметров разнообразия данных, на которые Shaip обращает внимание при построении слов пробуждения и других диалоговых команд.

Data Diversity

Раса и этническая принадлежность Индуисты, мусульмане, христиане, африкаанс, европейцы
Уровень образования Бакалавриат, аспирант, доктор философии, магистры
Страна Китай, Япония, Индия, Корея, Дубай, Нигерия, США, Канада
Пол Мужчина, Женщина
Возраст до 10 лет, 10-15, 15-25, 25-45, 45 лет и старше
Язык английский, японский, турецкий, китайский, тайский, хинди
Окружающая среда Тихий, Шумный, Фоновая музыка, Фоновый звук или речь, В помещении, На улице, Театр, Стадион, Кафетерий, В машине, Офис, Торговый центр, Домашний шум, Лестница, Улица/дорога, Море (ветер)
Акценты (английский) шотландский английский, валлийский английский, гиберно-английский, канадский английский, австралийский английский, новозеландский английский.
Стиль речи быстрая/нормальная/медленная скорость, высокая/нормальная/мягкая громкость, формальная/повседневная и т. д.
Позиции устройств Портативный, настольный

Ключевые случаи использования

Голосовой поиск

Добавьте голосовой поиск в мобильные приложения, веб-сайты и устройства. Найдите ключевые слова и фразы в аудио, видео и потоках.

Поиск без помощи рук

Включите ваше программное обеспечение для предоставления результатов поиска в режиме громкой связи, используя голосовые команды для выполнения намеченного действия.

Голосовые команды

Добавьте голосовые команды на устройства, мобильные или веб-приложения, чтобы повысить качество обслуживания клиентов.

Речевая аналитика

Комплексная платформа голосового ИИ дополняет программное обеспечение интеллектуальными инструментами, обеспечивая исключительное качество обслуживания клиентов.

Почему Шаип

Для эффективного развертывания вашей инициативы AI вам потребуются большие объемы специализированных наборов данных для обучения. Shaip — одна из немногих компаний на рынке, которая обеспечивает надежные данные обучения мирового класса в масштабе, соответствующем нормативным требованиям и требованиям GDPR.


Возможности сбора данных

Создавайте, курируйте и собирайте настраиваемые наборы данных (текст, речь, изображения, видео) из более чем 100 стран по всему миру на основе настраиваемых правил.


Гибкая рабочая сила

Используйте нашу глобальную команду из 30,000+ опытных и сертифицированных участников. Гибкое распределение задач и мониторинг потенциала, эффективности и прогресса персонала в реальном времени.


Качество

Наша запатентованная платформа и квалифицированный персонал используют несколько методов контроля качества, чтобы соответствовать или превосходить стандарты качества, установленные для сбора наборов данных для обучения ИИ.


Разнообразный, точный и быстрый

Наш процесс упрощает процесс сбора за счет более простого распределения задач, управления и сбора данных непосредственно из приложения и веб-интерфейса.


Безопасность данных

Сохраняйте полную конфиденциальность данных, делая конфиденциальность нашим приоритетом. Мы гарантируем, что форматы данных контролируются и сохраняются в соответствии с политикой.


Специфика домена

Кураторские данные по предметной области, собранные из отраслевых источников на основе рекомендаций по сбору данных о клиентах.

Рекомендуемые ресурсы

Speech Data Collection

Предлагающий

Службы сбора речевых данных для ваших ИИ

Shaip предлагает комплексные услуги по сбору речевых/аудиоданных на более чем 150 языках, чтобы технологии с поддержкой голоса могли обслуживать разнообразную аудиторию по всему миру.

Conversational Ai

Руководство для покупателя

Руководство покупателя по диалоговому ИИ

Чат-бот, с которым вы разговаривали, работает на продвинутой системе диалогового ИИ, которая обучена, протестирована и построена с использованием множества наборов данных для распознавания речи. Это фундаментальный процесс, лежащий в основе технологии, которая делает машины интеллектуальными.

Utterance Collection

Кейсы

Высказывания для создания многоязычных цифровых помощников на 13 языках

Потребность в обучении произношению возникает, потому что не все клиенты используют точные слова или фразы, взаимодействуя или задавая вопросы своим голосовым помощникам в формате сценария.

Создание клинического НЛП — важная задача, для решения которой требуется огромный опыт в данной области. Я ясно вижу, что вы на несколько лет впереди Google в этой области. Я хочу работать с вами и масштабировать вас.

Google, Inc. директор

Google, Inc.

Моя команда инженеров работала с командой Шайпа более 2 лет во время разработки API-интерфейсов для медицинской речи. Мы были впечатлены их работой, проделанной в области НЛП для здравоохранения, и тем, чего они могут достичь с помощью сложных наборов данных.

Google, Inc. Начальник инженерного отдела

Google, Inc.

Использование ИИ для повышения эффективности бизнеса за счет обслуживания клиентов

Часто задаваемые вопросы (FAQ)

Пробуждающие слова — это фразы, которые активируют ваши голосовые системы и переводят их в режим прослушивания для получения инструкций от пользователей.

Имя вызова — это ключевое слово, используемое для запуска определенного «навыка» программного обеспечения. Имя вызова также может быть именем человека или места и может сочетаться с действием, командой или вопросом. Все пользовательские навыки должны иметь имя вызова для его запуска.

Высказывания — это фразы, используемые пользователями для обращения к вашему программному обеспечению голосового управления. Программное обеспечение идентифицирует намерение пользователя из данного высказывания и в дальнейшем реагирует соответствующим образом.

Обработка естественного языка или НЛП — это слияние искусственного интеллекта и компьютерной лингвистики, отвечающее за взаимодействие между машинами и естественными языками людей. Используя алгоритмы НЛП, программное обеспечение анализирует, понимает, изменяет или генерирует естественный язык для вашей модели ИИ.

Слово пробуждения, Высказывания, Слова-триггеры, Горячие слова, Слова призыва

 Предложение – это группа слов, которая выражает законченный смысл или передает цельную мысль. Предложение может быть простым, сложным или составным по своей природе и может быть выражено в письменной или устной форме. 

Высказывание, с другой стороны, представляет собой единицу речи, обычно не передающую всего смысла или мысли, изобилующую паузами и молчаниями.

Примеры высказываний: 

  1. «Позвольте представить вам… это статистика по региону»
  2. «Покажи мне последний фильм… тот, который вышел на прошлой неделе».
  3. — Магазин на 22-й улице сейчас открыт… тот, что рядом с банком.

Alexa поставляется с несколькими встроенными микрофонами, которые обнаруживают и распознают слова пробуждения, игнорируя фоновые шумы. Чтобы предотвратить ложные отрицательные и ложные положительные результаты, Alexa запрограммирована на включение слуха только после обнаружения пробуждающего слова «Alexa».

Пробуждающее слово — это любая запрограммированная фраза, которая заставляет речевой помощник начинать прослушивание и обработку запросов пользователя. Любой речевой помощник обучается взаимодействию в реальном мире с использованием искусственного интеллекта и обработки естественного языка, при которой речь преобразуется в фразы, слова и звуки. 

A wake word is a phrase that causes an Amazon Echo device to begin recording an end user’s request so it can be sent to the cloud for processing. When Amazon Echo detects its wake word, it records the next spoken request and sends a recording of the user’s request to Amazon Web Services (AWS). Amazon computers in the cloud process the user’s request and send back a response or initiate an action.

Amazon Echo users utter the wake word when they want to activate and engage with the device. «Alexa» is Echo’s default wake word, but users can change the default to «Amazon,» «Echo,» or «Computer» if desired. The term wake word is analogous to hotword, which is used to activate the voice user interface (VUI) on Google Home.

While the Echo device is constantly listening, it only records and transmits audio after the wake word has been spoken. Users can review and delete their voice recordings from Amazon servers through the Alexa app or by visiting the Alexa Privacy Settings web page.  End users can also request that Alexa play a short tone to indicate device has heard the wake word and audio is being sent to the cloud.

How do wake words work?

The Amazon Echo uses deep learning, an aspect of artificial intelligence, to teach Echo software how to recognize the wake word. Although Amazon Echo is constantly listening, Echo’s audio buffer prevents the device from eavesdropping and recording entire conversations. 

According to Amazon, Echo devices have a recording buffer of just a few seconds, which is just long enough to detect the wake word. Amazon uses real-world customer voice interactions to help train their neural networking algorithms. When audio recordings are being transmitted to Amazon’s cloud-based Alexa Voice Services (AVS), the Echo device will also alert the end user visually. (The thin ring on the Amazon Echo will turn blue and flash.) When the wake word is being changed, the light on the device will briefly flash orange. 

All Amazon Echo devices have multiple, built-in microphones that help the device ignore background noise and decipher wake words spoken from a distance. To prevent Alexa from being woken accidentally, companies can submit audio samples to Amazon to have specific instances of the wake word ignored. For example, a company making a television commercial about «Alexa» can submit the audio to Amazon.

Using a technique called acoustic fingerprinting, Amazon can detect when multiple devices are hearing the same command at around the same time (during a television commercial for Alexa, for example). When the Super Bowl between the New England Patriots and the Los Angeles Rams was broadcast in January 2019, an Amazon Echo commercial featuring the actor Forest Whitaker aired. Amazon utilized a recording of the commercial, along with acoustic fingerprinting, to ignore the wake word, «Alexa,» whenever Whitaker uttered it.

This was last updated in August 2019


Continue Reading About wake word

  • Amazon Alexa features warrant enterprise use — eventually.
  • Alexa doesn’t have the attention span to secretly eavesdrop on your conversations.
  • Alexa for Hospitality brings AI voice assistant to hotel rooms.

“Ok Google, why does your wake-up word work so well?” is a question we could ask directly to the voice assistant of this digital giant. However, it would be very difficult to obtain the answer from an artificial intelligence because of the complexity of this technology. This is where we come into action!

As a reminder, the Wake-Up Word, or Hot Word, is a brick, a module, of speech recognition in the global sense of the term. It is a word or a series of words that allows to trigger the voice recording of the user of a speech recognition system. Although, if we make a small retrospective of the news of Google we can realize that their assistants tend to listen a little more than what is expected.

This “keyword” such as the famous “Ok Google” is used to activate the system for two reasons:

  • It respects the privacy of users so that only the sequence that follows the Wake-Up Word is recorded. This one corresponds to the intention, and it is then legitimate that the system records it.
  • It optimizes system consumption and performance as constant recording and analysis of audio files is a very heavy task if performed continuously.

Now that the meaning of Wake Word is clear, let’s dive into the topic: knowing what makes a good one. Indeed, under its rather simplistic appearance and more of a brand image issue at first glance, it is a real puzzle to find THE right word.

In this sense, Google speech recognition displays a rather exemplary trigger word for several reasons.

Simplicity is key for a wake word

First good lesson from Google and this applies mainly to marketing! Indeed, their wake-up word takes the name of their brand which is added to a very common and simple word to say: “ok”. As a result, thousands of users, whether it’s the voice assistant or the connected speaker, keep repeating Google when they interact with the brand’s tools.

In terms of brand awareness, what could be better? Google’s name already is certainly one of the most reknown nowadays, we let you imagine the rest.

Yet, Amazon’s Alexa is also an example of a great wake word as they chose a humanoid name for their conversational AI. Indeed, a real name may help create a stronger relationship with the users. And, as they associate the conversational AI’s name to your brand, it strengthens their relationship with it too! This strategy can prove to be really effective, but you need to keep in mind that your brand should already be well established. Overwise, you should prefer to include your brand name in it, in order to remain top-of-mind thanks to your smart assistant. And if your brand IS a name? Well, who knows, maybe it is the best case scenario.

Choosing a uniform word

To this we can add a more pragmatic aspect very well managed by Google’s voice recognition. One of the strengths of its wake-up word is its uniformity. Whatever the languages, everybody says “ok” and “Google” in the same way. This is very practical for several reasons, but the main one is that only one wake-up word applies to all markets covered by Google! It seems harmless like that, yet it is very complicated to translate a Hot Word while maintaining consistency and efficiency. Speaking of efficiency, let’s continue on the third point!

Effectiveness at its best

To finish with these praises, Google has found a combination of words that is technically very effective in terms of voice recognition. Indeed, when imagining and developing a Wake Word it is very important to be aware of false positives. False positives are unexpected errors that send positive answers when in reality they are negative. Indeed, the phonemes are the smallest elements composing an audio frequency (translating sound). If a false positive occurs, it may be because phonemes are very close, following a mispronunciation for instance. From then on, the system can be activated and record the conversation without the users’ knowledge.

Thus, “Ok” and “Google” are composed of very different and distant phonemes. It results in a very low false-positive rate for Google’s speech recognition.

The rise of minimalism

OK Google, Hey Siri… conversational AIs usually use different words in addition to their brand name as wake words. In the search for better customer experience, it is clear that there are still some improvements to make. For instance, repeating “OK Google” or “Hey Siri” before each sentence to ask something to your smart assistant is irritating. That’s why Google and Apple are slowly giving up on their multiple wake up words. 

The single word – wake word adopted by Apple’s Siri

Indeed, Apple recently announced that Siri won’t need to hear “Hey” before its name anymore. Indeed, the brand is trying to change its wake word so that it is more natural to interact with the conversational AI. Thus, simply calling “Siri” would work. But doing it may not be as simple as it seems. As we explained earlier in this post, wake words should be specific enough to be effective and noise-robust.

Before completely removing extra syllables from the formula, the brand needs to make sure that Siri is still able to understand when it has been called or not. As it also implies sending data to the Cloud, smart assistants aren’t *supposed* to be recording everything. Yet, it wouldn’t be the first to have only the name of the smart assistant as a wake word. Indeed, Alexa, the conversational AI from Amazon, has never needed an extra word.

Google’s choice for smoothing the conversation flow

Google also decided that the wake word was probably too long and not natural to speak up. Indeed, in 2018, they launched the “continued conversation”. It consists of saying the wake up word only once to activate the active listening and being able to pursue a conversation. The assistant would understand and respond to multiple voice commands without having to re-activate it. It makes the flow more natural and allows for more convenience and a better user experience.

Still, it is important to think about different wake words to make sure that the conversational AI responds to every request. For example, in addition to the branded one, smart home devices should recognize words such as “Help me” for instance. This would allow them to alert someone when an emergency occurs.

In this article, we have seen, through different examples, what makes a good Wake Word and the important aspects to take into account when choosing it. To learn more about the rest of voice technologies, other articles in our blog cover different topics related to this technology.

The typical workflow for interacting with a voice assistant is to first activate it with a «wake» or «hot» word, then provide your voice command. Rhasspy supports listening for a wake word with one of several systems.

Available wake word systems are:

  • Raven
  • Porcupine
  • Snowboy
  • Mycroft Precise
  • Pocketsphinx
  • External Command

You can also wake Rhasspy up using the HTTP API by POST-ing to /api/listen-for-command. Rhasspy will immediately wake up and start listening for a voice command.

The following table summarizes the key characteristics of each wake word system:

System Performance Training to Customize Online Sign Up
raven moderate yes, offline no
porcupine excellent yes, offline no
snowboy good yes, offline no
precise moderate yes, offline no
pocketsphinx poor no no

MQTT/Hermes

Rhasspy listens for hermes/hotword/<wakewordId>/detected messages to decide when to wake up. The hermes/hotword/toggleOff and hermes/hotword/toggleOff messages can be used to disable/enable wake word listening (done automatically during voice command recording and audio output).

Raven

Listens for a wake word with Raven. This system is based on the Snips Personal Wakeword Detector and works by comparing incoming audio to several pre-recorded templates.

The underlying implementation of Raven heavily borrows from node-personal-wakeword by mathquis.

Add to your profile:

"wake": {
  "system": "raven",
  "raven": {
    "probability_threshold": 0.5,
    "minimum_matches": 1,
    "average_templates": true
  }
}

To train Raven, you will need to record at least 3 WAV template files with your custom wake word. This can be done in the Rhasspy web interface or manually with a program like Audacity. If you record manually, make sure to trim silence from the beginning and end of the audio and export the templates to a directory named raven/default in your profile as 16-bit 16Khz mono WAV files.

You can adjust the sensitivity by changing raven.probability_threshold to a value in [0, 1] (realistically between 0.1 and 0.73). A value below 0.5 will make Raven more sensitive, increasing false positives. A value above 0.5 will make Raven less sensitive, increasing false negatives. Additionally, you can increase the value of minmum_matches to required more than one WAV template to match before a detection occurs. This should reduce false positives, but may increase false negatives.

The average_templates setting will combine all of the example WAV templates into a single template, reducing CPU usage. This may also reduce accuracy, but the loss appears negligible in practice.

Multiple Wake Words

Raven supports any number of wake words, and is only limited by CPU. A separate thread is used for each wake word detection in order to utilize multiple cores. To add more keywords to Raven, you must edit your profile:

"wake": {
  "system": "raven",
  "raven": {
      ...

      "keywords": {
          "default": {
              "probability_threshold": 0.4
          },

          "other-keyword": {
              "average_templates": False,
              "minimum_matches": 2
          }
      }
  }
}

The wake.raven.keywords object contains a key for each wake/keyword and their individual settings. If you don’t specify a setting, the value under wake.raven is used instead.

A keyword whose key is NAME should have it’s WAV templates stored in raven/NAME in your profile directory. Changing the «Wakeword Id» in the Raven section of Rhasspy’s web UI will allow you to record examples to the appropriate directory (NAME = Wakeword Id).

Saving Positive Examples

Setting wake.raven.examples_dir to the name of a directory in your profile will cause Raven to save WAV audio of any positive wakeword detections to DIR/NAME/FORMAT where DIR is wake.raven.examples_dir, NAME is the keyword name (e.g., «default»), and FORMAT is a strftime format string specified in wake.raven.examples_format. For example:

"wake": {
  "system": "raven",
  "raven": {
      ...

      "examples_dir": "raven"
  }
}

will save positive WAV examples to raven/default/examples. These examples could be used to train a more sophisticated wake word system like Mycroft Precise.

UDP Audio Streaming

By default, Rhasspy will stream microphone audio over MQTT in WAV chunks. When using Rhasspy in a master/satellite setup, it may be desirable to only send audio to the MQTT broker after the satellite has woken up. For this case, set both microphone.<MICROPHONE_SYSTEM>.udp_audio and wake.raven.udp_audio to the same free port number on your satellite. This will cause the microphone service to stream over UDP until an asr/startListening message is received. It will go back to UDP stream when an asr/stopListening.

Implemented by rhasspy-wake-raven-hermes

Porcupine

Listens for a wake word with porcupine. This system has the best performance out of the box. If you want a custom wake word, however, you will need to re-run their optimizer tool every 30 days.

Add to your profile:

"wake": {
  "system": "porcupine",
  "porcupine": {
    "sensitivity": 0.5
  }
}

There are a lot of keyword files available for download. Use the linux platform if you’re on desktop/laptop (amd64) and the raspberrypi platform if you’re using a Raspberry Pi (armhf/aarch64). The .ppn files should go in the porcupine directory inside your profile (referenced by keyword_path).

If you want to create a custom wake word, you will need to use the Picovoice Console. NOTE: the generated keyword file is only valid for 30 days, though you can always just re-run the optimizer.

UDP Audio Streaming

By default, Rhasspy will stream microphone audio over MQTT in WAV chunks. When using Rhasspy in a master/satellite setup, it may be desirable to only send audio to the MQTT broker after the satellite has woken up. For this case, set both microphone.<MICROPHONE_SYSTEM>.udp_audio and wake.porcupine.udp_audio to the same free port number on your satellite. This will cause the microphone service to stream over UDP until an asr/startListening message is received. It will go back to UDP stream when an asr/stopListening.

Implemented by rhasspy-wake-porcupine-hermes

Snowboy

Listens for one or more wake words with snowboy. This system has the good performance out of the box, but requires an online service to train.

Add to your profile:

"wake": {
  "system": "snowboy",
  "hermes": {
    "wakeword_id": "default"
  },
  "snowboy": {
    "model": "snowboy/snowboy.umdl",
    "audio_gain": 1,
    "sensitivity": "0.5",
    "apply_frontend": false
  }
}

If your hotword model has multiple embedded hotwords (such as jarvis.umdl), the «sensitivity» parameter should contain sensitivities for each embedded hotword separated by commas (e.g., «0.5,0.5»).

To train your own wake word model, see seasalt-ai. The resulting file, ending with .pmdl, should go in your profile directory. Then, set wake.snowboy.model to the name of that file.

You also have the option of using a pre-train universal model (.umdl) from Kitt.AI.

Multiple Wake Words

You can have snowboy listen for multiple wake words with different models, each with their own settings. You will need to download each model file to the snowboy directory in your profile.

For example, to use both the snowboy.umdl and jarvis.umdl models, add this to your profile:

"wake": {
  "system": "snowboy",
  "snowboy": {
    "model": "snowboy/snowboy.umdl,snowboy/jarvis.umdl",
    "model_settings": {
      "snowboy/snowboy.umdl": {
        "sensitivity": "0.5",
        "audio_gain": 1,
        "apply_frontend": false
      },
      "snowboy/jarvis.umdl": {
        "sensitivity": "0.5,0.5",
        "audio_gain": 1,
        "apply_frontend": false
      }
    }
  }
}

Make sure to include all models you want in the model setting (separated by commas). Each model may have different settings in model_settings. If a setting is not present, the default values under snowboy will be used.

UDP Audio Streaming

By default, Rhasspy will stream microphone audio over MQTT in WAV chunks. When using Rhasspy in a master/satellite setup, it may be desirable to only send audio to the MQTT broker after the satellite has woken up. For this case, set both microphone.<MICROPHONE_SYSTEM>.udp_audio and wake.snowboy.udp_audio to the same free port number on your satellite. This will cause the microphone service to stream over UDP until an asr/startListening message is received. It will go back to UDP stream when an asr/stopListening.

Implemented by rhasspy-wake-snowboy-hermes

Mycroft Precise

Listens for a wake word with Mycroft Precise. It requires training up front, but can be done completely offline!

Add to your profile:

"wake": {
  "system": "precise",
  "precise": {
    "model": "model-name.pb",
    "sensitivity": 0.5,
    "trigger_level": 3,
    "chunk_size": 2048
  }
}

Follow the instructions from Mycroft AI to train your own wake word model. When you’re finished, place both the .pb and .pb.params files in the precise directory of your profile. Then set wake.precise.model to the name of the .pb file (e.g., my-wake-word.pb).

UDP Audio Streaming

By default, Rhasspy will stream microphone audio over MQTT in WAV chunks. When using Rhasspy in a master/satellite setup, it may be desirable to only send audio to the MQTT broker after the satellite has woken up. For this case, set both microphone.<MICROPHONE_SYSTEM>.udp_audio and wake.precise.udp_audio to the same free port number on your satellite. This will cause the microphone service to stream over UDP until an asr/startListening message is received. It will go back to UDP stream when an asr/stopListening.

Implemented by rhasspy-wake-precise-hermes

Pocketsphinx

Listens for a keyphrase using pocketsphinx. This is the most flexible wake system, but has the worst performance in terms of false positives/negatives.

Add to your profile:

"wake": {
  "system": "pocketsphinx",
  "pocketsphinx": {
    "keyphrase": "okay rhasspy",
    "threshold": 1e-30,
    "chunk_size": 960
  }
}

Set wake.pocketsphinx.keyphrase to whatever you like, though 3-4 syllables is recommended. Make sure to train and restart Rhasspy whenever you change the keyphrase.

The wake.pocketsphinx.threshold should be in the range 1e-50 to 1e-5. The smaller the number, the less like the keyphrase is to be observed. At least one person has written a script to automatically tune the threshold.

UDP Audio Streaming

By default, Rhasspy will stream microphone audio over MQTT in WAV chunks. When using Rhasspy in a master/satellite setup, it may be desirable to only send audio to the MQTT broker after the satellite has woken up. For this case, set both microphone.<MICROPHONE_SYSTEM>.udp_audio and wake.pocketsphinx.udp_audio to the same free port number on your satellite. This will cause the microphone service to stream over UDP until an asr/startListening message is received. It will go back to UDP stream when an asr/stopListening.

Implemented by rhasspy-wake-pocketsphinx-hermes

Command

Calls a custom external program to listen for a wake word, only waking up Rhasspy when the program exits. A wakewordId should be printed to standard out before exiting. You will receive chunks of raw audio on standard in.

Add to your profile:

"wake": {
  "system": "command",
  "command": {
    "program": "/path/to/program",
    "arguments": [],
    "sample_rate": 16000,
    "sample_width": 2,
    "channels": 1
  }
}

When Rhasspy starts, your program will be called with the given arguments. Raw audio chunks will be written to standard in as Rhasspy receives hermes/audioServer/<siteId>/audioFrame messages. This audio is automatically converted to the format given by wake.command.sample_rate (hertz), wake.command.sample_width (bytes), and wake.command.channels.

Once your program detects the wake word, it should print a wakewordId to standard out and exit. Rhasspy will call your program again when it goes back to sleep. If the empty string is printed, Rhasspy will use «default» for the wakewordId.

The following environment variables are available to your program:

  • $RHASSPY_BASE_DIR — path to the directory where Rhasspy is running from
  • $RHASSPY_PROFILE — name of the current profile (e.g., «en»)
  • $RHASSPY_PROFILE_DIR — directory of the current profile (where profile.json is)

See sleep.sh for an example program.

Implemented by rhasspy-remote-http-hermes

Dummy

Disables wake word functionality.

Add to your profile:

"wake": {
  "system": "dummy"
}

Понравилась статья? Поделить с друзьями:
  • Wake up spoken word
  • Wake the word перевод
  • Wake meaning of word
  • Waiting on the word change
  • Waiting for the word