Лучи меня, Скотти: рост голосовой биометрической аутентификации
Раньше, до «приложений» и «веб-сайтов», вы могли войти на один или два компьютера, используя пароли, и это было нормально. Даже безопасно. Но кто сегодня помнит пароли к десяткам сайтов, которыми многие регулярно пользуются? Люди справляются, повторно используя пароли или, может быть, используя менеджер паролей, но как насчет мобильных устройств? Организации, в свою очередь, обязаны защищать конфиденциальные данные с помощью инструментов из каменного века вычислительной техники. Все, как пользователи, так и специалисты по технологиям, согласны с тем, что пароли плохо подходят для сегодняшних нужд, но, тем не менее, они продолжают жить.
Ситуация постепенно меняется с появлением многофакторной/мультимодальной аутентификации. Однако это немного Дикого Запада с одноразовыми PIN-кодами, смартфонами, сканерами отпечатков пальцев и так далее. Эта статья о голосовой биометрической аутентификации, ее опасностях и перспективах.
Что такое голосовая биометрическая аутентификация?
Современные методы обработки сигналов могут разбивать человеческую речь (таким образом, «био») на тысячи показаний в секунду («метрика»). Можно получить десятки параметров, включая тон, высоту тона, размер гортани человека и т. д., а результат сохранить в виде математического представления, в просторечии известного как «голосовой отпечаток». Десятилетия достижений как в аппаратном обеспечении, так и в алгоритмах могут даже объяснить голоса, страдающие от простуды.
Для людей, знакомых с технологией паролей, подумайте о голосовом отпечатке как о «голосовом хэше». Однако, в отличие от хэшей паролей, голосовые отпечатки основаны на вероятности, а не на математической достоверности. Важно помнить об этом при оценке требований поставщиков или разработке возможного голосового решения.
Биометрическая аутентификация обычно добавляется в существующую систему в качестве дополнительного фактора. Двухфакторный («2FA») становится все более распространенным: что-то, что вы знаете (пароль), и что-то, что у вас есть (одноразовый PIN-код из приложения или SMS на вашем смартфоне). 3FA добавляет третий фактор, например, отпечаток пальца, отпечаток радужной оболочки глаза или голос. Существуют даже мультимодальные системы, в которых используются две или более биометрических данных, таких как отпечаток пальца и голос.
Чтобы участвовать в системе голосовой аутентификации, пользователь должен «зарегистрировать» свой голос. Существует два вида систем проверки говорящих: текстозависимые и текстонезависимые. Первый требует, чтобы человек повторял ту же фразу, с которой он зарегистрировался, а второй более гибкий. Голосовой сигнал математически анализируется в процессе, известном как «извлечение признаков». Извлечение признаков выполняется из будущих образцов голоса и сравнивается с данными регистрации. Поскольку образцы голоса никогда не дают 100% математического совпадения, сравнение функций дает оценку вероятности, которую администраторы системы могут настроить для аутентификации максимального числа законных пользователей, в то же время не допуская самозванцев.
Типичной независимой от текста системой может быть горячая линия поддержки клиентов организации: в течение первых 30 секунд или около того система голосовой аутентификации организации может прозрачно воспроизводить естественную речь человека. Организация также может посмотреть, с какого номера телефона звонит человек. Хотя ни один тест сам по себе математически ничего не гарантирует, как часть целой системы, которая может включать в себя другие запатентованные методы обнаружения мошенничества, организация может предоставить своим клиентам естественный способ безопасного общения с ними по телефону без необходимости запоминать пароль..
Далее в этой статье мы рассмотрим полный пример регистрации и использования текстовой версии новых облачных API голосовой аутентификации Microsoft.
Почему сейчас?
Голосовая биометрия имеет пеструю историю с несколькими коммерческими провалами, включая драматический крах Lernout & Hauspie, когда-то мирового лидера в области голосовой аутентификации. Почему вы должны верить, что сейчас все по-другому?
Возобновление интереса объясняется несколькими факторами. Некоторые из них носят технологический характер — среди прочего, улучшения в программных алгоритмах и достижения в шумоподавляющих микрофонах для смартфонов. Другие носят социальный характер: миллионы людей знакомы с Siri от Apple и Alexa от Amazon, и около 2 миллиардов человек владеют смартфоном. Третьи носят коммерческий характер — по мере того, как хакеры усиливают свою игру, компании все больше охотно экспериментируют с биометрическими данными как фактором двухфакторной или трехфакторной аутентификации. А третьи мотивированы правительством — например, федеральные правительственные рекомендации по безопасному интернет-банкингу, которые мы обсудим позже в этой статье.
Для конечных пользователей, которые не всегда находятся в авангарде технологических инноваций, есть практические преимущества голосового входа в систему — при использовании смартфона сложно одновременно запоминать и вводить сложные пароли. Как отмечает IBM,
Буквенно-цифровой пароль, изначально задуманный для мира настольных компьютеров, оснащенных полноразмерными клавиатурами, плохо адаптируется к новой технологической парадигме, где клавиатуры быстро исчезают. С появлением персональных помощников с голосовым управлением и мобильных приложений с голосовым управлением голос становится все более распространенным методом взаимодействия с технологиями.
Наконец, благодаря достижениям в области искусственного интеллекта и нейронных сетей Microsoft, Google, Facebook, Amazon и Apple переходят к распознаванию голоса, привлекая к себе дополнительное внимание и респектабельность. Голосовая аутентификация, безусловно, является пространством для роста.
Насколько точна голосовая биометрия?
Существует ряд проблем с голосовой аутентификацией. Наиболее фундаментально, в отличие от алгоритмов шифрования паролей, он основан на вероятностях. Продавцы часто говорят, что «голос каждого человека уникален», но современные технологии могут дать только вероятность совпадения. Реальные реализации должны решить, где находится золотая середина между ложным принятием (предоставлением доступа самозванцу) и ложным отказом (отказом от действительного пользователя). Системы, настроенные на более строгие требования, неизбежно будут доставлять неудобства некоторым пользователям из-за ложных отказов. Заявления поставщиков, рекламирующие так называемую «равную частоту ошибок» (технический термин, используемый для сравнения голосовых систем, который часто цитируется в маркетинговой литературе) менее 1%, следует рассматривать с долей скептицизма. Могут ли они указать на фактическое независимое исследование или это просто реклама?
Тем не менее, реальные коммерческие реализации обычно не полагаются исключительно на голосовую биометрию — это всего лишь один фактор в общей системе. Вместо того, чтобы сразу отклонить сомнительную попытку голосовой аутентификации, компания может решить, что она исходит от известного телефонного номера, и взвесить свое решение несколько иначе. Nuance, крупный поставщик средств распознавания голоса, обсуждает то, что он называет «общим уровнем безопасности», в статье «Измерение производительности в диалоговом окне многофакторной аутентификации на основе биометрии». С точки зрения бизнеса и безопасности вы должны оценить, стоит ли того компромисс между затратами и сложностью реализации и удобством для пользователей системы — на этот вопрос нет простого ответа.
Хотя это и не имеет прямого отношения к коммерческому контролю доступа, который обычно включает в себя парольные фразы, используемые в контролируемой обстановке, следует также напомнить, что использование криминалистики голоса (которая почти всегда включает свободную, неконтролируемую речь) в судебных разбирательствах обычно запрещено в юрисдикциях США. Согласно Wall Street Journal, федеральные суды никогда не выносили решений о допустимости голосовой биометрии в качестве доказательства. А в соответствии с Технологической оценкой ФБР «Дорожная карта передового опыта в области современной биометрии», агентам, использующим голосовую биометрию в качестве инструмента расследования, не разрешается давать экспертные показания — анализ голоса не считается достаточно строгим, чтобы подпадать под так называемую «Доберовскую проверку». стандарт для показаний научной экспертизы в федеральном суде. Это не означает, что коммерческое использование технологии распознавания речи недопустимо — предоставить кому-либо доступ к вычислительной системе — это не то же самое, что посадить его в тюрьму, — но стоит понимать более широкий социальный контекст технологии.
Кто игроки?
Хотя эта статья не является обзором продукта, я упомяну некоторые компании (есть много других, и это не следует воспринимать как одобрение), технологии которых представляют более широкий рынок. Nuance, также компания, стоящая за Dragon NaturallySpeaking, предоставляет свой VocalPassword в качестве локальной системы и утверждает, что является «наиболее широко используемым голосовым биометрическим решением в мире». Программное обеспечение Nuance также является технологией Apple Siri. ViGo от VoiceVault — это облачное решение, которое можно легко интегрировать в мобильные приложения. Например, стартап SayPay использует VoiceVault для создания решения для мобильных платежей на основе токенов. На сегодняшний день в этих системах зарегистрированы десятки миллионов голосов людей.
Помимо этих специализированных компаний, Amazon предлагает Echo в качестве полноценного домашнего устройства распознавания речи, в то время как гиганты отрасли, такие как Facebook, Google и Microsoft, экспериментируют с облачным распознаванием речи с использованием алгоритмов искусственного интеллекта. Открытый вопрос заключается в том, будет ли грядущая волна облачных речевых API включать аутентификацию (Microsoft предлагает экспериментальный API голосовой аутентификации, как показано далее в этой статье).
Кто использует голосовую аутентификацию?
Финансовые и правительственные учреждения, возможно, из-за того, что им необходимо бороться с мошенничеством, первыми внедрили голосовую связь как часть решения для многофакторной аутентификации. Федеральный совет по проверке финансовых учреждений (FFIEC), федеральный межведомственный орган США, в течение многих лет призывал к многоуровневой безопасности в интернет-банкинге, и в последнее время в банковском и финансовом секторе наблюдается волна поддержки.
Vanguard, гигант взаимных фондов, с 2012 года предлагает голосовую аутентификацию многим пользователям своих телефонов. К лету 2016 года HSBC Bank предложит голосовую аутентификацию для телефонного и мобильного банкинга примерно 15 миллионам пользователей, что сделает его одним из крупнейших банковских внедрений на сегодняшний день. ING Netherlands предлагает онлайн-платежи, авторизованные голосом, более чем 100 000 своих клиентов в Нидерландах. Около 250 000 пользователей кредитных карт Citi зарегистрировались в системе голосовой аутентификации банка для телефонных транзакций. А в Азиатско-Тихоокеанском регионе, лидере всего цифрового онлайна, Citi активно продвигает голосовую аутентификацию, и несколько банков в Сингапуре объявили о планах на 2016 год.
Все больше государственных программ используют голосовую аутентификацию. В течение многих лет он использовался в Соединенных Штатах для отслеживания условно-досрочно освобожденных. Новозеландский эквивалент IRS зарегистрировал более 1 миллиона пользователей в своей голосовой системе и рассматривает возможность федерации ее использования несколькими государственными учреждениями. Агентство социального обеспечения Южной Африки зарегистрировало миллионы граждан для получения пособий, используя голосовую аутентификацию для борьбы с мошенничеством.
И в одном из крупнейших внедрений голосовой биометрии на сегодняшний день крупнейший оператор мобильной связи в Турции, Turkcell, имеет более 10 миллионов подписчиков в своей системе голосовой аутентификации.
На данном этапе общедоступные подробности реализации недостаточны. Если голос заменяет существующий фактор, скажем, пароли, как компания может обеспечить безопасность, учитывая, что голосовые отпечатки могут быть сопоставлены только с грубым пределом вероятности? Читая о том или ином новом развертывании, вы всегда должны критически относиться к тому, что вам говорят, а что нет.
Футуристические варианты использования голосовой биометрии включают в себя голосовые электронные подписи (хотя несоответствие голоса даже на 1% вызывает вопросы о достоверности таких «подписей»), проверку личности учащихся при дистанционном обучении, разблокировку автомобилей и добавление голосовой аутентификации. на сайты социальных сетей, чтобы предотвратить выдачу себя за другое лицо. Потребности нефинансовых, неправительственных организаций в обеспечении «идентификации на расстоянии» становятся первостепенными в нашем все более сетевом мире, неизбежно поднимая те же вопросы конфиденциальности и безопасности, с которыми приходилось сталкиваться существующим реализаторам, и что мы обсудим позже.
Риски и преимущества
Подделка — очевидная проблема — что, если кто-то запишет ваш голос и воспроизведет его? Говорят, что, в отличие от пароля, вы не можете изменить свой голос, если кто-то его украдет. Это правда, но вендоры придумали несколько методов противодействия этому трюку. Простые атаки повторного воспроизведения можно победить, потому что никогда не должно быть 100% математического совпадения между двумя образцами голоса (всегда будут небольшие различия среди десятков параметров, измеренных даже для образцов речи, использующих одни и те же слова). «Обнаружение живучести» — это еще один подход к отражению атак записи, при которых система аутентификации предлагает пользователю повторить специальную фразу. Конечно, это увеличивает время и сложность (и, возможно, дополнительные лицензионные сборы для компании) в процессе голосовой аутентификации, и некоторые организации отказываются от этого дополнительного шага.
Тем не менее спуфинг представляет собой постоянную угрозу, за которой поставщики (и покупатели их систем) должны следить. Вычислительная группа SPIES в Университете Алабамы сообщила в 2015 году, что исследователи смогли использовать готовый инструмент преобразования голоса, чтобы эффективно клонировать голос жертвы и обманывать современные системы проверки голоса. Opus Research скептически относится к этому открытию, но можно с уверенностью предположить, что, если голосовая аутентификация будет распространяться, хакеры неизбежно повысят свою игру.
Голос человека может измениться из-за простуды или старения. Предполагается, что современные системы могут справиться с первым, а со вторым можно справиться, если люди будут периодически перезаписывать свои голоса.
Интересным механизмом защиты от мошенничества, уникальным для систем голосовой аутентификации, является хранение голосовых записей известных преступников в черном списке обнаружения мошенников. Если чей-то голос инициирует совпадение со списком мошенников, это не обязательно означает, что они будут автоматически заблокированы, но в качестве потенциального красного флага это может добавить еще один уровень многоуровневой безопасности организации.
Обнаружение мошенников также поднимает вопросы о согласии: предотвращение мошенничества — это хорошо, но если чей-то голос записывается без его ведома, даже для кажущейся законной цели, это может противоречить законам в разных юрисдикциях. Уведомления типа «этот звонок будет записан в целях качества и обучения» явно не затрагивают безопасность, поэтому ищите эту часто слышимую фразу, чтобы в будущем незаметно расширить ее, чтобы охватить этот случай.
Конфиденциальность и безопасность клиентов
Ключевые вопросы, которые задают специалисты по безопасности: «Где и как хранятся записи голосовой аутентификации?» Утечки паролей происходят постоянно — есть ли риски утечки голосовых идентификаторов?
Одна из проблем заключается в том, где хранятся данные — в локальной системе, принадлежащей и управляемой вашей организацией, или в системе облачного провайдера? Другая проблема заключается в том, каким образом данные кодируются для хранения в голосовой базе данных — необработанный звук, математически преобразованный, обычный текст или зашифрованный?
Современные системы никогда не хранят незашифрованные пароли, только хэш, и хорошая система голосовой аутентификации будет делать что-то подобное. Например, вместо того, чтобы хранить необработанный файл WAV, системы будут хранить математическое представление.
Потенциальная проблема с такой системой, однако, заключается в том, что в отличие от хэшей паролей, которые не используются, кроме аутентификации, голосовые «хэши» теоретически могут использоваться для деанонимизации. Представьте себе утечку на уровне LinkedIn, когда на хакерских форумах продается более 100 миллионов голосовых отпечатков.
Это может показаться надуманной угрозой, но очевидно, что это риск, присущий любой биометрической системе, где идентификаторы пользователей и неизменные биологические характеристики хранятся вместе. Голосовые биометрические данные могут представлять собой личную информацию (PII), которую федеральные правительственные агентства и подрядчики обязаны защищать в соответствии с Законом о конфиденциальности. Хранение PII голосовой аутентификации в зашифрованном виде снизит риск утечки данных, хотя неясно, какие поставщики делают это, если таковые имеются.
Хотя я не знаю ни одной существующей системы голосовой идентификации, которая хранит данные аутентификации только на локальном устройстве пользователя, вполне возможно, что такая система может быть построена (см. Как правительство США может стать мобильным с FIDO для обсуждения того, как локальная авторизация и криптография с открытым ключом может работать в тандеме). Это позволит аутентификации по голосовому отпечатку предвосхитить опасения, поднятые сенатором Элом Франкеном на слушаниях в Сенате в 2013 году по поводу конфиденциальности первого смартфона Apple, считывающего отпечатки пальцев, iPhone 5s. Apple заявила, что Touch ID используется только локально, отпечатки пальцев хранятся в защищенном чипе на телефоне и что данные не хранятся на серверах Apple. Когда Apple впоследствии открыла API Touch ID для сторонних разработчиков с выпуском iOS 8, начали появляться приложения, использующие локальную аутентификацию по отпечатку пальца. Альянс FIDO (Fast Identity Online) продвигает именно такую функциональную совместимость, но еще предстоит выяснить, какое место в их дорожной карте занимает голос.
Взломы голосовых баз данных — не единственная проблема. Как и многие другие данные сегодня, биометрические PII, такие как голос, в настоящее время лишь частично регулируются в Соединенных Штатах, и в результате существует мало контроля над тем, как данные могут использоваться или передаваться. Однако, учитывая повышение осведомленности общественности о проблемах конфиденциальности, вашей организации может потребоваться принять во внимание будущие изменения в нормативно-правовой среде. Например, в Техасе и Иллинойсе («Попытки штатов в области регулирования биометрических данных») уже действуют законы, регулирующие сбор и использование биометрических данных. И не забывайте, что в Европейском союзе действуют другие правила конфиденциальности, чем в Соединенных Штатах.
Имейте в виду, что биометрические базы данных могут быть подвержены требованиям со стороны правительства США на основании доктрины третьих лиц (прецедент Верховного суда, утверждающий, что данные передаются третьим лицам, не требует от правительства получения ордера на обыск для доступа к ним). Но в ключевом деле, связанном с GPS-слежением в 2012 году, судья Сотомайор написал:
«…может быть необходимо пересмотреть посылку о том, что физическое лицо не имеет разумных ожиданий конфиденциальности в отношении информации, добровольно раскрываемой третьим сторонам. Такой подход плохо подходит для эпохи цифровых технологий, когда люди раскрывают большой объем информации о себе третьим лицам в ходе выполнения рутинных задач».
Домашний урок? Если ваша организация использует голосовую биометрическую аутентификацию, вы должны знать, что это потенциально может иметь последствия для конфиденциальности, и вы должны ответственно относиться к доверию, которое оказывают вам пользователи.
Azure Cognitive Service: распознавание говорящего
В дополнение к полномасштабным локальным решениям, предлагаемым ведущими специализированными фирмами, такими как Nuance, другие тяжеловесы отрасли пытаются принять участие в акции. В качестве примера грядущей волны облачных голосовых биометрических API приведено пошаговое руководство о том, как вы можете начать изучать службу распознавания речи Microsoft Azure Cognitive Service, которая в настоящее время находится в предварительной версии. В приведенном здесь примере я зарегистрировал свой голос в сервисе, а затем проверил его способность проверять более поздние образцы моей речи. Это текстозависимая система, то есть вы регистрируете свой голос, используя готовую фразу.
Для простоты я использовал бесплатные инструменты Python (популярная утилита командной строки, которая предоставляет платформу с открытым исходным кодом, которую мы можем использовать для взаимодействия с API Cognitive Service) и Audacity (для управления файлами голосовых заметок, которые я создал на своем iPhone). В реальном мире ваше приложение должно было бы обрабатывать эти детали программно.
- Зарегистрируйте бесплатную учетную запись разработчика Microsoft. В конце процесса регистрации вам будет назначен ключ подписки разработчика.
- Если у вас еще нет Python, загрузите его с python.org и обязательно добавьте python.exe в свой PATH. Затем скачайте скрипты Python для распознавания говорящих с открытым исходным кодом от Microsoft.
- Мы собираемся протестировать службу проверки, которая проверяет, соответствует ли неизвестный образец речи ранее зарегистрированному голосу. Эта услуга требует, чтобы подписчик предоставил три (3) образца речи, используя одну из нескольких предопределенных фраз. Образец должен быть в виде 16-битного монофонического файла WAV 16 кГц с инкапсуляцией PCM (поскольку приложение голосовых заметок iPhone, которое я использовал в своих тестах, создает файлы в формате m4a, я сначала загрузил их в Audacity и экспортировал в формат WAV с использованием необходимых настроек Microsoft).
- В командной строке Windows перейдите в папку, в которую вы загрузили сценарии на шаге 2.
- Выполните следующие шаги. Сначала создайте профиль проверки говорящего, указав 32-битный ключ подписки из шага 1:
python CreateProfile.py <ключ_подписки>
Эта команда должна вернуть новый 32-битный идентификатор профиля. Теперь вам нужно предоставить 3 обучающих образца, используя предопределенную фразу (я выбрал «Я собираюсь сделать ему предложение, от которого он не сможет отказаться»). После каждой успешной отправки вам сообщают, как далеко вы продвинулись в процессе:
python EnrollProfile.py <subscription_key> <profile_id> training-1.wav
Завершено зачислений = 1
Осталось регистраций = 2
Статус регистрации = Регистрация
Регистрационная фраза = я собираюсь сделать ему предложение, от которого он не сможет отказаться
python EnrollProfile.py <subscription_key> <profile_id> training-2.wav
Зачислений завершено = 2
Осталось регистраций = 1
Статус регистрации = Регистрация
Регистрационная фраза = я собираюсь сделать ему предложение, от которого он не сможет отказаться
python EnrollProfile.py <subscription_key> <profile_id> training-3.wav
Завершено регистраций = 3
Оставшиеся регистрации = 0
Статус регистрации = Зачислен
Регистрационная фраза = я собираюсь сделать ему предложение, от которого он не сможет отказаться
- А теперь лакмусовая бумажка — отправьте несколько образцов речи (один хороший, один, где мой голос был немного хриплым, и еще один, где я не использовал фразу, с которой зарегистрировался), чтобы посмотреть, что произойдет. Обратите внимание на разные результаты и уровни достоверности.
python VerifyFile.py <ключ_подписки) good.wav <идентификатор_профиля>
Результат проверки = Принять
Уверенность = высокая
python VerifyFile.py <ключ_подписки) scratky.wav <идентификатор_профиля>
Результат проверки = Принять
Уверенность = Нормально
python VerifyFile.py <ключ_подписки) неправильной фразы.wav <идентификатор_профиля>
Результат проверки = Отклонено
Уверенность = высокая
По мере появления новых API-интерфейсов голосовой аутентификации в облаке вы можете использовать свои обучающие данные для объективного сравнения систем, а не просто принимать их заявления на веру.
Двигаясь вперед, голосовая биометрическая аутентификация полна как перспектив, так и опасностей. Люди опасаются изменений, часто по уважительной причине, но у паролей есть свои давние проблемы, и ясно, что голосовая биометрическая аутентификация появляется во все большем количестве мест. Прежде чем попросить Скотти помочь нам, как организациям, так и конечным пользователям потребуется время, чтобы адаптироваться и понять, где технология имеет смысл.
.