WaveNet: синтезированная компьютером речь, похожая на человеческую

Просмотров: 556
У компании Google появились существенные сдвиги в создании новой системы компьютерного синтезирования человеческой речи. Одно из ее подразделений, DeepMind, создало для этого цифровую модель нейронных сетей человеческого мозга. Данная технология получила название WaveNet. Целью компании было не идти стандартным путем, создавая очередной софт, распознающий звуки и выдающий готовые фразы в ответ. Они амбициозно окунулись в создание принципиально нового метода - технологии, которая сможет синтезировать человеческую речь сама, без посторонней помощи. Как прототип они использовали единственный аналог, известный в природе - биологическую нейронную сеть человека.
 
 
В данном методе, компания DeepMind осуществляет обучение нейронных сетей, для чего использует фрагменты реальных человеческих голосов. WaveNet также использует предложенные ей правила фонетики и лингвистики, актуальные для каждого отдельного случая. Сначала система “видит” текст, и “слышит” определенный набор звуков, соответствующий этому тексту. После этого WaveNet синтезирует ряд предложенных фрагментов в человеческую речь, постепенно обучаясь на примере каждого отдельного фрагмента. Обучение предусматривает, что каждый предыдущий опыт помогает системе понимать и выполнять все новые задания.
 
Отличие работы WaveNet от работы обыкновенного метода синтезирования речи можно проиллюстрировать на примере создания чашки. Представим, что материалом для создания чашки в обычной системе синтеза речи служат кубики Lego, в то время как WaveNet пользуется глиной. В результате работы в обоих случаях получается что-то похожее на чашку, но в первом варианте - это только форма чашки, а во втором - чашку вполне можно использовать, как чашку, пусть и ручной работы, без использования гончарного круга. То есть WaveNet генерирует почти идеальную речь, которая совсем незначительно отличается от привычной нам человеческой.
 
Это поразительный результат. Здесь вы можете сами в этом убедиться. Конечно, есть небольшие отличия от настоящей человеческой речи, но они ничтожны по сравнению с другими методами компьютерного синтезирования.
Каждую секунду WaveNet обрабатывает 16000 аудио-фрагментов. Несмотря на это, идеального результата пока что не получается. Но в тестах “человек или компьютер”, во время которых добровольцы слушали аудио сэмпл, половина участников посчитали, что говорит человек, в то время как на самом деле звучала речь, синтезированная системой WaveNet.
 
Одной из главных проблем системы WaveNet является то, что на ее разработку требуется большое количество ресурсов и компьютерного времени, ведь такая система должна обладать очень высокой мощностью.
 
 
wavenet.jpg1
В систему было загружено более 44 часов речи, в записи которых принимало участие 109 англоязычных добровольцев. Интересно, что WaveNet может имитировать речь практически всех участников, а также воспроизвести особенности и дефекты речи говорящего, даже придыхание и интонацию.
Хотя качество речи, генерируемой WaveNet, довольно высокое, она все же еще не идеальна. Искусственный интеллект пока что не понимает язык в совершенстве, и это - еще одна из проблем при работе с системой. Компания IBM с ее когнитивной разработкой IBM Watson пошла в этом направлении дальше всех - но пока что ее система работает без поддержания разговора, а только на уровне простых команд (устных и письменных), и ответов на простые вопросы. Но стремительное развитие технологий всего через 5-10 лет может совершенно изменить ситуацию. Среди разработчиков компании даже ходит шутка, что скоро каждый человек при желании сможет вступить в спор со своим компьютером.

Некоторые ученые заявляют, что слабой форме ИИ все-таки недостает некоторых возможностей разума, и это совершенно не связано с размером самой сети. По словам Джоша Тененбаума, язык (общение речью) зависит от ряда потенциальных способностей, которые могут быть глубоко заложены в младенчестве еще до фактического навыка владения языком: это и работа опорно-двигательной системы, и визуальное восприятие, и понимание намерений других существ и общей физики мира.

Команда DeepMind и исследователи Оксфордского университета в данный момент трудятся над еще одной разработкой. Это так называемая “красная кнопка”, которая способна вывести из строя сильную форму ИИ, если созданный человеком искусственный разум вдруг выйдет из-под контроля.
 
Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter

Оставить комментарий

0