WaveNet: синтезована комп'ютером мова, схожа на людську

: 12 вересня 2016; Перегляди: 1557

У компанії Google з'явилися суттєві зрушення в створенні нової системи комп'ютерного синтезування людської мови. Одне з її підрозділів, DeepMind, створило для цього цифрову модель нейронних мереж людського мозку. Дана технологія отримала назву WaveNet. Метою компанії було не йти стандартним шляхом, створюючи черговий софт, що розпізнає звуки і видає готові фрази у відповідь. Вони амбітно поринули у створення принципово нового методу - технології, яка зможе синтезувати людську мову сама, без сторонньої допомоги. Як прототип вони використовували єдиний аналог, відомий в природі - біологічну нейронну мережу людини.

В даному методі, компанія DeepMind здійснює навчання нейронних мереж, для чого використовує фрагменти реальних людських голосів. WaveNet також використовує запропоновані їй правила фонетики і лінгвістики, актуальні для кожного окремого випадку. Спочатку система & ldquo; бачить & rdquo; текст, і & ldquo; чує & rdquo; певний набір звуків, що відповідає цьому тексту. Після цього WaveNet синтезує ряд запропонованих фрагментів в людську мову, поступово навчаючись на прикладі кожного окремого фрагмента. Навчання передбачає, що кожен попередній досвід допомагає системі розуміти і виконувати всі нові завдання.

Відмінність роботи WaveNet від роботи звичайного методу синтезування мови можна проілюструвати на прикладі створення чашки. Уявімо, що матеріалом для створення чашки в звичайній системі синтезу мовлення служать кубики Lego, в той час як WaveNet користується глиною. В результаті роботи в обох випадках виходить щось схоже на чашку, але в першому варіанті - це тільки форма чашки, а в другому - чашку цілком можна використовувати, як чашку, нехай і ручної роботи, без використання гончарного круга. Тобто WaveNet генерує майже ідеальну мова, яка зовсім незначно відрізняється від звичної нам людської.

Це вражаючий результат. Здесь ви можете самі в цьому переконатися. Звичайно, є невеликі відмінності від справжньої людської мови, але вони незначні в порівнянні з іншими методами комп'ютерного синтезування.

Кожну секунду WaveNet обробляє 16000 аудіо-фрагментів. Незважаючи на це, ідеального результату поки що не виходить. Але в тестах“людина або комп'ютер”, під час яких добровольці слухали аудіо семпл, половина учасників порахували, що говорить людина, в той час як насправді звучала мова, синтезована системою WaveNet.

Однією з головних проблем системи WaveNet є те, що на її розробку потрібна велика кількість ресурсів і комп'ютерного часу, адже така система повинна мати дуже високою потужністю.

У систему було завантажено понад 44 годин мовлення, в записі яких брало участь 109 англомовних добровольців. Цікаво, що WaveNet може імітувати мову практично всіх учасників, а також відтворити особливості і дефекти мови мовця, навіть придих і інтонацію.

Хоча якість мовлення, що генерується WaveNet, досить висока, вона все ж ще не ідеальна. Штучний інтелект поки що не розуміє мову досконало, і це - ще одна з проблем при роботі з системою. Компанія IBM з її когнітивної розробкою IBM Watson пішла в цьому напрямку далі всіх - але поки що її система працює без підтримки розмови, а тільки на рівні простих команд (усних і письмових), і відповідей на прості запитання. Але стрімкий розвиток технологій всього через 5-10 років може повністю змінити ситуацію. Серед розробників компанії навіть ходить жарт, що скоро кожна людина при бажанні зможе вступити в суперечку зі своїм комп'ютером.

Деякі вчені заявляють, що слабкій формі ШІ все-таки бракує деяких можливостей розуму, і це абсолютно не пов'язано з розміром самої мережі. За словами Джоша Тененбаума, мову (спілкування промовою) залежить від ряду потенційних здібностей, які можуть бути глибоко закладені в дитинстві ще до фактичного досвіду володіння мовою: це і робота опорно-рухової системи, і візуальне сприйняття, і розуміння намірів інших істот і загальної фізики світу.

Команда DeepMind і дослідники Оксфордського університету в даний момент працюють над ще однією розробкою. Це так звана & ldquo; красная кнопка & rdquo ;, яка здатна вивести з ладу сильну форму ІІ, якщо створений людиною штучний розум раптом вийде з-під контролю.

Found a typo? Please select it and press Ctrl + Enter.