Google научилася реалистично имитировать человеческую речь

Google создал систему преобразования текста в речь Tacotron 2, которая с поразительной точностью имитирует голос человека

Система состоит из двух нейросетей глубокого обучения. Первая преобразует текст в спектрограмму — визуальное изображение звуковых частот.

После этого алгоритм WaveNet, созданный исследовательской лабораторией DeepMind, считывает данные и генерирует соответствующие звуковые элементы.

Tacotron 2 умеет выделять определённые слова и учитывать пунктуационные знаки.