Google создал систему преобразования текста в речь Tacotron 2, которая с поразительной точностью имитирует голос человека
Система состоит из двух нейросетей глубокого обучения. Первая преобразует текст в спектрограмму — визуальное изображение звуковых частот.
После этого алгоритм WaveNet, созданный исследовательской лабораторией DeepMind, считывает данные и генерирует соответствующие звуковые элементы.
Tacotron 2 умеет выделять определённые слова и учитывать пунктуационные знаки.