Все, что требуется платформе, - это три минуты видео с действиями человека и 100 произнесенных фраз, а также плата в размере 145 долларов.
Цифровые люди могут быть созданы как на китайском, так и на английском языках, с настраиваемыми фонами и тонами. Платформа использует собственную технологию настройки тембра на основе небольших образцов, которая опирается на акустические модели глубокого обучения и вокодеры нейронных сетей.