Компания Nvidia представила решение для искусственного интеллекта в виде нейронной сети LDM для видео. Это позволяет пользователям создавать видеоролики на основе текстовых описаний в высоком разрешении. Данный проект является результатом сотрудничества специалистов Nvidia и разработчиков Корнельского университета.
Нейронная сеть может создавать видеоролики с разрешением до 2048 x1280 пикселей с частотой 24 кадра. Модель ИИ содержит 4,1 миллиарда переменных, из которых 2,7 миллиарда пришлись на видеоклипы. Так происходит “обучение” нейронной сети. Для выполнения работы используется Stable Diffusion Engine.
Латентная диффузионная модель, используемая нейронной сетью, позволяет обходиться без дорогого и мощного оборудования. Видео ЛДМ создает кадр за кадром. Система также может генерировать видеоролики сцен вождения с максимальной продолжительностью 5 минут и разрешением до 1024×512 пикселей. На сайте Nvidia есть множество коротких и длинных роликов, демонстрирующих работу ИИ.
Видео LDM еще не доступно в открытом доступе, и неизвестно, когда это программное обеспечение появится. Это исследовательский, а не коммерческий проект. Ожидается, что на конференции по машинному зрению и распознаванию образов в Ванкувере (Канада) 18-22 июня будет представлена полная презентация.