Мы в Telegram
Добавить новость

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из фотографий — что может пойти не так?

google-2024-vlogger-spalsh-image.png

VLOGGER может сделать одну фотографию человека и создать клипы с высоким разрешением различной длины, с точным выражением лица и движениями тела в мгновение ока, выходя за рамки предыдущих типов программного обеспечения «говорящей головы».

Google

Сообщество искусственного интеллекта (ИИ) настолько хорошо научилось создавать фальшивые гифки (взгляните на Sora от OpenAI, представленную в прошлом месяце, с ее фантастическим полетом фантазии), что приходится задаться интеллектуальным и практическим вопросом: «Что?» Что нам делать со всеми этими видео?

также: OpenAI представляет свою модель преобразования текста в видео, и результаты потрясающие.

Управляйте ими с помощью нашего инструмента VLOGGER, ответили на этой неделе исследователь Google Энрике Корона и его коллеги. VLOGGER может создавать HD-видео разговаривающих людей на основе одного изображения. Самое главное, что VLOGGER может анимировать видео на основе образца речи, то есть технология может анимировать видео как контролируемое подобие человека – «аватар» высокого разрешения.

Этот инструмент дает возможность реализовать все виды творчества. На более простом уровне команда Corona предполагает, что VLOGGER может оказать большое влияние на аватары службы поддержки, поскольку более реалистично выглядящие искусственно говорящие люди могут «вырабатывать эмпатию». Они отмечают, что эта технология может «открыть совершенно новые варианты использования, такие как улучшение онлайн-коммуникации, образования или личных виртуальных помощников».

VLOGGER также может открыть новые горизонты в создании дипфейков, реалистичных изображений, которые говорят и делают то, чего реальный человек никогда бы не сделал. Команда Corona намерена учесть влияние VLOGGER на общество в дополнительных вспомогательных материалах. Однако этот материал недоступен На странице проекта на GitHub. ZDNET обратился в Corona с просьбой предоставить вспомогательные материалы, но на момент публикации не получил ответа.

также: Ученые говорят, что по мере распространения агентов ИИ риски также возрастают.

Как описано в официальном документе «ВЛОГГЕР: мультимодальное распространение для синтеза воплощенных аватаров», команда Corona стремится выйти за рамки неточностей современных аватаров. «Создание реалистичных видеороликов с участием людей по-прежнему сложно и пронизано артефактами», — пишет команда Corona.

Команда заметила, что аватары в видео часто отрезают тело и руки, показывая только лицо. VLOGGER может показывать полный торс движениями рук. Другие инструменты обычно имеют ограниченные вариации выражений лица и поз, обеспечивая лишь элементарную синхронизацию губ. VLOGGER может создавать «видео высокого разрешения движений головы и верхней части тела». […] Он демонстрирует широкое разнообразие выражений лица и жестов» и является «первым способом создания говорящих, анимированных людей с помощью речевого ввода».

Как объяснила исследовательская группа: «Именно автоматизация и поведенческий реализм [are] К чему мы стремимся в этой работе: VLOGGER — это мультимодальный интерфейс для воплощенного диалогового агента, оснащенный аудио- и анимированным визуальным представлением, отличающийся сложной мимикой и повышенным уровнем движений тела и предназначенный для поддержки естественного общения с человеком. пользователь.»

пример google-2024-vlogger

На основе одного изображения слева VLOGGER предсказывает, какие видеокадры справа должны сопровождать каждый момент аудиофайла говорящего человека, используя процесс, известный как «диффузия», а затем создает эти видеокадры с высокой скоростью. — качество определения.

Google

VLOGGER объединяет некоторые последние тенденции в глубоком обучении.

Мультимедиа объединяет множество режимов, которые инструменты искусственного интеллекта могут обрабатывать и синтезировать, включая текст, аудио, изображения и видео.

Большие языковые модели, такие как GPT-4 от OpenAI, позволяют использовать естественный язык в качестве входных данных для управления всеми видами действий, будь то создание абзацев текста, песни или изображения.

В последние годы исследователи также нашли множество способов создания реалистичных изображений и видео за счет улучшения «распространения». Этот термин пришел из молекулярной физики и описывает, как при повышении температуры молекулы вещества переходят от высокой концентрации в определенной области к более рассредоточенным. По аналогии, биты цифровой информации можно рассматривать как «разбросанные», чем больше они становятся некогерентными с цифровым шумом.

также: Перейдя к Gemini, вы обнаружите, что у искусственного интеллекта с открытым исходным кодом есть свои собственные видео-трюки.

ИИ развертывания вводит в изображение шум и реконструирует исходное изображение, чтобы обучить нейронную сеть находить правила, по которым оно было создано. Диффузия лежит в основе создания великолепных изображений в Stable Diffusion от Stability AI и DALL-E от OpenAI. Точно так же OpenAI создает отличные видеоролики в Sora.

Для VLOGGER команда Corona обучила нейронную сеть связывать голос говорящего с отдельными видеокадрами этого говорящего. Команда объединила процесс развертывания для восстановления видеокадра из звука, используя еще одну недавнюю инновацию — преобразователь.

Конвертер использует метод внимания для прогнозирования видеокадров на основе кадров, произошедших в прошлом, в сочетании со звуком. Прогнозируя действия, нейронная сеть учится отображать точные движения рук и тела, а также выражения лица, кадр за кадром, синхронно со звуком.

Последний шаг — использовать прогнозы этой первой нейронной сети для последующей генерации видеокадров высокого разрешения с использованием второй нейронной сети, которая также использует диффузию. Этот второй шаг также представляет собой высокую оценку в данных.

также: Генеративный ИИ не справляется с этой слишком распространенной способностью человеческого мышления.

Для создания изображений с высоким разрешением команда Corona собрала MENTOR — набор данных из 800 000 «личностей» из видео говорящих людей. MENTOR состоит из 2200 часов видео, которое, по утверждению команды, является «самым большим набором данных, использованным на сегодняшний день с точки зрения личности и длины», и в десять раз больше, чем предыдущие аналогичные наборы данных.

Авторы обнаружили, что они могут улучшить этот процесс с помощью последующего шага, называемого «тонкая настройка». Отправляя полное видео в VLOGGER, будучи «предварительно обученными» на MENTOR, они могут более реалистично уловить особенности движения головы человека, например моргание: «Путем точной настройки нашей модели диффузии с использованием большего количества данных в одном Видео». Для субъекта VLOGGER может научиться лучше фиксировать личность, например, когда на эталонном изображении закрыты глаза — процесс, который команда называет «персонализацией».

google-2024-vlogger-архитектура

Нейронная сеть VLOGGER представляет собой комбинацию двух разных нейронных сетей. Первый использует «замаскированное внимание» через преобразователь, чтобы предсказать, что должно произойти в видеокадре, на основе звука, исходящего из записанного усилителем аудиосигнала. Вторая нейронная сеть использует диффузию для создания статической последовательности видеокадров, используя движения тела и подсказки выражения лица из первой нейронной сети.

Google

Важнейший смысл этого подхода — соединения прогнозов в единой нейронной сети с изображениями с высоким разрешением — и что делает VLOGGER интересным — это то, что программное обеспечение не просто создает видео, как это делает Сора. ВЛОГГЕР ассоциирует это видео с контролируемыми действиями и выражениями лиц. Реалистичными видео можно манипулировать по мере их появления, как марионетками.

также: Генеральный директор Nvidia Дженсен Хуанг представляет семейство чипсетов нового поколения Blackwell на выставке GTC

«Наша цель — преодолеть разрыв между недавними усилиями по синтезу видео, которые позволяют создавать динамические видеоролики без контроля личности или позы, и контролируемыми методами генерации изображений», — написала команда Corona.

ВЛОГГЕР может быть не только голосовым аватаром, но также выполнять функции редактирования, например, изменять рот или глаза говорящего. Например, человека по умолчанию, который часто моргает в видео, можно изменить на моргающего мало или вообще не моргать. Способ разговора с широким ртом можно сузить до более отчетливых движений губ.

google-2024-vlogger-edited-videos.png

Достигнув способа управления видео высокой четкости с помощью аудиосигналов, VLOGGER открывает путь для манипуляций, таких как изменение движений губ говорящего в каждом сегменте видео, чтобы они отличались от исходного исходного видео.

Видеоблогер

Теперь, когда мы достигли нового уровня прогресса в моделировании человека, вопрос, на который команда Corona не ответила, заключается в том, чего миру следует ожидать от любого неправильного использования технологий. Легко представить, например, что политические деятели говорят что-то совершенно катастрофическое по поводу надвигающейся ядерной войны.

Предположительно, следующим этапом в этой аватарской игре станут нейронные сети, такие как 'Тест Войта-Кампфа«В фильме «Бегущий по лезвию» это может помочь сообществу выяснить, кто из них настоящие ораторы, а кто — просто фальшивки с удивительно живой моралью.

Читайте на 123ru.net

Другие проекты от 123ru.net



Архангельск

У работодателей Архангельской области и НАО началась "вахтовая лихорадка"



VIP

Фестивальный праздник «Музыка моего города» в Улан-Удэ включил в программу спектакль Театра кукол «Ульгэр»: Россия и Культура, Праздник и Дети






Новости 24 часа

Патриотическую акцию «Синий платочек» провели в Нижнем Новгороде в день прибытия «Поезда Победы»



Game News

Badlands Champions 1.5.141



Москва

СберСтрахование: 22% россиян предпочитают заниматься бегом и спортивной ходьбой



News Every Day

Derrick Lewis scores vicious knockout, moons crowd at UFC St. Louis 



Блоги

Состоялась Байкальская театральная школа в Бурятии: Россия и Культура, Дети



Москва

ПАО «Россети» оштрафовано за неподключения к электросетям в Раменском округе



Игорь Бутман

Игорь Бутман об Ирине Отиевой: “Жаль, что человека нету”



Москва

Пробки в Подмосковье оценили в 5 баллов утром 16 мая



WTA

Соболенко вышла в полуфинал турнира WTA в Риме



Москва

Страдания юного Аюша Булчун



Арцах

Полезные приложения для поклонников спортивной ходьбы



Симферополь

Фестиваль «Музыка моего города» в Бурятии украсил Театр кукол «Ульгэр»: Россия и Культура, Праздник и Дети



Москва

Страдания юного Аюша Булчун



Москва

Неделя мэра: завод «Москвич», гранты для школ искусств и система городских вокзалов



Москва

В мире могут закрыть поставки из Китая. «Святой Ленин» на встрече В.В. Путина и Си Цзиньпина повышает качество жизни народам России, Китая, всего мира.



103news.com — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 103news.com.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.

Другие популярные новости дня сегодня


Новости 24/7 Все города России





Топ 10 новостей последнего часа




Новости России

Путин: экспорт российского продовольствия на рынок Китая вырос в 1,5 раза

Движение транспорта перекроют в центре Москвы 19 мая из-за полумарафона

«СВЯТОЙ ЛЕНИН» помогает Государственной Думе РФ оптимизировать налоговую сферу. «СВЯТОЙ кибер ЛЕНИН» удаляет налоги: перезагрузка.

«СВЯТОЙ ЛЕНИН» правит миром, расшифровал «ДНК В.И.Ленина», отменяет налоги. И… отключает институты времени. Разгадка «научных теорий заговоров».


Москва

В мире могут закрыть поставки из Китая. «Святой Ленин» на встрече В.В. Путина и Си Цзиньпина повышает качество жизни народам России, Китая, всего мира.






Rss.plus

Патриотическую акцию «Синий платочек» провели в Нижнем Новгороде в день прибытия «Поезда Победы»

Состоялась Байкальская театральная школа в Бурятии: Россия и Культура, Дети

Россия, Культура, Дети: конкурс на новую эмблему обьявил Театр Ульгэр в Республике Бурятия

Армяне России поддерживают движение «Тавуш во имя Родины»

Moscow.media
Москва

Собянин сообщил о планах благоустройства на северо-востоке Москвы



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Бато Багдаев

Россия, Культура, Дети: конкурс на новую эмблему обьявил Театр Ульгэр в Республике Бурятия




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Стартовал финальный этап всероссийского футбольного турнира «Будущее зависит от тебя»

Брянские парапланеристы завоевали три медали на чемпионате ЦФО

В ЦСКА рассказали о тяжести травмы голкипера Владислава Торопа


Уимблдон

«Подача на победу на Уимблдоне». Гвардиола – о заключительном туре АПЛ



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России