Разработать Модуль Voice to Lip Synch с Использованием AI/DL
Добрый день,
Ищем senior разработчика с опытом в технологиях искуственного интеллекта (deep learning).
Условия и плата:
Почасовая ставка с подсчётом часов через трекер. Ориентировочно 2 тысячи рублей в час. Обсуждаемо.
Задача
Проект предусматривает автоматизацию перевода образовательных видео с одного языка на другой с генерацией новой голосовой дорожки и синхронизацией видео под новую дорожку.
Компоненты следующие:
1) Генерация голоса (text to speech synthesis) - будет осуществляться путём подключения готовых решений от третьих разработчиков, и интеграции в разрабатываемую платформу посредством API. Другими словами, для этой компоненты уже есть готовые решения, которые можно подключить через подписку, не изобретая велосипед.
2) Синхронизация лица человека с новым голосовым потоком (voice to lip synch). Для этой части готовых решений под ключ мы не нашли, но есть масса заготовок и открытого кода, которые наверняка можно собрать в рабочую модель, или во всяком случае использовать как точку отсчёта.
Сложности
1) Видео содержат в себе как образовательные презентации с фронтальным видом на презентатора (talking head), так и более сложные комбинации с изменяющимся углом съёмки, съёмкой в движении, меняющейся перспективой, зумом.
В вашем отклике просим указать ответы на следующие вопросы:
1) Насколько обширен ваш опыт в данной области?
2) Как вы планируете решить поставленную задачу? (тезисно - в общих чертах)
3) Какие готовые/частично готовые решения/технологии вы планируете применить?
4) Каким образом вы предлагаете преодолеть указанные сложности?
Спасибо.