Ученые научили компьютер читать по губам
Ученые из университета Ист-Англии создали систему машинного обучения, которая умеет читать по губам. Работа была представлена на конференции ICASSP, которая проходила в Поднебесной.
Система, созданная программистами следит за речью человека при помощи видеокамеры.Для обучения ее классификаторов авторы работы использовали скрытую марковскую модель, а также разработали новый метод, который будет потенциально применим для нейросетей. Чтобы научить систему читать по губам, исследователи разделили речь на две составляющие: фонемы и виземы, которые являются визуальным эквивалентом фонем. Основная сложность заключалась в том, что фонем в речи больше, чем визем, поэтому ученые создали двухуровневую иерархическую структуру.
Читайте также: Колонизация Марса пройдёт в течение текущего века, - ученый
Сначала они обучали классификаторы соотносить виземы с различными звуками, в качестве материала для обучения используя записи речи людей. Затем, ученые увеличивали количество классификаторов. Например, если виземе V1 соответствуют фонемы P1, P2 и P3, то в системе должно существовать три копии виземы V1. После этого классификаторы обучались второй раз, после чего система уже могла распознавать речь.
Работоспособность системы специалисты проверяли на двух моделях. Первая подразумевала «языковую» модель, то есть распознавание непрерывной речи, а вторая — «фонемную» модель. В обоих случаях процент успеха пока достаточно невелик — слова система распознает с точностью до 10-15 процентов, фонемы — до 25 процентов. Тем не менее, ученые замечают, что это значительное продвижение по сравнению с прошлыми результатами.
Система, созданная программистами следит за речью человека при помощи видеокамеры.Для обучения ее классификаторов авторы работы использовали скрытую марковскую модель, а также разработали новый метод, который будет потенциально применим для нейросетей. Чтобы научить систему читать по губам, исследователи разделили речь на две составляющие: фонемы и виземы, которые являются визуальным эквивалентом фонем. Основная сложность заключалась в том, что фонем в речи больше, чем визем, поэтому ученые создали двухуровневую иерархическую структуру.
Читайте также: Колонизация Марса пройдёт в течение текущего века, - ученый
Сначала они обучали классификаторы соотносить виземы с различными звуками, в качестве материала для обучения используя записи речи людей. Затем, ученые увеличивали количество классификаторов. Например, если виземе V1 соответствуют фонемы P1, P2 и P3, то в системе должно существовать три копии виземы V1. После этого классификаторы обучались второй раз, после чего система уже могла распознавать речь.
Работоспособность системы специалисты проверяли на двух моделях. Первая подразумевала «языковую» модель, то есть распознавание непрерывной речи, а вторая — «фонемную» модель. В обоих случаях процент успеха пока достаточно невелик — слова система распознает с точностью до 10-15 процентов, фонемы — до 25 процентов. Тем не менее, ученые замечают, что это значительное продвижение по сравнению с прошлыми результатами.
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо зайти на сайт под своим именем.