protelecom

Нейронная сеть TRN способна прогнозировать события на видео

Нейронная сеть TRN способна прогнозировать события на видео

Сотрудники лаборатории искусственного интеллекта MIT представили нейронную сеть под названием Temporal Relation Network (TRN), способную предсказывать некоторые события на видео, распознавая не само действие, а намерение его совершить.

Как сообщается, обрабатывая видеозапись, TRN не анализирует каждый кадр, а выделяет базовые планы и группирует их в кластеры. После этого содержимое полученных кластеров проверяется на соответствие известным системе видам манипуляций.

Ученые утверждают, что точность работы искусственного интеллекта составляет 95%. Причем Temporal Relation Network предсказывает не только простые действия, но и достаточно сложные: например, нейросеть может распознать «намерение открыть книгу». Кроме того, по словам разработчиков, по балансу между точностью и производительностью TRN превосходит известные аналоги.

Для обучения создатели Temporal Relation Network использовали три набора данных: самый крупный, Jester, содержащий 150 000 видео и 27 движений руками, а также Something-Something от компании TwentyBN и Charades, разработанный Университетом Карнеги — Меллона.

Впрочем, нужно отметить, что созданная в MIT нейросеть распознает манипуляции, но не сами объекты. Разработчики намерены устранить этот недостаток в будущем. Помимо этого, сотрудники института планируют научить ИИ определять физические свойства объектов, запечатленных в видеороликах.

По мнению исследователей, их наработки в будущем позволят роботам лучше ориентироваться в пространстве в режиме реального времени.

«Мы считаем, что способность роботов предвидеть и прогнозировать результаты действий пользователей упростят взаимодействие с ними», — заявили ученые.

Источникtproger

Exit mobile version