본문 바로가기

머신러닝/Human Action Recognition

[논문 리뷰] Human Action Recognition and Prediction: A Survey (2)

반응형

 1편에 이어서 정리하겠습니다.

 (1편 : wandukong.tistory.com/2 )

 

※ 제가 이해한 내용을 바탕으로 작성하여 틀린 내용이 있을 수 있습니다!  잘못된 부분은 지적해주시면 감사하겠습니다 :)


Human Action Recognition and Prediction: A Survey (2)

arxiv.org/abs/1806.11230

목차

1. Introduction

2. Human Perception of Actions

3. Action Recognition

4. Action Prediction and Motion Prediction

5. Datasets

6. Evaluation Protocols for Recognition and Prediction

7. Future Directions

8. Conclusion


4. Action Prediction and Motion Prediction

Video에서 한 행동의 분량을 모두 보기 전에 최대한 빨리 예측하는 것이 목표 (Early Action Classification)

4.1) Action Prediction

4.1.1) Early Action Classification

  • Short term prediction
  • Action video의 short duration(몇 초 정도의 분량)에 초점
  • 불완전한 action video를 보고 action label을 추론하는 게 목표 -> 어려움
  • Dataset 예시 ex) UCF-101, Sports-1M 등

4.1.2) Intention Prediction

  • Long term prediction
  • long-duration(몇 분 정도의 분량) video에 초점
  • 현재의 human action을 바탕으로 미래의 action을 예측하는 게 목표
  • 미래의 불확실성 때문에 매우 어려움
  • 상황(문맥) 이해가 중요 - 상호작용하고 있는 대상 파악이 도움이 될 것    ex) 사람이 을 들고 있다면 -> '전화를 받을 것이다' 보단 '음료를 마실 것이다'가 더 적절해지듯이

4.2) Motion Trajectory Prediction

  • 주로 보행자의 이동경로를 예측

4.3) Summary

  • Big data와 최근 computer vision의 발전은 미래에 대한 예측을 가능하게 함
  • 이 연구의 핵심은 어떻게 큰 규모의 데이터에서 시간적인 상관관계를 뽑아낼 것인지, 또 이 상관관계를 어떻게 모델링 할 것인지임

5. Datasets

Dataset 부분은 제가 관심이 있던 RGB-D 위주로 정리해보았습니다.

5.1) Controlled Action Video Datasets

  • 5.1.1) Individual Action Datasets
  • 5.1.2) Group Action Datasets

5.2) Unconstrained Datasets

5.3) RGB-D Action Video Datasets

  • RGB에 비해 scene 구조가 더 잘 파악됨
  • 한 행동 사이의 motion variation을 단순화 할 수 있고, Background Noise도 없앨 수 있음ex) MSR Daily Activity, 3D Online Action Datasets, CAD-120 Datasets, UTKinect-Action dataset 등

RGB-D datasets


6. Evaluation Protocols for Action Recognition and Prediction

Recognition

Shallow Action Recognition

  • 대부분 작은 규모의 dataset으로 평가
  • leave-one-out schemeconfusion matrix가 주로 사용됨 ex) KTH, UCF sports

 

Sequential Approaches

  • Per-frame recognition accuracy와 average precision이 주로 사용됨

Deep Networks

  • 주로 큰 규모의 dataset으로 평가 ex) UCF-101, HMDB51-> 한 dataset당 전체적인 recognition performance만 출력 가능

Prediction

  • Recognition accuracy at each observation ratio (한 행동 전체 분량 중 어디까지 보고 예측 했는지
  • 보행자 경로 예측(motion trajectory prediction)에서는 ADE, FDE, ANDE 등 이용


7. Future Directions

Benefitting from image models

  • Video로 deep network를 학습시키는 건 어려우니까 image에 대해 pre-train된 모델 이용하기

Interpretability on temporal extent

  • 모든 프레임이 action recognition에 사용되는 건 아님 (그 중 몇몇 주요 프레임만이 recognition에 사용될 것)
  • 어떤 행동은 적은 프레임만으로 초기에 예측 가능하고, 어떤 행동은 예측하는 데 더 많은 프레임을 필요로 함
  • 왜 초기에 예측 가능한지, 초기에 예측 가능하도록 하는 salient signal이 뭔지에 대한 연구

Learning from multi-modal data

  • Visual, audio, text등 많은 정보를 이용해 학습시키기

Learning long-term temporal correlations

  • Visual entity들 간의 interaction연구 ex) object, scene, temporal arrangement with action등

Physical aspect of actions

  • 실제 물리적인 요소를 적용해 recognition, prediction.
  • ex) something-something dataset의 경우 label이나 description이 'Dropping [something] to [something]' 이런 식

Learning actions without labels

  • Automatic labeling

 

 

 

반응형