반응형
1편에 이어서 정리하겠습니다.
(1편 : wandukong.tistory.com/2 )
※ 제가 이해한 내용을 바탕으로 작성하여 틀린 내용이 있을 수 있습니다! 잘못된 부분은 지적해주시면 감사하겠습니다 :)
Human Action Recognition and Prediction: A Survey (2)
목차
1. Introduction
2. Human Perception of Actions
3. Action Recognition
4. Action Prediction and Motion Prediction
5. Datasets
6. Evaluation Protocols for Recognition and Prediction
7. Future Directions
8. Conclusion
4. Action Prediction and Motion Prediction
Video에서 한 행동의 분량을 모두 보기 전에 최대한 빨리 예측하는 것이 목표 (Early Action Classification)
4.1) Action Prediction
4.1.1) Early Action Classification
- Short term prediction
- Action video의 short duration(몇 초 정도의 분량)에 초점
- 불완전한 action video를 보고 action label을 추론하는 게 목표 -> 어려움
- Dataset 예시 ex) UCF-101, Sports-1M 등
4.1.2) Intention Prediction
- Long term prediction
- long-duration(몇 분 정도의 분량) video에 초점
- 현재의 human action을 바탕으로 미래의 action을 예측하는 게 목표
- 미래의 불확실성 때문에 매우 어려움
- 상황(문맥) 이해가 중요 - 상호작용하고 있는 대상 파악이 도움이 될 것 ex) 사람이 컵을 들고 있다면 -> '전화를 받을 것이다' 보단 '음료를 마실 것이다'가 더 적절해지듯이
4.2) Motion Trajectory Prediction
- 주로 보행자의 이동경로를 예측
4.3) Summary
- Big data와 최근 computer vision의 발전은 미래에 대한 예측을 가능하게 함
- 이 연구의 핵심은 어떻게 큰 규모의 데이터에서 시간적인 상관관계를 뽑아낼 것인지, 또 이 상관관계를 어떻게 모델링 할 것인지임
5. Datasets
Dataset 부분은 제가 관심이 있던 RGB-D 위주로 정리해보았습니다.
5.1) Controlled Action Video Datasets
- 5.1.1) Individual Action Datasets
- 5.1.2) Group Action Datasets
5.2) Unconstrained Datasets
5.3) RGB-D Action Video Datasets
- RGB에 비해 scene 구조가 더 잘 파악됨
- 한 행동 사이의 motion variation을 단순화 할 수 있고, Background Noise도 없앨 수 있음ex) MSR Daily Activity, 3D Online Action Datasets, CAD-120 Datasets, UTKinect-Action dataset 등
6. Evaluation Protocols for Action Recognition and Prediction
Recognition
Shallow Action Recognition
- 대부분 작은 규모의 dataset으로 평가
- leave-one-out scheme과 confusion matrix가 주로 사용됨 ex) KTH, UCF sports
Sequential Approaches
- Per-frame recognition accuracy와 average precision이 주로 사용됨
Deep Networks
- 주로 큰 규모의 dataset으로 평가 ex) UCF-101, HMDB51-> 한 dataset당 전체적인 recognition performance만 출력 가능
Prediction
- Recognition accuracy at each observation ratio (한 행동 전체 분량 중 어디까지 보고 예측 했는지
- 보행자 경로 예측(motion trajectory prediction)에서는 ADE, FDE, ANDE 등 이용
7. Future Directions
Benefitting from image models
- Video로 deep network를 학습시키는 건 어려우니까 image에 대해 pre-train된 모델 이용하기
Interpretability on temporal extent
- 모든 프레임이 action recognition에 사용되는 건 아님 (그 중 몇몇 주요 프레임만이 recognition에 사용될 것)
- 어떤 행동은 적은 프레임만으로 초기에 예측 가능하고, 어떤 행동은 예측하는 데 더 많은 프레임을 필요로 함
- 왜 초기에 예측 가능한지, 초기에 예측 가능하도록 하는 salient signal이 뭔지에 대한 연구
Learning from multi-modal data
- Visual, audio, text등 많은 정보를 이용해 학습시키기
Learning long-term temporal correlations
- Visual entity들 간의 interaction연구 ex) object, scene, temporal arrangement with action등
Physical aspect of actions
- 실제 물리적인 요소를 적용해 recognition, prediction.
- ex) something-something dataset의 경우 label이나 description이 'Dropping [something] to [something]' 이런 식
Learning actions without labels
- Automatic labeling
반응형
'머신러닝 > Human Action Recognition' 카테고리의 다른 글
[논문 리뷰] A Review on Human Pose Estimation (2021) (0) | 2022.05.31 |
---|---|
[논문 리뷰] Human Action Recognition and Prediction: A Survey (1) (0) | 2021.03.25 |