Enfoque propuesto
3.2 Redes neuronales en variedades SPD
B. MLR en espacios de estructura
C. Formulación de MLR desde la perspectiva de las distancias a los hiperplanos
D. Reconocimiento de la acción humana
F. Limitaciones de nuestro trabajo
G. Algunas definiciones relacionadas
H. Cálculo de la representación canónica
I. Prueba de la Proposición 3.2
J. Prueba de la Proposición 3.4
K. Prueba de la Proposición 3.5
L. Prueba de la Proposición 3.6
M. Prueba de la proposición 3.11
N. Prueba de la Proposición 3.12
Utilizamos tres conjuntos de datos, a saber, HDM05 (Muller et al., 2007), FPHA (Garcia-Hernando et al., 2018) y NTU RBG+D 60 (NTU60) (Shahroudy et al., 2016). Comparamos nuestras redes con los siguientes modelos de última generación: SPDNet (Huang & Gool, 2017)[1], SPDNetBN (Brooks et al., 2019)[2], SPSDAI (Nguyen, 2022a), GyroAI-HAUNet (Nguyen, 2022b) y MLR-AI (Nguyen & Yang, 2023).
4.1.1 ESTUDIO DE ABLACIÓN
Capas convolucionales en redes neuronales SPD Nuestra red GyroSpd++ tiene una capa MLR apilada sobre una capa convolucional (ver Figura 1). La motivación para usar una capa convolucional
es que puede extraer características globales de las locales (matrices de covarianza calculadas a partir de coordenadas conjuntas dentro de subsecuencias de una secuencia de acción). Usamos métricas afines-invariantes para la capa convolucional y métricas log-euclidianas para la capa MLR. Los resultados en la Tabla 1 muestran que GyroSpd++ supera consistentemente las líneas base de SPD en términos de precisión media. Los resultados de GyroSpd++ con diferentes diseños de métricas riemannianas para sus capas se dan en el Apéndice D.4.1.
MLR en espacios de estructura Construimos GyroSpsd++ reemplazando la capa MLR de GyroSpd++ con una capa MLR propuesta en la Sección 3.3. Los resultados de GyroSpsd++ se dan en la Tabla 1. Excepto SPSDAI, GyroSpsd++ supera a las otras líneas base en el conjunto de datos HDM05 en términos de precisión media. Además, GyroSpsd++ supera a GyroSpd++ y a todas las líneas base en los conjuntos de datos FPHA y NTU60 en términos de precisión media. Estos resultados muestran que MLR es eficaz cuando se diseña en espacios de estructura desde una perspectiva de espacio girovectorial.
Utilizamos tres conjuntos de datos, a saber, Airport (Zhang y Chen, 2018), Pubmed (Namata et al., 2012a) y Cora (Sen et al., 2008), cada uno de ellos contiene un único gráfico con miles de nodos etiquetados. Comparamos nuestra red Gr-GCN++ (ver Fig. 1) con su variante Gr-GCN-ONB (ver Apéndice E.2.4) en función de la perspectiva ONB. Los resultados se muestran en la Tabla 2. Ambas redes ofrecen el mejor rendimiento para n = 14 y p = 7. Se puede ver que Gr-GCN++ supera a Gr-GCN-ONB en todos los casos. Las brechas de rendimiento son significativas en los conjuntos de datos Pubmed y Cora.
Autores:
(1) Xuan Son Nguyen, ETIS, UMR 8051, CY Cergy Paris University, ENSEA, CNRS, Francia ([email protected]);
(2) Shuo Yang, ETIS, UMR 8051, Universidad CY Cergy París, ENSEA, CNRS, Francia ([email protected]);
(3) Aymeric Histace, ETIS, UMR 8051, Universidad CY Cergy París, ENSEA, CNRS, Francia ([email protected]).
Este documento es
[1] https://github.com/zhiwu-huang/SPDNet.
[2] https://papers.nips.cc/paper/2019/hash/6e69ebbfad976d4637bb4b39de261bf7-Resumen.html.