本项目实现了一个完整的手语识别流程: 从手语视频帧中提取手部关键点序列,训练 Transformer 分类模型,并通过网页实时调用摄像头完成在线识别与文字输出。 离线特征提取:使用 MediaPipe Hands 将每帧图像转换为关键点向量(最多双手,126 维/帧)。 模型训练 ...