坐在电脑前说话, 电脑中的数字人就能够识别你的所有情绪? 我校学子给出了肯定的答案。 日前,我校学子孙文浩、彭华东、沙书杰、邢卓雅、李彦达在武晓光、郭天文老师的指导下,凭借作品《基于多模态的元宇宙数字助手——魔镜》在 2022RoboCom 机器人开发者大赛信息技术与工程创客赛道全国总决赛中取得全国一等奖。
人类的情绪极为复杂,共有 27 种不同的情绪,包括愤怒、厌恶、恐惧、快乐、悲伤、惊奇和中性七种基础情绪。 面对当今快节奏的生活,人们或多或少都会有愤怒、焦虑等不良情绪,当这些不良情绪无法及时消解时,便容易滋生各种生理和心理疾病。 基于此,孙文浩等五位同学设计制作了一款能够感知人类情绪的数字人形象助手——“魔镜”, 用户只需要坐在电脑面前, 打开摄像头与麦克风, 对着“魔镜”程序说话,“魔镜”就能够通过其声音与视频数据进行情感识别, 电脑中的数字人随即会做出相对应的表情, 帮助用户感知自己的情绪。
团队将项目分为四个执行步骤施行,即制作“魔镜”的表情驱动、基于视觉的元宇宙情绪感知、基于听觉的情绪感知以及最终产生的多模态情绪判断。 团队选择了比动漫人物、动物在表情复现上更为精细的数字人写实形象作为建模方案,而实现表情驱动则需要对真人的眉毛、眼睛、鼻子、嘴巴等 70 个特征点进行标定。 “在采集数据的过程中,我和孙文浩同学作为模特需要模仿各种各样的表情, 然而做出来的表情还是有些别扭,这对腼腆的我们来说可太难了,这个过程也为团队增添了不少乐趣。 ”团队成员沙书杰笑着说道。
想实现基于视觉的元宇宙情绪感知,还需要对采集到的人脸表情进行标注分类,在网络结构模型方案的选择上, 团队通过实际场景测试,得出 LeNet-5 的准确率为 70%,而AlexNet 的准确率高达 95%的测试结果,并最终选择 AlexNet 网络结构模型。 “模型最终测试的准确率和网络模型有着直接关系, 比如模型的层数不同, 那么它的识别能力以及精度都是不同的。 除此之外,超参数的选择也会影响到模型的识别效果。 ”孙文浩补充道。
“想要辨别一个真实的人的情绪,光靠视觉辨别是远远不够的, 我们可以增加声音这一模态来判断人的情绪。 ”武晓光老师和郭天文老师在此基础上又向团队提出了新的优化方案。 团队通过处理时域信号得出语音频谱图,从而实现基于听觉的情绪识别。 “语音频谱图的语音数据集选自 CASIA 汉语情感语料库,它是由中国科学院自动化所录制,包括四个专业发音人,生气、高兴、害怕、悲伤、惊讶和中性等六种情绪,共 4800 句不同发音。 ”团队成员彭华东介绍道。 如此,“魔镜”便可以基于视觉和听觉这两个模态对人的情绪进行更深层次的感知。 在两位老师的指导下,该团队还完善了数字人细腻化表情呈现、 精细化报告设计等问题。
目前,“魔镜” 在功能上已经实现了对情绪的准确判断, 可以在人机交互的现实或虚拟场景中帮助计算机或虚拟机器人感知、理解人的情绪, 并针对不同的情绪进行音乐推送,在心理健康诊断、情绪舒缓等场景中实现应用价值。 未来,“魔镜”有望在体量上转至嵌入式平台,实现设备的轻量化。 同时,该团队还将加入更多模态, 对人的情绪进行更深入地探索,从而使“魔镜”能够更综合地感知人的情绪并预测可能存在的心理疾病, 达到提前预防与控制疾病的目的。
据悉,RoboCom 机器人开发大赛是教育部认可的 56 项全国性大学生学科竞赛之一,仅有 3 支队伍获得信息技术与工程创客赛道创意组全国总决赛一等奖。
杨筱奕 张馨文