1 / 10
毕业设计中期答辩 · 2026

基于深度学习与嵌入式技术的

智能桌宠人机交互系统设计

运行在边缘端、具备主动感知能力的情感交互桌面伴侣机器人

边缘 AI 多模态融合 嵌入式系统 底层链路已贯通
汇报人何乃滔
答辩时间2026.04.29
项目代号Lemo Pet
平台Radxa Cubie A7Z
「微笑唤醒 · 语音陪聊 · 实体动作」
主动感知 / 自然对话 / 情感联结
01
研究背景与动机

现有智能桌宠的三大痛点

🖼️

缺乏实体存在感

传统桌宠停留在屏幕/App 内,无物理形态,无法感知用户状态,需手动点击触发——始终是"被动工具"。

🤖

交互能力孤立

市面实体机器人(如 AIBO、Loona)或具备视觉、或具备语音,鲜有同时整合主动感知+情感对话+肢体反馈三项能力的低成本方案。

边缘端算力瓶颈

重型 AI 框架(如 LangChain、大型 VLM)无法在 ARM 嵌入式平台实时运行,导致端侧智能体方案长期空白。

🐶

Lemo Pet:完整情感交互闭环

对摄像头微笑 → 机器人主动唤醒打招呼
全双工语音自然聊天
→ 每次回复伴随摇尾巴等实体动作

主动感知 · 自然对话 · 实体动作
三合一 · 纯边缘端运行

02
整体设计方案

四层软硬件解耦架构

LAYER 01
灵魂层 · 人格 & 记忆
Hermes Agent SOUL.md 人格定义文件 FTS5 全文检索长期记忆 跨会话状态持久化 MCP 工具生态接入
下阶段集成
LAYER 02
感知决策层 · 多模态融合
视觉感知(MediaPipe) 语音识别(ASR) LLM 情绪引擎 asyncio FSM 状态机 三协程并发调度
✓ 核心链路已通
LAYER 03
MCP 硬件桥接层 · 关键创新
pet_serial MCP Server 串口指令语义化封装 do_action("YAOWEIBA") LLM → 工具调用 → 硬件
调用延迟 <1ms
LAYER 04
STM32 实时执行层
FreeRTOS 动作序列执行器 OLED 表情引擎 PID 舵机闭环控制 硬实时保障
与上位机完全解耦
03
硬件平台

硬件选型 · BOM 清单

主控 SBC
Radxa Cubie A7Z
Allwinner A733 · 八核(2×A76@2.0GHz + 6×A55@1.8GHz)· NPU 3 TOPS · WiFi 6 · 65×30mm
✓ 已到货
摄像头
Radxa 4K Camera
Sony IMX415 · MIPI CSI · GStreamer pipeline · 1080p@30fps 用于 FaceMesh 推理
✓ 已验证
音频
USB 声卡 + 麦克风 / 喇叭
USB-C 转接 · ALSA plughw:1,0 · 16kHz 单声道采集 · 全双工播放
✓ 已验证
下位机 MCU
STM32F103C8T6
ARM Cortex-M3 · FreeRTOS · 串口接收上位机动作指令 · 与上位机完全物理解耦
✓ 固件已烧录
执行器
S90 金属舵机 ×4
四足机器狗骨架 · PID 闭环控制 · 摇尾巴 / 趴下 / 立正 / 唤醒动作
✓ 全部调通
显示
1.3" OLED
I2C 接口 · 表情状态动画 · 眼睛眨眼效果 · 同步情绪反馈
集成中
电源
1800mAh 锂电池组
有线充电模块 · 可独立移动部署 · 摆脱 USB 供电约束
✓ 配齐
04
已完成工作 · 语音模块

端到端语音对话链路

① ASR
语音识别
腾讯云 · 16k_zh
固定时长录音 6s
端点检测静音截断
✓ 跑通
② LLM
大语言模型
MiniMax MiniMax-M1
HTTP 流式 SSE 输出
情绪标签注入 Prompt
✓ 跑通
③ TTS
语音合成
MiniMax speech-02-turbo
WAV 16kHz Mono
情感参数动态调节
✓ 跑通
④ ACTION
同步动作触发
pyserial + asyncio
TTS 播放同时触发
摇尾巴 / 情绪肢体
✓ 跑通
0.51
TTS 实时率 RTF
~0.65s
TTS 首字延迟
<2ms
串口动作延迟
全异步
asyncio 无阻塞

架构选型:WebSocket(MiniMax wss 接口不稳定)→ 改用 HTTP 流式 SSE。 录音 → 识别 → LLM → TTS 合成 → 播放 + 摇尾巴,全链路一气呵成,LLM 首 token 即触发 TTS。

05
已完成工作 · 视觉与动作

微笑感知 & 串口动作控制

📷

摄像头采集

GStreamer pipeline
1920×1080@30fps
resize → 640×360 推理帧
😊

MediaPipe FaceMesh

478 关键点提取
嘴角宽/高比 > 2.5
→ 判定为微笑(Baseline)
🐾

串口动作触发

冷却锁 3s 防抖
asyncio 安全发送
互斥锁防并发写入

预定义动作指令集 · STM32 FreeRTOS 动作队列解析

唤醒 @ZAI#$
摇尾巴 @YAOWEIBA#$
趴下 @PAXIA#$
立正 @LIZHENG#$

当前阶段:几何阈值 Baseline 已完整验证。 局限性:对亚洲人脸、侧脸、戴眼镜等场景泛化较差,下一张幻灯片介绍基于深度学习的改进方案。

06
学术创新点一

MediaPipe + MLP 微笑分类器

Baseline 几何阈值法(当前)

01

MediaPipe FaceMesh

478 个人脸关键点实时提取,纯 CPU 推理,延迟 <10ms,无需 GPU

02

嘴角比值阈值判断

mouth_width ÷ (mouth_height + ε) > 2.5 即判定为微笑,规则简单直接

03

局限性分析

亚洲面孔嘴角特征差异大,侧脸 / 戴眼镜场景严重误判;硬阈值无法适应个体差异

进行中 MLP 分类器(目标方案)

01

自建专属数据集

针对亚洲人脸 / 演示者定制采集,正负样本各 500+,覆盖侧脸、眼镜、光照变化等场景

02

关键点特征向量 → MLP

478×2 坐标归一化 → PCA 降维 → 2 层全连接,模型大小 <100KB,边缘端推理 <10ms

03

滑动窗口投票

最近 5 帧中 ≥4 帧判定为微笑才触发,消除单帧噪声误判,冷却锁防止重复触发

▸ 论文学术亮点

自建场景定制数据集 + 轻量化 MLP 替代通用 API,是"面向特定场景的模型优化"研究范式,区别于直接调用黑盒表情 API,具有独立学术价值。

07
学术创新点二

MCP 硬件工具桥接层设计

🧠

LLM 决策

MiniMax M1
理解用户意图
情感分析 → 选动作
MCP tool_call
语义化调用
🔌

pet_serial MCP Server

do_action("YAOWEIBA")
语义指令 → 串口字节
协议封装 @CMD#$
UART 115200
<2ms 延迟
🐶

STM32 执行

FreeRTOS 动作队列
舵机 PID 控制
实时肢体反馈
▸ 设计动机

为什么引入 MCP 协议?

将串口硬件指令封装为 LLM 可调用的"工具",使大模型能通过自然语言逻辑直接控制物理硬件,而无需理解底层协议细节。

▸ 工程价值

软硬件解耦的边界清晰

上位机 Python 层仅操作语义动作名称,下位机 STM32 仅解析固定协议帧。MCP Server 是两者的唯一契约接口,便于独立测试与扩展。

▸ 学术价值

LLM-Tool-Hardware 新范式

将 MCP 工具调用机制从云端 API 下沉到嵌入式硬件控制场景,是 LLM-as-controller 在边缘侧机器人方向的创新应用。

▸ 中期阶段策略

asyncio FSM 先行验证

中期用轻量 asyncio 状态机打通底层链路,等底层稳定后将 Hermes Agent 作为"灵魂层"接入,MCP 桥接层保持不变。

08
项目进展

模块完成度总览

硬件选型 & 采购
100%
已完成
STM32 固件 & 动作库
100%
已完成
USB 音频链路
100%
已完成
ASR → LLM → TTS 闭环
100%
已完成
视觉 Baseline + 串口控制
100%
已完成
MLP 微笑分类器
35%
数据采集中
Hermes 灵魂层集成
15%
规划中
全链路压测 & 延迟优化
0%
待启动

下阶段路线: ① MLP 训练替换 Baseline(预计 2–3 天)→ ② Hermes Agent 灵魂层接入 → ③ 全链路端到端延迟优化目标 <1.5s → ④ 毕设完整演示 Demo

09
底层已就绪,
期待与各位老师深入交流 🐶
端到端语音链路 ✓
串口动作控制 ✓
视觉 Baseline ✓
MCP 硬件桥接层(创新点)
MLP 定制分类器(创新点)
MLP 训练 → 进行中
Hermes 集成 → 下阶段
全链路目标延迟 <1.5s

Radxa Cubie A7Z (A733 8-core) · STM32F103C8T6 · FreeRTOS · MiniMax M1 · speech-02-turbo · 腾讯云 ASR · MediaPipe FaceMesh · asyncio

10