毕业设计中期答辩 · 2026

基于深度学习与嵌入式技术的

智能桌宠人机交互系统设计

运行在边缘端、具备主动感知能力的情感交互桌面伴侣机器人

边缘 AI 多模态融合嵌入式系统底层链路已贯通

汇报人何乃滔

答辩时间2026.04.29

项目代号Lemo Pet

平台Radxa Cubie A7Z

「微笑唤醒 · 语音陪聊 · 实体动作」
主动感知 / 自然对话 / 情感联结

01

研究背景与动机

现有智能桌宠的三大痛点

🖼️

缺乏实体存在感

传统桌宠停留在屏幕/App 内，无物理形态，无法感知用户状态，需手动点击触发——始终是"被动工具"。

🤖

交互能力孤立

市面实体机器人（如 AIBO、Loona）或具备视觉、或具备语音，鲜有同时整合主动感知+情感对话+肢体反馈三项能力的低成本方案。

⚡

边缘端算力瓶颈

重型 AI 框架（如 LangChain、大型 VLM）无法在 ARM 嵌入式平台实时运行，导致端侧智能体方案长期空白。

→

🐶

Lemo Pet：完整情感交互闭环

对摄像头微笑 → 机器人主动唤醒打招呼
→ 全双工语音自然聊天
→ 每次回复伴随摇尾巴等实体动作

主动感知 · 自然对话 · 实体动作
三合一 · 纯边缘端运行

02

整体设计方案

四层软硬件解耦架构

LAYER 01
灵魂层 · 人格 & 记忆

          Hermes Agent
          SOUL.md 人格定义文件
          FTS5 全文检索长期记忆
          跨会话状态持久化
          MCP 工具生态接入
        
下阶段集成
LAYER 02
感知决策层 · 多模态融合

          视觉感知（MediaPipe）
          语音识别（ASR）
          LLM 情绪引擎
          asyncio FSM 状态机
          三协程并发调度
        
✓ 核心链路已通
LAYER 03
MCP 硬件桥接层 · 关键创新

          pet_serial MCP Server
          串口指令语义化封装
          do_action("YAOWEIBA")
          LLM → 工具调用 → 硬件
        
调用延迟 <1ms
LAYER 04
STM32 实时执行层

          FreeRTOS
          动作序列执行器
          OLED 表情引擎
          PID 舵机闭环控制
          硬实时保障
        
与上位机完全解耦

03

硬件平台

硬件选型 · BOM 清单

上位机（边缘计算主控）

主控 SBC

Radxa Cubie A7Z

Allwinner A733 · 八核（2×A76@2.0GHz + 6×A55@1.8GHz）· NPU 3 TOPS · WiFi 6 · 65×30mm

✓ 已到货

摄像头

Radxa 4K Camera

Sony IMX415 · MIPI CSI · GStreamer pipeline · 1080p@30fps 用于 FaceMesh 推理

✓ 已验证

音频

USB 声卡 + 麦克风 / 喇叭

USB-C 转接 · ALSA plughw:1,0 · 16kHz 单声道采集 · 全双工播放

✓ 已验证

下位机 & 执行器

下位机 MCU

STM32F103C8T6

ARM Cortex-M3 · FreeRTOS · 串口接收上位机动作指令 · 与上位机完全物理解耦

✓ 固件已烧录

执行器

S90 金属舵机 ×4

四足机器狗骨架 · PID 闭环控制 · 摇尾巴 / 趴下 / 立正 / 唤醒动作

✓ 全部调通

显示

1.3" OLED

I2C 接口 · 表情状态动画 · 眼睛眨眼效果 · 同步情绪反馈

集成中

电源

1800mAh 锂电池组

有线充电模块 · 可独立移动部署 · 摆脱 USB 供电约束

✓ 配齐

04

已完成工作 · 语音模块

端到端语音对话链路

① ASR

语音识别

腾讯云 · 16k_zh
固定时长录音 6s
端点检测静音截断

✓ 跑通

② LLM

大语言模型

MiniMax MiniMax-M1
HTTP 流式 SSE 输出
情绪标签注入 Prompt

✓ 跑通

③ TTS

语音合成

MiniMax speech-02-turbo
WAV 16kHz Mono
情感参数动态调节

✓ 跑通

④ ACTION

同步动作触发

pyserial + asyncio
TTS 播放同时触发
摇尾巴 / 情绪肢体

✓ 跑通

0.51

TTS 实时率 RTF

~0.65s

TTS 首字延迟

<2ms

串口动作延迟

全异步

asyncio 无阻塞

架构选型：WebSocket（MiniMax wss 接口不稳定）→ 改用 HTTP 流式 SSE。录音 → 识别 → LLM → TTS 合成 → 播放 + 摇尾巴，全链路一气呵成，LLM 首 token 即触发 TTS。

05

已完成工作 · 视觉与动作

微笑感知 & 串口动作控制

📷

摄像头采集

GStreamer pipeline
1920×1080@30fps
resize → 640×360 推理帧

→

😊

MediaPipe FaceMesh

478 关键点提取
嘴角宽/高比 > 2.5
→ 判定为微笑（Baseline）

→

🐾

串口动作触发

冷却锁 3s 防抖
asyncio 安全发送
互斥锁防并发写入

预定义动作指令集 · STM32 FreeRTOS 动作队列解析

唤醒 @ZAI#$

摇尾巴 @YAOWEIBA#$

趴下 @PAXIA#$

立正 @LIZHENG#$

当前阶段：几何阈值 Baseline 已完整验证。局限性：对亚洲人脸、侧脸、戴眼镜等场景泛化较差，下一张幻灯片介绍基于深度学习的改进方案。

06

学术创新点一

MediaPipe + MLP 微笑分类器

Baseline 几何阈值法（当前）

01

MediaPipe FaceMesh

478 个人脸关键点实时提取，纯 CPU 推理，延迟 <10ms，无需 GPU

02

嘴角比值阈值判断

mouth_width ÷ (mouth_height + ε) > 2.5 即判定为微笑，规则简单直接

03

局限性分析

亚洲面孔嘴角特征差异大，侧脸 / 戴眼镜场景严重误判；硬阈值无法适应个体差异

进行中 MLP 分类器（目标方案）

01

自建专属数据集

针对亚洲人脸 / 演示者定制采集，正负样本各 500+，覆盖侧脸、眼镜、光照变化等场景

02

关键点特征向量 → MLP

478×2 坐标归一化 → PCA 降维 → 2 层全连接，模型大小 <100KB，边缘端推理 <10ms

03

滑动窗口投票

最近 5 帧中 ≥4 帧判定为微笑才触发，消除单帧噪声误判，冷却锁防止重复触发

▸ 论文学术亮点

自建场景定制数据集 + 轻量化 MLP 替代通用 API，是"面向特定场景的模型优化"研究范式，区别于直接调用黑盒表情 API，具有独立学术价值。

07

学术创新点二

MCP 硬件工具桥接层设计

🧠

LLM 决策

MiniMax M1
理解用户意图
情感分析 → 选动作

→

MCP tool_call
语义化调用

🔌

pet_serial MCP Server

do_action("YAOWEIBA")
语义指令 → 串口字节
协议封装 @CMD#$

→

UART 115200
<2ms 延迟

🐶

STM32 执行

FreeRTOS 动作队列
舵机 PID 控制
实时肢体反馈

▸ 设计动机

为什么引入 MCP 协议？

将串口硬件指令封装为 LLM 可调用的"工具"，使大模型能通过自然语言逻辑直接控制物理硬件，而无需理解底层协议细节。

▸ 工程价值

软硬件解耦的边界清晰

上位机 Python 层仅操作语义动作名称，下位机 STM32 仅解析固定协议帧。MCP Server 是两者的唯一契约接口，便于独立测试与扩展。

▸ 学术价值

LLM-Tool-Hardware 新范式

将 MCP 工具调用机制从云端 API 下沉到嵌入式硬件控制场景，是 LLM-as-controller 在边缘侧机器人方向的创新应用。

▸ 中期阶段策略

asyncio FSM 先行验证

中期用轻量 asyncio 状态机打通底层链路，等底层稳定后将 Hermes Agent 作为"灵魂层"接入，MCP 桥接层保持不变。

08

项目进展

模块完成度总览

硬件选型 & 采购

100%

已完成

STM32 固件 & 动作库

100%

已完成

USB 音频链路

100%

已完成

ASR → LLM → TTS 闭环

100%

已完成

视觉 Baseline + 串口控制

100%

已完成

MLP 微笑分类器

35%

数据采集中

Hermes 灵魂层集成

15%

规划中

全链路压测 & 延迟优化

0%

待启动

下阶段路线： ① MLP 训练替换 Baseline（预计 2–3 天）→ ② Hermes Agent 灵魂层接入 → ③ 全链路端到端延迟优化目标 <1.5s → ④ 毕设完整演示 Demo

09

底层已就绪，
期待与各位老师深入交流 🐶

端到端语音链路 ✓

串口动作控制 ✓

视觉 Baseline ✓

MCP 硬件桥接层（创新点）

MLP 定制分类器（创新点）

MLP 训练 → 进行中

Hermes 集成 → 下阶段

全链路目标延迟 <1.5s

Radxa Cubie A7Z (A733 8-core) · STM32F103C8T6 · FreeRTOS · MiniMax M1 · speech-02-turbo · 腾讯云 ASR · MediaPipe FaceMesh · asyncio

10