运行在边缘端、具备主动感知能力的情感交互桌面伴侣机器人
传统桌宠停留在屏幕/App 内,无物理形态,无法感知用户状态,需手动点击触发——始终是"被动工具"。
市面实体机器人(如 AIBO、Loona)或具备视觉、或具备语音,鲜有同时整合主动感知+情感对话+肢体反馈三项能力的低成本方案。
重型 AI 框架(如 LangChain、大型 VLM)无法在 ARM 嵌入式平台实时运行,导致端侧智能体方案长期空白。
对摄像头微笑 → 机器人主动唤醒打招呼
→ 全双工语音自然聊天
→ 每次回复伴随摇尾巴等实体动作
主动感知 · 自然对话 · 实体动作
三合一 · 纯边缘端运行
架构选型:WebSocket(MiniMax wss 接口不稳定)→ 改用 HTTP 流式 SSE。 录音 → 识别 → LLM → TTS 合成 → 播放 + 摇尾巴,全链路一气呵成,LLM 首 token 即触发 TTS。
预定义动作指令集 · STM32 FreeRTOS 动作队列解析
当前阶段:几何阈值 Baseline 已完整验证。 局限性:对亚洲人脸、侧脸、戴眼镜等场景泛化较差,下一张幻灯片介绍基于深度学习的改进方案。
478 个人脸关键点实时提取,纯 CPU 推理,延迟 <10ms,无需 GPU
mouth_width ÷ (mouth_height + ε) > 2.5 即判定为微笑,规则简单直接
亚洲面孔嘴角特征差异大,侧脸 / 戴眼镜场景严重误判;硬阈值无法适应个体差异
针对亚洲人脸 / 演示者定制采集,正负样本各 500+,覆盖侧脸、眼镜、光照变化等场景
478×2 坐标归一化 → PCA 降维 → 2 层全连接,模型大小 <100KB,边缘端推理 <10ms
最近 5 帧中 ≥4 帧判定为微笑才触发,消除单帧噪声误判,冷却锁防止重复触发
自建场景定制数据集 + 轻量化 MLP 替代通用 API,是"面向特定场景的模型优化"研究范式,区别于直接调用黑盒表情 API,具有独立学术价值。
将串口硬件指令封装为 LLM 可调用的"工具",使大模型能通过自然语言逻辑直接控制物理硬件,而无需理解底层协议细节。
上位机 Python 层仅操作语义动作名称,下位机 STM32 仅解析固定协议帧。MCP Server 是两者的唯一契约接口,便于独立测试与扩展。
将 MCP 工具调用机制从云端 API 下沉到嵌入式硬件控制场景,是 LLM-as-controller 在边缘侧机器人方向的创新应用。
中期用轻量 asyncio 状态机打通底层链路,等底层稳定后将 Hermes Agent 作为"灵魂层"接入,MCP 桥接层保持不变。
下阶段路线: ① MLP 训练替换 Baseline(预计 2–3 天)→ ② Hermes Agent 灵魂层接入 → ③ 全链路端到端延迟优化目标 <1.5s → ④ 毕设完整演示 Demo
Radxa Cubie A7Z (A733 8-core) · STM32F103C8T6 · FreeRTOS · MiniMax M1 · speech-02-turbo · 腾讯云 ASR · MediaPipe FaceMesh · asyncio