本项目将详细为你介绍智能对话机器人详细制作过程。首先介绍esp32嵌入式开发客户端这一块,再介绍deepseek-v3服务端这一块。开源地址https://github.com/liuxingyvhuo/yueyueAI。
MAX98357 I2S
SPI TFT 1.8寸彩屏
INMP441
10045小型音箱
6*6*5MM 4引脚微动开关
硬件的接线引脚
VDD(3V3)
GND(GND)
SD(23)
SCK(22)
WS (21)
L/D (GND)
VDD(5V5)
GND(GND)
SCL(4)
SDA(16)
RST(17)
DC(5)
CS(18)
BLK(19)
一对引脚(13)
一对引脚(GND)
Vin(3V3)
GND(GND)
LRC(12)
BCLK(14)
DIN(27)
整体接线效果:
2.1、Thonny(micropython语言)
这是thonny搭建esp32环境的详细教程:ESP32+Thonny环境搭建_thonny esp32-CSDN博客
来自编程小邢啊
烧录完固件就可以进行编程上传数据了。
3.1、pycharm
esp32作为客户端,主要用于发送信息到服务端和接收服务端处理的信息。服务端用于接收客 户端的信息,将客户端的音频信息通过调用百度的API语言识别将其转化成文字,在将转化的文字传给调用的deepseek-v3模型API进行处理,然后把处理的信息传给客户端和讯飞的语音合成API,最后将大模型的回答和讯飞的语音合成音频传给esp32,实现文字显示和语音播放。
这里的unfont、st7735、new.bmf中文字库等文件要先上传到esp32上,这里的1.py、2.py、tft.py、v.py文件不用管它,这是我做测试用的。

注意要先将new.bmf中文字库上传!!!
服务端和客户端要连接同一个网络!!!
这里的server-ip需要去服务端的终端用命令去查找服务端的IP地址,注意有时候这个ip地址一段时间会自动分配新的IP地址!!!(有能力的可以把这边修改一下,让这个连接的IP固定)
在终端输入ipconfig即可查看服务端的IP地址,这个192.168.88.1就是服务器的IP地址了。

采用多线程处理,长按按键的时候进行采集发送音频,松开按键的时候进行接收服务端信息。
1.1、申请百度语音识别API
这是百度语音识别的API:语音识别_语音识别技术_百度语音识别-百度AI开放平台。
先登录进入这个网址点击开放能力的短语音识别标准版

然后进入这个页面直接点击使用

然后进入应用列表,创建应用。

这边要勾选语音识别这个产品,可以领个人的有5万次免费调用,这边因为已经领过了不方便演示。

现在就是创建好了,这里的API Key 和 Secret Key后面要用到,记得复制好。

1.2、申请deepseek-v3的API
OpenRouter这个是免费调用大模型的API

在注册登录之后就可以去创建Keys

对key命名后就可以得到keys,注意!!保存好这个keys。

1.3、申请讯飞的语音合成API
讯飞星火大模型API-大模型API-大模型接口-科大讯飞这个是讯飞的网址,先注册登录后,去领免费的语音合成次数。

点击立即体验就可以跳到控制平台

找到在线语音合成,点击购买服务量领免费的次数


领好之后回到控制界面,保存好你的APPID、APISecret、APIKey等信息

2.1、导入相应的包,初始化配置
导入相应的包,设置API信息配置,服务端用的是UDP网络协议,实时性高。
2.2、讯飞语音合成的相关函数
设置语音合成的相关函数(来自官方加自己的小修改),
2.3百度语音识别的相关函数
接收客户端的音频和百度语音识别的相关函数
2.4、调用deepseek-v3 API相关函数
这是调用deepseek-v3 API和将合成音频发送到客户端的函数。
2.5、主函数
这是主函数,这里的content后面的是对这个智能体的角色设定。注意配置客户端IP地址!在client_ip配置。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/223009.html