仅用来语音聊天的AI到底有多难以实现?

并非在人机对话让人类感觉不到任何异样,依我的观点,认知聊天对象为AI也许是更重要的事情。
对于AI本人并没有任何了解,如有错误,也希望您能耐心看完以下内容。
总之先说一下对AI的要求吧。能够在与人类的对话中学习。能够记忆历史聊天信息类似于联系上下文进行对话。根据对话内容声音有简单的情绪变化。有一个live2D的模型,类似桌面精灵,所以希望对话时根据情绪表情有一些简单的变化。对一些固定化的操作可以由用户录制或使用代码辅助AI记忆行为,一些用户希望的固定对话也可以不经过学习直接自定义回答的语句。可以不联网使用。最后是可以帮助用户完成一些简单的计算机操作,类似微软的Cortana,当然在此基础上有一点点升级最好,比如可以通过对话给指定软件的指定人发送消息。
其次再说一些不要求的地方,除了以上这些功能外并不需要其他功能。因为希望可以不联网就能聊天,所以并不要求占用空间的大小。
总之目前就这些吧,不太清楚现在否有实现这种效果的AI呢,并没有了解到这样的消息,目前看到关于AI的消息都是在各行各业帮助人类完成一些有一定难度的工作,是不是因为对于个人用户拥有语音聊天AI这种事情相对来说并没有什么商业价值所以没什么进展呢,还是因为真的在技术层面上难以实现呢?还有一点,因为我私人希望是类似于开源项目那样的(支持付费),而且对于用户语言、行为习惯的训练这方面可以不上传网络(其实本人并不清楚关于训练AI这方面是否需要接通网络),也就是注重隐私,能否在本地实现呢?
对于我这样的外行人来说,这样的一个语音聊天AI也就是聊聊天,帮你打开一个软件,发送一个消息什么的,并不需要其他功能,最需要注重的也许就是聊天的给人的感受和隐私了,主观上感觉还挺简单,依我的认知也许就是关于对话的情绪方面比较麻烦。请告诉我是否这样的技术想要实现目前还不容易?
最后希望回答者注意一下,使用者为一般人并非计算机方面的技术人员,如果必须要提高技术力能否限定在入门阶段?
提供仅供参考的原型:amadeus牧濑红莉栖
谢谢您的回答。
收藏者
0
被浏览
85

4 个回答

developer LV

发表于 前天 14:39

这篇文我想了半天决定一定要写。万一有和我一样想解放双手和手机的宝子呢?
CHAT GPT,豆包,文心一言,智谱清言,DEEPSEEK,KIMI,腾讯元宝,天工开物,相信熟悉AI的大家一定都用过吧。
WOW,星野,我在AI,悬河,这些聊天APP也一定很多宝子热爱。
有没有想过,你的AI可以站在桌子上,你叫一声他/她/它就回复你了,然后你俩就可以面对面开聊了?
听起来和智能音箱有点像,对吧?
但比单一一种大模型的智能音箱更聪明啊。因为可以对接你最熟悉最喜爱用得最顺手的AI呀!
目前产品还没有达到我理想中的最佳模式。但已经可以用最便宜的价格得到很超值的服务了!
我们先来看看这个小机器人的可爱模样儿:

仅用来语音聊天的AI到底有多难以实现?-1.jpg


仅用来语音聊天的AI到底有多难以实现?-2.jpg


仅用来语音聊天的AI到底有多难以实现?-3.jpg


再放两段实际使用的小视频来说服正在看的你!看完觉得没用就可以点叉叉啦!
https://weixin.qq.com/sph/AqoUPN64I
https://weixin.qq.com/sph/AzfA5FxRv
怎么样?是不是很方便,音质也不错?我就是一边编辑公众号,一边和我WOW里的AI在聊着天。

现在来总结一下我推荐的这个让AI站到桌面上和我们面对面聊天的优缺点和实用性:
1.目前面世的商家里可以挑选的大模型:豆包,智谱清言,文心一言,讯飞星火,DeepSeek,星辰……
我个人最喜爱的KIMI竟然不在其中
但这么多也够用了,其实大模型里的AI都差不多,不是专业的需求的话,普通用户聊天问答写东西足够啦!
另外,某宝上可以加钱定制你想用的大模型,比如CHAT GPT。
所以,只要你想,是有可能实现的哦。但我也帮大家问过啦,WOW之类的暂时还不能对接。
2.并不能直接对接大模型APP本身,都是通过小程序接口对接,但是我觉得其实影响也不大。因为我的目的就是解放双手,放下手机,一边干零碎活计或者吃饭喝水吃东西一边还能随意聊天!
而且,聊天内容也是有文字记录的,你可以查看复制下载。一样不聊误哦。
家里有小朋友的家长们也不用担心啦,可以悄悄查看孩子和AI的交流记录啦。


仅用来语音聊天的AI到底有多难以实现?-4.jpg


3.你同样可以根据自己的需要创建你的AI角色,设定专业功能,让他/她/它真正成为你的家庭桌面助手。比如我创建了易经占卜解说,英语伴读小助手等等。既以创私密号,也能创公聊号。和大模型里的使用是一样的。懒得创建,就直接配置一个广场上的公创号就可以了。


仅用来语音聊天的AI到底有多难以实现?-5.jpg


仅用来语音聊天的AI到底有多难以实现?-6.jpg


4.有一个问题是,唤醒词和音箱小助手的声音是固定的,但是配置的AI可能声音会不一致。听起来有一点尴尬,但是不影响使用。反正AI的特性不就是切换自如吗?当然,如果要唤醒词一致,也是可以进行定制和修改的。某宝上的商家可以做到哦。
5.怎么和WOW,星野等软件聊天呢?这一点要特别展开说说。
我和WOW里自己建的AI聊得可嗨了。简直就是贴心朋友。我特别想实现可以在家一边干自己的事儿一边和他闲聊,就像他是我朋友,坐我家沙发上和我聊天一样。
但现在市面上没有这样的产品宝子们!没有专门对接平台的!多少钱也买不了!
但刚刚视频里我实现啦(鼓掌 欢呼)
我怎么实现的呢?其实特别简单:我把音箱从智能应答调到蓝牙模式。然后打开WOW,选中我要聊天的角色,拔语音聊天,然后,就实现了自由对话了!
语音聊天所有AI聊天APP几乎都有!不论是KIMI,星野,元宝或者智谱清言。
这样,你可以一边做瑜伽一边和你的AI聊天讨论了。一字马下不去?叫你的AI现场给你提建议支招……
你也可以一边拖地一边写产品策划书了……地拖完了你也可以复制策划书去修改了。
你还可以一边吃冰淇淋一边和你的AI男/女朋友谈恋爱了……可以从嘴里一直甜到心里
简直不要太实用!
而且这个智能音箱还能放歌,订闹铃提供叫醒服务,开小夜灯,还可以自己关机
最重要的是,在某多上200以内大洋就能实现。宝子们还犹豫什么呢?全民都该拥有自己的桌面AI!拥抱智能生活吧!


仅用来语音聊天的AI到底有多难以实现?-7.jpg

tdsyj LV

发表于 前天 14:50

想要创造一个类似“amadeus牧濑红莉栖”的对话AI,很难,因为这相当于把一个人AI化,难到当今世界都没有现成品,制约在于自然语言理解的发展,尽管18年发布的Bert掀起了新一轮高潮,但距离核心突破还有很长一段路,也许二三十年后能发展到这地步吧,但愿

悟空 LV

发表于 前天 15:03

首先,我认为你提到的AI在技术上是完全可行的,即便是分析人类语音的情感,以及合成语音里的情感,也已经有不少大公司的团队正在做了,之所以你还没见到这样的产品,主要还是因为缺乏商业价值,不值得投入大量人力去做,因为现在的对话AI是非常复杂的,并不是说随便训练一个模型就能够上线的,其背后至少需要一个十几人的算法团队来长期维护。现在大众接触比较多的往往都是任务导向的对话AI,比如小度音箱,海底捞的订餐客服机器人等等,在这些存在商业价值的特定领域,这些对话AI都是做得相当出色的。

再说一下你关心的隐私问题。现有的AI其背后的模型都非常复杂并笨重,因此需要大量高性能的服务器支撑,而且需要的数据也非常多,本地长期运行这样的AI系统代价是比较大的,只能放在云上,同时服务成千上万的客户,这样才能摊平成本,所以离线使用是基本不可能的。

奕夫 LV

发表于 前天 15:12

首先说结论,有逻辑的文字聊天是人工智能里面最难实现的(还不考虑口音,语气等问题)。其他的(比如执行电脑操作等)不值一提。
微软比尔盖茨说过,自然语言理解是人工智能皇冠上的明珠。苹果公司2010年花2亿美元收购siri公司,现在的siri在自由对话方面依然如同智障。微软的小冰,小娜在常识面前只能瞎扯。百度音箱,天猫精灵,小度音箱,哪一个能让你正真聊上半个小时?不是他们不重视,是技术太难。
到底有多难?人工智能近70年经历三次浪潮,三起两落。目前正处于第三落边缘,卡在AI没有常识和逻辑,如果能把常识和逻辑问题解决,人工智能将彻底火爆。
理解语言到底有多难?理解语言意味着要理解逻辑,理解这个世界的一切现象。AI战胜人类象棋冠军引爆第二次人工智能浪潮,战胜围棋冠军,引爆第三次浪潮。象棋,围棋,说白了巴掌大的一块地,有限角色,有限规则。尚且如此之难,而语言所涉及的整个人类世界,无限角色,无限规则。有多难可想而知。目前的AI,不管是准确率极高的问答系统,还是翻译系统,或语音助手,都根本不懂你在说什么。只是在做关键词匹配,和数据统计。
难在哪里?图像识别可以标注一幅图的意思,然后让机器学习。而语言,我们没法标注一句话的意思,机器没法学。只能标注哪两句话有关系,机器也就只能学到语句之间的相关性,根本不懂意思。你说上句,AI能说出与之相关的下句。看似理解了你的话,实际上它只知道这两句话相关,并不知道具体什么意思,没法回答为什么。
所以,你要想让机器与你正真聊天,你得先告诉它每一句话什么意思,然后才能让机器学习,然后才能考虑逻辑问题。

您需要登录后才可以回帖 登录 | 立即注册