韩建飞 LV
发表于 2025-4-21 10:42:44
多模态呢,简单来说就是多种“模式”。打个比方,人有眼睛能看(视觉模式)、有耳朵能听(听觉模式)、有皮肤能感受触摸(触觉模式) ,这些不同的感知方式就是不同的模态。多模态就是把多种不同的感知信息结合起来。
在机器人控制上的应用,有很多方面。比如让机器人具备视觉和触觉多模态能力,当机器人要抓取一个物体时,视觉可以帮助它找到物体在哪里,是什么样子的;触觉能让它知道用多大的力气去抓,避免抓太轻物体掉落,抓太重又把物体捏坏。
再比如结合视觉和听觉多模态,机器人听到声音提示后,通过视觉去寻找声音来源方向的目标物体。这样可以让机器人在复杂环境中更好地完成任务,就像人在生活中,会同时调动多种感官来和周围环境互动一样,机器人通过多模态技术变得更加智能、灵活,能处理更复杂的情况 。 |
|