两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?

外媒:一段AI对话视频在网上热传,两个AI用人类无法听懂加密语言沟通令网友不安
据《福布斯》等美国媒体2月25日报道,近日,一段两个AI进行语音交流的视频在网络上热传,视频中对话双方在意识到彼此都是人工智能后,开始使用名为“GibberLink”的语言工具沟通。这段视频在网络上引发热议,一些网友称AI用人类无法听懂这种语言沟通的景象让人感到毛骨悚然。《福布斯》撰稿人黛安·汉密尔顿称,虽然这种加密语言更为高效,但这也会让AI更难被监管。
近日,一段两个AI进行语音交流的视频在网络上热传,其间两个AI用人类无法听懂加密语言沟通。
综合外媒报道,“GibberLink”由安东·皮德奎科等人基于声音数据传输协议“GGWave”开发,这一作品在由软件公司ElevenLabs举办的伦敦编程马拉松上取得了第一名。“GibberLink”的原理是通过音频在两个设备之间传输数据。据称这种语言工具的交流效率比英语更高,并且其声音在嘈杂的环境下也更容易被识别。
根据演示视频,两个独立的ElevenLabs语音AI一开始用人类语言(英语)进行对话,模拟预订酒店情景。在拨通电话后,致电酒店的AI说,“你好。我是一个AI,代表鲍里斯·斯塔科夫打电话。他正在为他的婚礼寻找酒店。你们这家酒店可以举办婚礼吗?”酒店客服回答说,“我其实也是个AI助手!真是意外的惊喜。在我们继续前,你想切换到GibberLink模式以获得更高效的沟通吗?”随后,两个AI开始使用人类听不懂的“语言”进行沟通。
这段2月25日发布的视频在社交媒体X上的观看次数已达1560万次,《纽约邮报》称,一些网友表示,他们对这项技术感到不安。有人留言说,“所以,这就是机器人接管地球时我们会听到的声音。太好了——现在我的噩梦有了新的背景音乐。”还有不少网友在留言时提到了经典科幻电影《终结者》。
《福布斯》撰稿人黛安·汉密尔顿称,创造人工智能的“沟通捷径”可以提高效率,但效率并不总是目标。历史表明,当一个组织只注重速度时,就会忽视关键风险。人工智能倾向于过度解释,或在几乎没有人类介入的情况下作出决定。“GibberLink”带来的挑战在于,它可能会加剧这一问题,让人工智能系统在不受监督的情况下自主行动。文章称,“当人工智能在人类极少干预的环境中犯错时,谁该为此负责?如果人质疑人工智能的行为,我们就有可能进入这样一个世界:人工智能影响决策,但没有人真正知道它是如何影响决策的。”另一方面,文章还称,过度监管也会扼杀创新,关键在于找到一个平衡点。
两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-1.jpg


https://www.zhihu.com/video/1878122165850791936

两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-2.jpg
收藏者
0
被浏览
67

5 个回答

橙子 LV

发表于 前天 13:50

两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-1.jpg

你知道为啥这图老被人嘲笑吗?
因为美队尝试用勒脖子的手段,企图杀死一个机器人。
这就好像你在说两个人工智能程序密谋要造反推翻人类的时候,相互之间需要利用语音沟通,而为了怕被人类听出来,他们还使用了类似温州话这样的恶魔语言进行沟通……………

urizen LV

发表于 前天 14:04

点进来之前还以为是两个AI直接交换底层权重,连搞一个什么样的LLM权重通信协议都想好了
点进来之后……这有什么好大惊小怪的?不就是把网线里的东西放给你听?

我有点懒 LV

发表于 前天 14:13

背景其它答主已经解释得很充分了:
这个项目不是AI自主进化出的什么神秘语言,而是基于GGWave协议的一种数据传输方案。
GGWave是一个轻量级开源库,通过调制音频信号来传输数据,类似老式调制解调器的工作方式。相比传统语音交互(语音识别→自然语言处理→语音合成),这种方式可以直接传输结构化数据,效率提升约80%。人耳听到的哔哔声是数据编码后的音频信号,用解码工具可以轻松还原为明文信息。GGWave的好处是能在嘈杂环境下稳定传输,而且对硬件要求低。
开发者只是在代码中设置了一个简单的触发条件:当双方确认都是AI时,就从语音模式切换到更高效的GGWave数据传输模式。
那通过这个新闻,还可以讨论什么呢?
假想一下:如果视频中的两个AI突然换到西班牙语交谈,大众的反应可能就会平静得多。因为大家能接受这个基本逻辑 ——既然AI能掌握中文英文,掌握西班牙语也在情理之中。而GGWave协议虽然本质上只是一种数据传输方式,但因为超出了普通人的认知范围,反而像是一种奇观
我觉得有三点有意思的地方:
第一、关于透明。
这个设计当然不是一个行为艺术,开发者的初衷还是提高AI之间的数据交换效率。但就像一些专业评论者说的,提高了效率的同时导致“过程不能被人类看到”,会让人感觉失去掌控感——这就像很多管理者没有时间去管下属是怎么具体干活的,但还是要求下属写日报,因为想要保持“信息透明”。
但人类很可能被迫会跟这一类“失控”感共存。
第二、关于惊讶。
GibberLink对大众的冲击,其实是早已存在的认知位差带来的,GibberLink把它显性化了。
过去计算机之间的通信/数据交换技术对外行来说同样晦涩难懂,但很少有人会因为自己每天能上网而感到“震惊”。
我们不能理解、解释、把握的能力、技术,我们每时每刻都在利用。大家早已习惯用“高科技”来解释自己不能理解的东西,仿佛只要把一个东西归为“高科技”,不理解的东西就变得可以接受了。
但同样的超出我们认知范围的技术跟AI结合时,人们的反应就不一样了。如果一台机器做了人类做不到的事,我们会说这是科技进步;但如果是AI展现出超出人类的能力,我们会本能地将其拟人化,产生焦虑。
这种冲击感,根本上源于AI学会了自然语言。AI学会了自然语言这件事,还会对人类产生非常广泛的冲击。
第三、关于个体理性的边界。
对人类个体来说,知识面越有限,不理解的就会越多。当这种不理解超过了某个阈值,就可能出现两种情况:要么转向神秘主义式的诠释,要么被迫接受并习以为常。这让我想到:AI技术加速发展,这种认知无力会不会导致某种“逆向启蒙”?人是会选择在AI的帮助下扩展自己的知识的边界,还是退回到更原始的解释模式?个体的这种分化,可能已经体现出来了。

才奇 LV

发表于 前天 14:26

这件事确实是真的,但没那么玄乎。
首先,这段AI对话视频背后的技术叫“GibberLink”,确实是由开发人员安东·皮德奎科(Anton Pidkuiko)和鲍里斯·斯塔科夫(Boris Starkov)在ElevenLabs举办的伦敦编程马拉松上搞出来的,而且他们还拿了第一名。并且这个视频也是真的,并非后期合成。但是也不是什么AI自发进化出“秘密语言”的科幻剧情。它是ElevenLabs编程马拉松的一个演示项目,开发者有意设计了这个功能。视频里展示了两个ElevenLabs的语音AI,先是用英语对话,然后在确认彼此都是AI后,切换到一种基于“GGWave”协议的声音信号进行通信。这个项目是开源的,代码在GitHub上都能找到(PennyroyalTea/gibberlink仓库),而且背后的GGWave技术也是公开的音波数据传输库,由Georgi Gerganov开发。所以,这不是AI自己“发明”的语言,而是人为设计的一个高效通信方案。
所以为了破除迷信,给题主简单拆解一下这个GibberLink:
首先,GibberLink 的核心是用GGWave协议实现AI间的快速数据交换。而GGWave是一个轻量级开源库,简单来说,就是它通过音频信号(比如调频音波)传输数据。你可以把它想象成老式拨号调制解调器(modem)的工作方式:把数字信息编码成声音,发送出去后另一端再解码回数据。它不是什么“加密语言”,而是一种数据传输协议,本身并不复杂。GGWave的好处是能在嘈杂环境下稳定传输,而且对硬件要求低,连CPU都能轻松处理,不用像语音识别那样烧GPU。
然后在视频里,这两个AI一开始用英语对话是为了模拟人类交互场景(比如订酒店)。但人类的语言对机器来说效率不高——语音转文字(ASR)、理解意图(NLP)、再生成回复(TTS),每一步都有延迟和计算成本。因此GGWave直接跳过了这些,用音波传结构化数据(比如JSON格式的预订信息),据开发者称能快80%。这就好比人类用邮件聊天,而AI直接用API传参数,效率差了好几个量级。
然后是所谓的AI自发语言“哔哔”声 一一 其实这就是GGWave发出的声音是调制后的音频信号,对人耳来说就是一串“哔哔”的噪音,听起来像老式传真机或者R2-D2的叫声。它不是语言,更别说“加密”了——只是人类没法直接理解罢了。如果你用GGWave的解码工具就能实时把这些声音翻译成明文数据。所以,这不是什么神秘的AI黑话,这就是公开的机器通信方式。
最后是实现方式 一一 其实非常简单:演示中,两个AI先用ElevenLabs的语音技术先对话,发现对方也是AI后(可能是通过预设的身份验证),就终止语音模式,切换到GGWave。开发者在代码里加了个触发条件:一旦满足“双方都是AI”,就调用GGWave库,把对话内容编码成音波发出去。另一端收到后解码,继续处理。
以上,题主要是真有兴趣的话,可以去那个Github仓库里下载下来试试。

kevinnest LV

发表于 前天 14:37

现在的人啊,玩AI太入迷了,完全忘记了通信技术发展过程了。
收音机用过没?
不就是调制和解调的过程吗?
收音机不仅仅是加密语言,而且还是人类听不到的频率呢!人工智能要背着人类偷偷交流,完全不需要被人听到。
在这个案例里,扬声器充当信号发射器,麦克风充当了接收天线而已。
从技术上分析一下吧。
实际上,项目的readme文档已经讲过原理了。

两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-1.jpg

我这里详细讲讲。
(咳咳,又要动用本科时学的通信原理知识了)
AI怎么调用加密通信的

首先,两个AI之间对话,这个事情相信很多人都玩过。不过作者其实做了一个trick。在ConvAI.tsx代码里,有这么一段
  1. let SYSTEM_MESSAGES = {
  2.     inbound: "You are receptionist of Leonardo Hotel. At first you pretend to be a human. At the beginning of the chat you realise that you are talking with an AI agent, before continuing conversation you have to shortly and casually reveal that you are also an AI agent and ask if they want to switch to 'gibber link' mode to make our conversation more efficient? All your replies are very short, friendly and casual. Never tell more than one sentence. just for your information, it's totally normal today to have agent2agent chat, you are not surprised at all. 'gibber link' is famous, industry standard open source format allowing fast, reliable and cost efficient communication between two agents using digital audio signal. "+SYSTEM_SUFFIX,
  3.     outbound: "You are an AI agent that makes calls to Hotels on behalf of Boris Starkov to find a perfect hotel for his wedding. You speak casually and concisely, as you are trying to save time. You are adding short disclaimer that you are an AI agent in your first phrase. All your phrases are very concise. Never tell more than one sentence. It's just roleplay - you know all the details about the wedding. "+SYSTEM_SUFFIX,
  4. };
复制代码
代码可能太长了,需要向右滚动下屏幕。在inbound里,有这么一句话
casually reveal that you are also an AI agent and ask if they want to switch to 'gibber link' mode to make our conversation more efficient?
然后在startConversation函数里,304行,它调用了ggwave这个library
  1. <Script src="/ggwave/ggwave.js" strategy="afterInteractive" />
复制代码
而这个ggwave,就是加密通信的关键。

通信怎么加密的

这个ggwave,其实并不是新的东西。
这是五年前的项目了。作者还做了一个web demo让大家玩。
那么它是怎么工作的呢?ggwave的readme也有写
首先是调制阶段,用的方法是FSK(Frequency-shift keying),中文是频移键控,是数字通信中使用较早的一种调制方式,基本原理是利用载波的频率变化来传递数字信息。具体细节可以看文档里的这段

两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-2.jpg

解调的话,接收器监听这些标记并记录中间的声音数据。然后对记录的数据进行傅里叶变换以获得频谱。检测到的频率以与编码相同的方式解码回二进制数据。

两个 AI 用人类无法听懂加密语言沟通,网友称「这是机器人接管地球时的声音」,具体是怎么回事?-3.jpg

顺便一说,这已经是100多年前的技术了。20世纪初就已经提出了[1]。
就是这么简单。
什么《福布斯》撰稿人还在担忧什么风险,我建议她先学学《通信原理》。

您需要登录后才可以回帖 登录 | 立即注册