一天八百个情绪 LV
发表于 2025-4-8 12:43:37
刚刚吴恩达在推特上发表了对于近期非常火的DeepSeek的评价,其中一段是这样的。China is catching up to the U.S. in generative AI. When ChatGPT was launched in November 2022, the U.S. was significantly ahead of China in generative AI. Impressions change slowly, and so even recently I heard friends in both the U.S. and China say they thought China was behind. But in reality, this gap has rapidly eroded over the past two years. With models from China such as Qwen (which my teams have used for months), Kimi, InternVL, and DeepSeek, China had clearly been closing the gap, and in areas such as video generation there were already moments where China seemed to be in the lead. 翻译过来就是:中国在生成式人工智能方面正在赶超美国。2022 年 11 月推出 ChatGPT 时,美国在生成式人工智能方面远远领先于中国。印象变化很慢,所以最近我听到美国和中国的朋友说他们认为中国落后了。但实际上,这种差距在过去两年里迅速缩小了。借助 Qwen(我的团队已经使用了几个月)、Kimi、InternVL 和 DeepSeek 等来自中国的模型,中国显然正在缩小差距,而在视频生成等领域,中国似乎已经处于领先地位。 其中他就提到了Qwen,其实Qwen系列在AI大模型圈子里面一直都很活跃。
如果你看过Qwen的HuggingFace首页的话,你会发现它的涉猎非常广,几乎覆盖了所有的领域。
https://huggingface.co/Qwen比如
- 通用大模型:从0.5B到超百万B大小模型都很齐全
- 多模态:Qwen-VL系列
- 音频处理:Qwen-Audio
- 科学计算:Qwen Math
- AI编程:Qwen Coder
发布的模型足足有226个之多,可以说,Qwen比Meta的Llama出发的迟了点,但是一直在做事。
DeepSeek能这么火出圈,是因为它用了所有人都出乎意料的黑科技,然后一举成名,特别是MoE结构的使用。
Qwen系列大多采用Dense结构,不过就在DeepSeek R1发布不久,Qwen2.5-Max模型也发布了,同样采用了MoE结构。
在跟包括DeepSeek V3,GPT4o以及Claude3.5sonnet的比较重,表现是Top级别。
其实很值得注意的是这次DeepSeek V3排在了GPT4o的前面,这其实也证明了某种意义上的转折点,中国Top级别的大模型,DeepSeek,Qwen等,出乎全世界的意料,在短短的两年内追上了具有先发优势的OpenAI,Cluade。
更难能可贵的是,开源这条路Meta的Llama走的最早,法国的Mistral也有一阵走的声音很大,但是都没能继续走下去。
反而是中国的团队,一直不停的在往前走,推进开源社区的前进。
最后,请支持中国的大模型团队,多用这些大模型,多给他们反馈,他们才能走的更远。
Qwen Chat |
|