怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?

在10月24日举行的科大讯飞全球1024开发者节上,科大讯飞展示了讯飞星火4.0Turbo大模型。这个升级版的人工智能模型在多项能力上都超越了之前的版本,甚至在某些方面超过了业界领先的GPT-4Turbo。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-1.jpg

科大讯飞首次发布星火多语言大模型:支持中英之外8语种
收藏者
0
被浏览
74

5 个回答

aylue LV

发表于 2025-3-28 17:33:58

任何指标都是在一个特定集合上测试的,与场景实际集合必有差异。

dowell LV

发表于 2025-3-28 17:40:32

还是腾讯和阿里比较低调。
科大讯飞这个星火认知大模型 4.0 Turbo,还是有很大潜力的。
你把北师大的数学例题发给他,也没算对啊。原题:

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-1.jpg

负的二分之五,啊亲他算成了什么……

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-2.jpg

负的二分之二十三…………

lxi4509 LV

发表于 2025-3-28 17:46:49

2024年1024程序员节,技术起家的科大讯飞举行了第七届世界声博会暨2024科大讯飞全球1024开发者节。这场大会可能是人工智能发展史的一次重要分水岭。
话不多说,直接看大会有多少个第一 ———

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-1.jpg

1,讯飞星火4.0 Turbo发布,
七大核心能力全面超过GPT-4 Turbo,
国内外14项测试集,讯飞星火有9项第一。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-2.jpg


怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-3.jpg

2,首发10项基于讯飞星火底座能力的应用,
比如医学影像大模型、汽车端侧星火大模型,高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器,发布星火智办一体机、科大讯飞多语种 AI 翻译透明屏等,
可以看到,这都是一些很刚需很实用的AI产品。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-4.jpg


怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-5.jpg


怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-6.jpg


怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-7.jpg

3,讯飞星火首发语音视觉虚拟人交互“三合一”,超拟人数字人首次亮相。

4,星火代码7B版本,代码生成、代码补全等,业界第一。

5,首发星火多语言大模型,首次实现全国地级市方言全覆盖,含全国288个地市、202种方言,将在讯飞输入法上线,我们都知道,很多老人只会说方言,不会说普通话,这项应用可以还极大改善他们的科技生活,是啊,科技跑的再快,也不应落下每一个人。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-8.jpg

外语多语种能力上,可支持英、俄、日、阿、法等8个语种。

6,讯飞星火正成为央国企大模型的第一选择,这背后还包含了无数第一,央国企中标第一、教育医疗市场第一、智能汽车市场第一、大模型开发者生态第一、智能硬件市场第一、赋能科研应用第一、赋能工业应用第一。。。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-9.jpg

截至2024年10月,科大讯飞已与各头部企业共建20多个行业大模型,覆盖300+应用场景,所覆盖行业和场景数都是第一。

7,首个国产万卡算力集群“飞星二号”平台上线,
由科大讯飞、华为、合肥大数据三方联合打造的国产超大规模智算平台——飞星二号,它不是简单的首个,简直是在探索“无人区”。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-10.jpg

从一号到二号,一年时间解决了500多次问题,“飞星二号”带来的是新模型新算法的持续适配和智算集群规模的再次跃迁。

8,数据显示,科大讯飞在语音语义市占率中第一、大模型开发者规模第一,达78.1万。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-11.jpg

9,最后,科大讯飞之所以能有这么多的第一,是因为刘庆峰看到了人工智能的五个关键:顶天立地、自主可控、通专结合、端云联动、软硬一体。

llmllm LV

发表于 2025-3-28 17:50:25

讯飞还真有点东西!

4个月的时间,就从七大能力对标GPT-4到全面超越 GPT-4 Turbo,别的先不说,就单是这迭代更新速度就还蛮值得一夸的。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-1.jpg

花了点时间去瞅了眼发布会,基本上都在拿数据说话,但奈何数据再好看,都不如自己体验过的感受来得实际。
既然它引以为傲的是它的【数学能力】,那我便实测了下这方面的内容。

问到的问题是最近苹果论文里验证AI没有推理能力的那个数学问题:

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-2.jpg

很显然,这种不包含额外干扰信息的数学问题,它都能够轻而易举给出得到准确的答复。
但如果我们加入一些随机的额外信息,再来看看它的回答:

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-3.jpg

这次不仅答案是对的,还给出了详细的计算过程。
多少还是有点意外,毕竟就连GPT-o1-mini都受到额外信息的干扰,这才在这上面摔了跟头。
不死心我又问了另外一个相对复杂一些的数学计算题:
利亚姆想买些学习用品,他买了24块橡皮擦,现在每个售价6.75美元,10本笔记本,现在每个售价11.0美元,以及一包现在19美元的复印纸,现在售价19美元。利亚姆现在该付多少钱?假设由于通货膨胀,去年的价格便宜了10%。
怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-4.jpg

好好好!算是我低估了讯飞星火4.0Turbo的能力。
毫无疑问,这次给出的计算答案和过程依然也是完全正确的。

对比之下看看目前公认最强的openAI家的o1-preview,多少就有些聪明反被聪明误了,就这么水灵灵地跟正确答案失之交臂了。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-5.jpg

简单几个数学计算问题测下来,不难看出这次发布会上提到的性能全面提升、足以超越 GPT-4 Turbo这种说法倒是不假。
尤其这两年来国内AI大模型说真话、做实事的倒是真有不少,讯飞星火迭代升级的这些日子里,国内也有很多亮眼的AI工具出现,比如下面这些:
【AI写作宝】

简单明了这AI应用,专门用来效率写作的~关键还免费。
自带超级多的写作板块,写公文、写论文、写演讲稿、写策划案、写会议纪要啥的,都大可放心交给它。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-6.jpg

输入简单的关键词/标题就能一键成文,风格、语气篇幅还能任挑任选;
考虑得还特别周到~扩写、续写、润色、改写这些优化改进文本的AI工具也附在一旁趁手的位置方便你操作。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-7.jpg

【腾讯元宝】

鹅厂家的自研AI大模型产物,一个可以在线访问使用的AI搜索引擎工具。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-8.jpg

它和讯飞星火的用法有些类似,都是输入简单的指令或描述,就可以搜索信息、生成图像、解读网页。
比较特别的是,它在发现界面里还出了个“好问题”的板块,这里会实时更新一些当前的热点新闻资讯,就很方便我们一键GET最近的热点。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-9.jpg

【知乎直答】

用知乎的朋友应该都比较熟悉的一个AI工具来着,也是主打搜索功能的一个网页AI工具。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-10.jpg

如果你经常习惯在知乎里搜问题、找答案,那它其实就是一个很棒的搜索助手,基本上只要你一提问,它就会帮你筛选出知乎站内最适配的答案。
也省得自己手动去一个个看了,赶时间的时候用它就特别方便。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-11.jpg

回归话题本身,这下看来,国内AI要是都像这样「内卷」起来,那必定未来可期了~

分享完喽~bye~记得要常来看吴仔仔 @吴收到 呀~收到请回复!

a669091781 LV

发表于 2025-3-28 17:56:10

国内大模型的能力,又来到了一个新高度!

简单来说,这次讯飞星火4.0 Turbo全新升级,七大能力全面超过GPT-4 Turbo,数学能力、代码能力超过GPT-4o(Open AI最新一代GPT模型)。此外,星火4.0 Turbo效率相对提升50%。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-1.jpg
什么叫整体超越,就是星火4.0 Turbo比ChatGPT-4的每一项能力都好吗?
并不是。
大模型的衡量标准以及功能较多,并不能简单下定论。
首先我们要明确讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。
在全国产算力平台上训练的大模型,所有算法都是自主可控的,每一行码、每一个数据都是讯飞自己编写、自己清洗出来的大模型。
一定程度上,今天星火大模型4.0 Turbo的发布对完全自主可控的大模型究竟走到了什么样的发展阶段,具有非常重要的标志意义。
那么在这个基础上,讯飞星火4.0 Turbo到底到了什么水平?

在数学能力上,讯飞星火已完成超长思维链、树搜索和自我反思评价等算法验证,预计今年底可实现类o1的高难度数学能力显著提升。
与GPT 4o、Claude 3.5 Sonnet、Genmini1.5 pro等国际同行对比,星火4.0 Turbo在国内外中英文14项主流测试集上,实现了9项第一。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-2.jpg

科大讯飞还首次发布"星火超拟人数字人"。
业界率先实现语义贯穿的"口唇-表情-动作"的超拟人数字人生成,实现了文本、语音和表情的跨模态语义一致性,可根据语音节奏和语义自动生成表情和动作,支持音视频输入。
可见,大模型已经落地了相当多的应用场景,不止科大讯飞,国内还有很多大模型厂商主要投入方向在于应用层面的建设,例如以下:
01.AI写作宝

——文本创作
能写文、能聊天、能画画的全能型AI创作工具,集合了AI写作、AI聊天、AI绘画、AI语音等多模态能力,多个使用场景满足大家全面AI化。
目前软件还提供免费试用机会,可以试用AI板块任意功能,AI聊天、AI写作、AI绘画等等均可免费使用。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-3.jpg

它可以为各行各业提供自动写作服务,包括有:工作总结、培训方案、营销文案、论文开题报告、商业计划书、活动策划、视频脚本等等,无所不包~
使用起来没有难度,只需要输入生成所需的关键词or主题,即可自动生成内容,它可以根据你的想法,直接创作生成你满意的文章内容~

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-4.jpg

02.知乎直答

——信息检索
知乎新上线的AI大模型产品,主打AI搜索功能,能帮我们快速找问题以及找答主。
知乎上的问题很多很广,每天不定时都会有新的热榜问题,而通过「知乎直答」就可以提问,查询各个领域内的问题,还提供了参考来源,让信息一目了然。
除了找问题内容之外,它还能找知乎答主,知乎AI搜索可以根据我们的查询意图,一键直达兴趣领域,全面搜罗领域内优质答主。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-5.jpg

03.代码小浣熊

——数据分析
商汤为小浣熊家族引入的一个AI数据分析工具,旨在降低数据分析的门槛,提高工作效率,还能帮助我们快速获取洞察力~
有了这个数据分析工具,无需编程或复杂的操作,直接用对话聊天的方式描述需求问题,它就可以理解并执行任务,自动将数据转化为我们想要的结果。

怎么看待讯飞的星火4.0Turbo大模型,称其整体性能已逼近GPT-4水平,达到了其96%的高效标准?-6.jpg

那先说到这,给世界和自己留下一点东西,今天又是努力搞钱的一天,来我主页 @周周有钱花 顺便教你搞钱。

您需要登录后才可以回帖 登录 | 立即注册