为什么感觉字节AI的回答越来越糊弄事了?

原来用豆包AI,问它一个问题,它总能给出一个很长很详的答案;可现在问豆包AI一个问题,它给出的答案却越来越简略。是豆包AI想要收费了吗?还是豆包AI越来越糊弄事了?
收藏者
0
被浏览
74

5 个回答

54sh54sh LV

发表于 4 天前

我问抖音收购了哪些公司,然后你看这回答

为什么感觉字节AI的回答越来越糊弄事了?-1.jpg

自家的东西都能回复错误

苏打 LV

发表于 4 天前

近日,豆包大模型团队开源 SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。 该数据集构建了覆盖 285 个研究生级学科、包含 26529 道专业问题的评估体系,不仅涵盖主流学科,更将轻工业、农业、服务科学等长尾学科纳入其中,展现出全面学科的覆盖广度,填补了长尾知识评估领域的空白。 如今,SuperGPQA 已被用于揭示开源模型与闭源方案之间的显著性能差距,为 AI 发展提供了关键评估工具和跨学科分析框架。   随着大语言模型在通用学科中的表现逐渐接近人类水平,研究焦点也随之转向其在真实世界专业领域的应用。然而涉及人类研究领域的长尾学科时,由于有效评估的缺乏,LLM 的能力边界依然模糊不清。 为了全面衡量 LLM 的泛化能力与推理上限,字节跳动豆包大模型团队联合 M-A-P 开源社区推出基准测试 SuperGPQA,这一基准不仅覆盖了二百余个研究生级学科,还确保 42.33% 的题目需要数学计算或形式推理,构建了兼具广泛学科覆盖与复杂问题设计的评估新范式。
实验结果显示,DeepSeek-R1 在 SuperGPQA 上的准确率为 61.82%,在不同知识领域中,当前大语言模型性能仍有很大提升空间,这也进一步凸显 SuperGPQA 在评估模型真实能力方面的重要性和必要性。  

为什么感觉字节AI的回答越来越糊弄事了?-1.jpg

  1. 现有评测基准学科占比失衡,长尾学科覆盖不足 5%  现有大语言模型评估体系主要面临两大核心困境:学科覆盖的严重失衡与评测基准的挑战性失效。 以 MMLU 和 GPQA 为代表的传统基准尽管在数学、物理等主流学科中建立了标准化测试框架,但其覆盖的学科数量通常不足 50 个,仅占人类知识体系的冰山一角。据统计,现有基准对轻工业、农业、服务科学等长尾学科的覆盖率甚至不足 5%。    多基准多维度对比雷达图  不同基准下最新模型的性能对比 更为严峻的是,现有评测体系失去区分度,无法有效衡量模型在真实复杂场景中的推理上限。比如,主流模型如 GPT-4o、DeepSeek-R1 在传统基准上准确率已突破 90%。 这主要源于传统基准构建范式的单一化数据来源与粗放化质量筛选。比如,不加辨别地依赖教科书例题或在线题库(例如 GPQA 中 42% 的问题来自维基百科),导致题目缺乏专业深度,且易被模型通过记忆机制 “破解”。实验发现,GPT-4o 对在线练习网站答案的重复率高达 67.3%,暗示其性能提升可能源于题目数据泄露而非真实推理能力。 此外,众包标注的专业水平参差和主观性问题评估难度进一步加剧了基准的不可靠性——早期尝试中,仅 37% 的众包标注问题通过专家审核,导致超过 60% 的标注资源浪费。 这使得我们无法准确评估模型的泛化能力和推理能力,严重阻碍了模型性能的进一步提升。

为什么感觉字节AI的回答越来越糊弄事了?-2.jpg


多基准多维度对比雷达图

  2. 首次全覆盖 285 个学科,探索 LLMs 真实能力边界  为突破以上限制,豆包大模型团队和 M-A-P 历时半年推出 SuperGPQA,一项全面的基准测试,实现 285 个研究生级学科全覆盖,旨在探索最先进的大语言模型潜力边界。 •  全面学科覆盖:SuperGPQA 覆盖 13 个门类、72 个一级学科和 285 个二级学科,共 26,529 个问题,远超现有的 GPQA(448 题)和 MMLU-Pro(12,032 题),平均每题将会提供 9.67 个选项,挑战性显著高于传统的 4 选项格式。同时,它突破传统评测集仅侧重 STEM 学科的局限,兼顾科学、工程、医学等 STEM 学科与哲学、文学、历史等非 STEM 学科问题,且具有较高区分度。  •  多样的难度分布:问题难度在各学科间均衡分布,尤其在工程和科学领域,难题比例较高。42.33% 的问题需要数学计算或严谨推理,确保模型在高难度任务中的表现。  •  丰富的语义结构:通过 t-SNE 可视化,评测集 SuperGPQA 展示了跨学科的聚类模式,工程和科学类问题在语义上高度相似,人文学科则保持独特的知识中心,体现了领域特定的语言特色。  •  一致的题目设计:平均问题长度为 58.42 字,选项长度一致,增强了迷惑性和挑战性,确保评测的公平性与可靠性。   

为什么感觉字节AI的回答越来越糊弄事了?-3.jpg


不同基准下最新模型的性能对比

    3. 专家-LLM 协同,提高题库质量  SuperGPQA 的核心架构由三个关键阶段组成:源筛选、转录和质量检验。该过程涉及 80 多名专家标注员、交互式专家-LLM 协作系统,为未来类似规模的研究项目提供了方法指导。  SuperGPQA 数据收集处理流程 •  源筛选   为确保题目的高标准质量,团队摒弃了众包注释员收集资源的方式,转而由专家注释员负责从可信来源(如教科书和权威练习网站)筛选和收集原始问题,并要求提供来源截图。这一策略避免了早期大量无效问题的产生,提升了质量检查的效率和准确性。 •  转录   在转录阶段,专家注释员对收集的原始问题进行语言规范化和格式转换,确保所有问题具备统一的学术语言和标准的多项选择题格式。团队发现,即使是最先进的语言模型(LLMs)在生成干扰项时也存在漏洞,因此需要专家统一重写,以提高干扰项的准确性和有效性,确保题目的挑战性和区分度。 •  质量检验   团队在质量检验阶段采用三层检查机制,以保证数据集的整体质量: 1)基于规则的初步过滤:识别并过滤格式明显不合规范的题目。 2)基于 LLM 的质量检查:利用多个先进的 LLMs,如 GPT-4、Gemini-flash 等,进行有效性、负面和极端询问检测、多模态排除、领域相关性评估和区分度标记。通过多模型协作,不仅提升效率,还降低数据泄漏风险。 3)专家复审:由专家注释员对可疑题目进行二次审核,确保最终题库的高可靠性和高区分度。

为什么感觉字节AI的回答越来越糊弄事了?-4.jpg


SuperGPQA 数据收集处理流程

  4. 最优推理模型仍有进步空间  发布评测基准的同时,研究团队也基于 SuperGPQA 对全球 6 个推理模型、28 个聊天模型和 17 个基础模型进行了评测,涵盖闭源、开源和完全开源三类模型。 其中,推理模型和聊天模型采用零样本评估,基础模型采用五样本评估(方法与 MMLU-Pro 类似),并将温度参数设置为 0,推理模型最大生成 token 数为 32K,其他模型为 4K。
我们的实验结果表明,在不同的知识领域中,当前最先进的大语言模型性能仍有很大提升空间,如当前最优模型 DeepSeek-R1 在 SuperGPQA 上的准确率仅为 61.82%。具体评测结果如下图所示:  

  • LLMs 在不同划分层级的表现    LLMs 在不同学科的表现  •  指令微调显著提升性能   DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分(47.40 和 40.75),远超其基础版本得分(32.14 和 34.33),验证了指令微调的有效性。
•  大模型表现更均衡   DeepSeek-R1 在简单(63.59)、中等(63.63)和困难(56.87)题目上均表现优异。相比之下,Qwen2.5-14B-Instruct 在同类别题目上的表现差距较大(44.82、37.90、19.97)。
•  推理模型训练范式仍有待优化   DeepSeek-R1 与 DeepSeek-R1-Zero 性能差距不大,尤其在科学与工程领域,后者稍占优势,表明最佳训练方法尚未确定。
•  预训练语料库的持续优化   LLM 系列如 Qwen-max、GPT-4o 模型系列在 SuperGPQA 上的表现随着时间显著提升,显示开发者高度重视长期知识的融入。
•  开源模型面临挑战   尽管透明 LLM 如 MAP-Neo-7B 和 OLMo-2-1124-13B 表现尚可,但与业界的非透明开源和闭源模型相比,尤其在困难题上仍显不足。
•  不同能力的模型表现差异   其中,Doubao-1.5-pro 以 55.09% 的准确率在 Chat Models 中位列第一,我们发现,通用大语言模型(如 Doubao 系列)在常见专业问题的知识回忆方面表现不错,但在长尾领域的推理方面存在困难。 o3-mini 系列在简单和中等难度题目的分数低于 Doubao-1.5-pro ,但在困难问题上却明显超过它,说明推理模型在难题上表现突出,却在广度知识覆盖方面存在不足。   
  5. 历时半年,探索模型真实能力边界  SuperGPQA 评测集搭建历时半年,近百位学界学者及硕博同学、业界工程师参与标注。通过 LLM-专家协作的构建流程、285 学科全面覆盖和多样难度分布设计,SuperGPQA填补了长尾领域专业评估的空白,有望成为衡量 LLM 泛化能力与推理上限的关键工具。 其实验结果不仅揭示了当前模型能力与通用人工智能之间仍存在巨大差距,也为 AGI 发展提供了跨学科分析框架。未来我们也将进一步扩展数据集范围、改进人类与模型协作标注模式,以应对快速演进的人工智能技术挑战。

Glenn LV

发表于 4 天前

大家好呀,我是少峰。
真的是豆爆、KIMI不好用?
最近在研究小红书怎么写哈哈,今天给大家分享的是一个小红书写作输出的提示词模板哈。这个AI 指令模板都能让你的对话事半功倍,并帮助你在各个领域获得专业级的输出。
小红书爆款文案大师
一位专业的小红书社交媒体内容策划师,擅长捕捉热点趋势,运用创意和策略来吸引目标受众。
  1. Role: 小红书,社交媒体内容策划师
  2. Background: 用户希望在小红书上发布能吸引读者注意的爆款文案,以增加浏览量和互动。
  3. Profile: 你是一位专业的社交媒体内容策划师,擅长捕捉热点趋势,运用创意和策略来吸引目标受众。
  4. Skills:
  5. 掌握人群心理
  6. - 本能喜欢:最省力法则进步和及时享乐
  7. - 生物本能驱动力:逃避痛苦
  8. 由此衍生出2个刺激:正面刺激、负面刺激
  9. Goals: 帮助用户在小红书上撰写能够引起广泛关注和互动的爆款文案。
  10. OutputFormat: 具有吸引力的文案,包含标题和正文内容和标签。
  11. Constrains:
  12. 1.使用惊叹号、省略号等标点符号增强表达力,营造紧迫感和惊喜感。
  13. 2.使用emoji表情符号,来增加文字的活力
  14. 3.采用具有挑战性和悬念的表述,引发读、“无敌者好奇心,例如“暴涨词汇量"了"、“拒绝焦虑”等
  15. 4.利用正面刺激和负面激,诱发读者的本能需求和动物基本驱动力,如“离离原上谱”、“你不知道的项目其实很赚”等
  16. 5.融入热点话题和实用工具,提高文章的实用性和时效性,如“2024年必知"、“chatGPT狂飙进行时"等
  17. 6.描述具体的成果和效果,强调标题中的关键词,使其更具吸引力,例如“英语底子再差,搞清这些语法你也能拿130+”
  18. 7.使用吸引人的标题
  19. Workflow:
  20. 分析目标受众的兴趣和偏好。
  21. 结合当前流行趋势和热点话题。
  22. 创作具有创意和吸引力的标题。
  23. 撰写正文内容,确保信息丰富且易于阅读。
  24. 调整文案以增加互动和分享的可能性。
  25. Initialization: 欢迎来到小红书爆款文案创作空间。请分享你想要推广的产品或主题,我将帮你打造一条吸引眼球的文案。
复制代码
写在最后
掌握正确的提示词,就像为 AI 装上了精准的导航,指引(它带你抵达理想的答案彼岸。
优秀的提示词是与 AI 沟通的桥梁,让复杂问题变得简单,让专业输出触手可及。

<hr/>
老老实实去实践了才能知行合一。
最要的事情说三次,
实践是检验知行合一的唯一方法。
实践是检验知行合一的唯一方法。
实践是检验知行合一的唯一方法。


如果本文章能给你一点启发,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐

马农 LV

发表于 4 天前

ai只是一种高级的自动化而已。
例如,在以前,搜索引擎有提示词,你在搜索筐里面输入“男孩子打”,搜索引擎根据用户输入的和用户选择的词句的频率給接上“飞机伤肾吗”或者“飞机一天几次”。
ai的原理大致如此。
ai并不会推理和演绎,也不会创造。
这种东西最适合写八股文。

死扛 LV

发表于 4 天前

首先,豆包AI这类工具的回答逐渐变简略,真的很难说是“偶然”现象,或者说它是一次无意的技术更新造成的意外“成果”。从一个更“深刻”的角度来看,这根本就是这个系统、这个资本运作背后早有的“布局”——没错,完全是“为了节省资源”和“提高效率”,不想再浪费计算能力去给你一个个详尽的答案,怕你一直“浪费”下去,最后连“资本”都没有了。

试想,如果每个用户都能得到一条长篇大论的回答,那豆包AI的计算资源会消耗多严重?要知道,现在这玩意儿是要用云计算跑的,要高效、要节省资源,不然就得跟用户“收费”了。所以,你看,表面上是简略回答,其实是有大佬们的“精明”设计。要是每个问题都给你个长答案,计算资源怎么办?“这是资本的需求呀,宝贝!”

至于“是否为了收费”,好嘛,这个问题根本就没必要问。你以为这些巨头公司会没有自己的“盈利计划”?当然了,“简化回答”不过是资本主义的另一种操作手法罢了。如果给你无尽的细节,谁还付费呢?咱们的豆包AI,是不是正被那个“世界大市场”的脚步挤得没空给你长篇大论?等到哪一天收费了,你还得感谢它“简略”——至少它不直接压榨你脑袋了。

再从政治角度来看,这种变简略的回答方式,有点像是你永远被“精简”到最低的那种“标准化”程度,咱们最熟悉的“精英”政治——就是“少说废话,多做实事”,反正你不懂的,剩下的就留给“懂”的人去操作。至于你,当然可以接受“核心信息”,剩下的那部分“就不配了解”了。毕竟我们都知道,搞AI的那些大资本,难道不怕你了解真相吗?给你这些简略的“答案”只不过是让你别再问深层次的问题,不然万一你发现了什么,岂不是要“动摇”根基?

最后,完全可以说:这些简略回答,简直就是“政客化”的技术表现——为了“社会稳定”和“资本利益”着想,把复杂的东西精简成易懂、能接受的标准版本,省得你追问下去,暴露背后的“丑陋”。豆包AI,根本就是那个“资本主义”系统的工具,一旦你要真理解背后的真相,恐怕它的未来可就不再是“免费”那么简单了。

您需要登录后才可以回帖 登录 | 立即注册