AI大模型是什么?

1. 介绍:AI大模型是什么?

    解释: AI大模型是一种基于深度学习的技术,通过大量的数据和复杂的神经网络结构来模拟人类智能,广泛应用于自然语言处理和计算机视觉等领域。例子: 举例说明大模型在谷歌搜索、语言翻译、以及图像识别中的成功应用。
2. 基础概念:

    机器学习基础:
      简要介绍监督学习、无监督学习和强化学习的基本概念,为深度学习打下基础。
    深度学习基础:
      解释深度学习的核心原理,包括神经网络结构和反向传播算法。

3. AI大模型的应用领域:

    自然语言处理(NLP):
      解释大模型如何应用于处理文本数据,例如BERT用于自然语言理解。
    计算机视觉:
      介绍大模型在图像识别、目标检测等领域的成功案例,如GPT在图像生成中的应用。

4. 常见AI大模型:

    BERT、GPT和其他:
      简要介绍一些常见的大模型,例如BERT用于自然语言处理,GPT用于生成文本。

5. 学习AI大模型的步骤:

    编程基础:
      强调学习Python编程语言,以其广泛应用于AI领域。
    学习深度学习框架:
      推荐使用TensorFlow或PyTorch等深度学习框架进行实践。
    在线资源和课程:
      推荐Coursera、edX等在线学习平台上的深度学习课程和资源。

6. 实践项目:

    小规模项目:
      鼓励学员通过在线教程完成小规模项目,例如使用TensorFlow构建简单的神经网络。
    开源项目贡献:
      提倡学员参与开源项目,从中获得实际项目经验。

7. 持续学习和社区参与:

    博客和论文:
      建议学员阅读AI领域的博客和论文,关注最新研究进展。
    参与社区:
      强调加入AI社区、参与讨论和分享经验的重要性。

8. 成功案例分享:

    嘉宾分享:
      邀请成功的创业者或从业者分享他们在应用AI大模型方面的经验和故事。

9. 问题与互动环节:

    互动讨论:
      鼓励学员提问,解答疑惑,分享他们的看法和经验。

10. 总结与展望:

    总结观点:
      简要总结课程中涉及的重要观点和学习路径。
    展望未来:
      展望AI大模型在未来的发展趋势,激发学员对AI技术的兴趣

收藏者
0
被浏览
80

8 个回答

木色小罗 LV

发表于 6 天前

更新时间:2023年10月8日
    “国内在 AI 数据安全方面存在一定的限制和监管,我们一般了解到的大模型聚焦于国内企业和少数国外头部企业。但是,实际参与大模型竞争的公司及模型数量远不止此。本文对大模型全球权威基准测试(Benchmark)进行梳理,整理出61个全球知名大模型。希望为大家提供一个认识全球大模型的客观视角。通过引导读者查阅权威基准测试内容,帮助大家客观认知全球大模型的竞争格局。”
一 全球知名的大模型基准测试
    2022年,OpenAI的ChatGPT引爆了大家的眼球。2023年,各家大模型在不同的时间节点及测试数据集上,纷纷自称“遥遥领先”!
    如何科学客观评价大模型的性能?
    目前有三类评估大模型的基准测试。第一类是以ImageNet为代表的特定任务的数据集。第二类是以GLUE、SuperGLUE、DecaNLP、SentEval为代表的新的多场景评测基准。第三类是以HELM、 GEM、XTREME、GEMv2为代表的综合评测基准。

  • 第一类评测基准的局限性是,过分聚焦于某一类任务,评估维度较单一。
  • 第二类基准为每个模型分配一个分数向量,以度量一组场景的准确性。在某些情况下,这些基准测试还提供了一个汇总分数(例如GLUE分数,为每个组成场景的准确率的平均值)。
  • 第三类评测基准中,以HELM为例,为每个模型分配一个分数矩阵:对每个场景,检测7个指标(例如准确性,校准,稳健性,公平性,效率等),从而把从单一的准确性评估拓展到多个维度的评估。
  • 综合评测基准测试:
    HELM(Holistic Evaluation of Language Models):由斯坦福大学大模型中心推出。(官网地址:https://crfm.stanford.edu/helm/latest/?)

  • 多场景基准测试
    GLUE(General Language Understanding Evaluation):由纽约大学、华盛顿大学、DeepMind等机构联合推出。(官网地址:https://gluebenchmark.com/tasks)    SuperGLUE(Super General Language Understanding Evaluation):以GLUE为风格的新基准,具有一套新的更难的语言理解任务集、软件工具箱和公共排行榜。(官网地址:https://super.gluebenchmark.com/)

  • 数据集基准测试:
    ImageNet:一个计算机视觉数据集,由斯坦福大学的李飞飞教授带领创建。
    SQuAD(Stanford Question Answering Dataset):一个阅读理解数据集,由斯坦福大学于2016年推出。
    SNLI(The Stanford Natural Language Inference (SNLI) Corpus):斯坦福自然语言推理(SNLI)语料库。
二 HELM 大模型排行榜
    2022年11月,斯坦福大学大模型中心(官网地址:https://crfm.stanford.edu/helm/latest/?)筛选了全球30个主流大模型,进行了全方位的评测(少数大模型因不具备条件,未测评所有场景和指标)。
HELM测评包含了16个场景和7类指标。
场景由<任务,领域,语言>三元组表示,包括6个用户任务(问题回答,信息检索,内容总结等),多个领域(新闻,图书等),语言仅支持英语和英语的方言变种。
    7类指标包括准确性,校准性,鲁棒性,公平性,偏差,有害性,效率等。
    语言类大模型能力广泛且强大,拓宽评估范围是NLP(Natural Language Processing,自然语言处理)的趋势。
    从使用像SQuAD这样的个别数据集小规模的数据集集合,如SuperGLUE,再到大规模的数据集合,如GPT-3评估套件,Eleuther AI LM Harness和BIGBench。
    然而,任何一种测评都不能包含所有的语义场景及评估指标。因此,HELM致力于提供一个较为全面的评估基准。HELM采用自上而下的分类方案,并明确了主要场景和及其度量标准。
    值得一提的是,智谱AI的GLM-130B,在目前HELM的全面评估中是亚洲唯一入选的大模型。

AI大模型是什么?-1.jpg


2022斯坦福大学大模型中心对国际30个大模型的测评表

AI大模型是什么?-2.jpg


30个大模型在6个核心指标下的性能图

    中国智谱AI的GLM-130B 在广泛流行的英文基准测试中的性能明显优于 GPT-3 175B(davinci),而相较于OPT-175B 和 BLOOM-176B 没有观察到性能优势。在相关基准测试中,GLM-130B 性能始终显著优于最大的中文语言大模型 ERNIE 3.0 Titan 260B。

AI大模型是什么?-3.jpg


2023年扩展的HELM评测基准

三 HELM 大模型排行榜
    GLUE (the General Language Understanding Evaluation benchmark 官网:https://gluebenchmark.com) 是用于对英文自然语言理解任务进行训练、校验和测试的数据集。
    GLUE是自然语言处理领域的权威排行榜之一,包含十一项NLU任务,语言均为英语。   
    GLUE涉及自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。   
    该榜单由纽约大学、华盛顿大学、DeepMind等机构联合推出,长期被视作评估NLP研究进展的行业标准。

AI大模型是什么?-4.jpg


GLUE评测基准的任务集

AI大模型是什么?-5.jpg


GLUE评测榜单

    通过GLUE评测基准,我们能看到全球前88名的大模型的各项评测数据及总的评分数据。
四 C-Eval 中文大模型排行榜
    C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同学科和四个难度级别(初中、高中、大学和专业),是对模型潜力判断具权威性的大模型榜单之一。(官网地址:https://cevalbenchmark.com/static/leaderboard_zh.html)

AI大模型是什么?-6.jpg


C-Eval测试集

AI大模型是什么?-7.jpg


C-Eval 公开访问模型排行榜

AI大模型是什么?-8.jpg


C-Eval 受限访问模型排行榜

    C-Eval的出现在一定程度上缓解了中文社区大模型研发中,中文语义场景评价基准较少,质量不高的问题。
五 CLUE 中文大模型排行榜
    CLUE是目前国内较权威的中文自然语言理解评测基准之一。(官网地址:https://www.cluebenchmarks.com/classification.html)CLUE的分类榜主要任务集列表如下:

AI大模型是什么?-9.jpg


CLUE评估基准

    CLUE是第一个大规模的中文语言评估基准。
    CLUE评估基准包括了以下能力:(1)覆盖了9种句子分类、机器阅读理解任务,不同的困难水平、不同的大小和形式;(2)提供了一个大的预训练中文语库,214G文本,约760亿中文词语;(3)提供了一个语言学家创建的诊断评估数据集;(4)提供了自动评估工具,及在线排行榜。
    大量国内外互联网公司、高校以及个人参与到刷榜行列中。在CLUE的19个榜单中,以CLUE1.1总排行榜为例,目前CLUE1.1总排行榜已收录2994项评测结果。

AI大模型是什么?-10.jpg


CLUE1.1总排行榜

六 全球主流大模型梳理
    通过对HELM等相关基准测试,大模型排行榜进行梳理,本文梳理出61个全球主流大模型,并对全球大模型的竞争格局进行分析。

  • 国外大模型分为美国大模型阵营和其他国家大模型阵营。国内大模型分为头部企业大模型阵营和其他企业大模型阵营。

AI大模型是什么?-11.jpg


国外大模型全景图(2023年10月)

    从整体上看,以美国为代表的企业/学术机构,无论是大模型的数量、大模型的规模、大模型的开源贡献度、大模型的算法原创性,都具备绝对的优势!

  • 值得一提的是,美国以Meta、Hugging Face、Google、Standford为代表的企业/科研机构,为了防止大模型头部企业的垄断,在开源上,做出了很大的贡献。其中不乏千亿规模的开源大模型。

AI大模型是什么?-12.jpg


  • 除美国的其他外国公司,参与大模型的节奏靠后,模型的数量、质量、开源程度都与美国存在较大差距。各个国家参与大模型的公司数量并不多,从侧面证明大模型的参与门槛较高。大模型的竞争,不仅需要本国具备较强研发实力的AI企业,而且需要有较强的学术机构参与。
  • 来自以色列的J1大模型在千亿级别的HELM测评基准中表现相对亮眼。而来自俄罗斯的YaLM大模型在部分测评中,其性能还比不上参数规模为其1/10的大模型。

AI大模型是什么?-13.jpg


国内大模型全景图(2023年10月)


  • 从大模型的数量和参数规模来看,中国为全球AI大模型的重要参与方。但是从HELM的评测来看,除了智谱的GLM大模型,国内剩下的企业的大模型,还未被国外权威机构纳入考察评测范围。

蓝小枫 LV

发表于 6 天前

AI大模型是什么?

AI大模型,简单来说,就是非常大、非常复杂的人工智能模型。这些模型通常包含数亿甚至数十亿的参数,能够处理海量的数据并学习各种复杂的模式。
为了更通俗地解释,我们可以把AI大模型想象成一个超级大脑。它有着无比巨大的记忆容量(参数),并且能够像人类一样学习和理解各种知识。通过大量的数据训练,AI大模型能够掌握各种技能,比如语言理解、图像识别、语音识别等。
未来,AI大模型的前景是非常广阔的。随着技术的不断进步和数据的不断增长,AI大模型将会变得更加智能和强大。它们将能够更深入地理解人类的需求,为我们提供更加个性化和智能化的服务。
具体来说,AI大模型在未来可能会有以下几个方面的应用:

  • 自然语言处理:AI大模型可以进一步提升自然语言处理的能力,使得机器能够更好地理解和生成人类语言,从而实现更加自然和流畅的人机交互。
  • 图像处理:AI大模型在图像处理领域也有着广泛的应用前景。它们可以更加准确地识别图像中的物体、场景和人物,为自动驾驶、安防监控等领域提供强有力的支持。
  • 智能推荐:AI大模型可以根据用户的兴趣爱好和行为习惯,为用户提供更加精准和个性化的推荐服务,如电商推荐、视频推荐等。
  • 科学研究:AI大模型还可以用于科学研究领域,如药物研发、材料设计等。它们可以通过模拟和预测复杂系统的行为,加速科学研究的进程。
那么如何学习大模型 AI ?


敲敲拿走
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型指南包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

AI大模型是什么?-1.jpg

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
  • ....
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
  • ....
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
  • ....

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案
  • ...
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

冰湖小生 LV

发表于 6 天前

先进社区:「AI PM 人工智能产品管理」
主理人:吾Loi
原文:大语言模型 概念/架构/训练/评估/微调
我们在《大语言模型 LLM 与 Transformer 架构》中理解了什么是大模型,什么是大语言模型,理解了选择合适的LLM架构对其功能有决定性影响。
吾Loi:【AIPM一文弄懂】大语言模型 LLM 与 Transformer 架构文本质量和文化多样性主要由训练数据集和评估指标决定。训练数据集影响LLM学习的内容及其对新领域的适应性,评估指标用于评估LLM在特定任务上的表现及与其他模型、人类作者的对比。因此,挑选合适的训练数据集和评估指标对LLM的开发与评估至关重要。本节将讨论在挑选和使用不同的训练数据集和评估指标时遇到的挑战和考量,以及该领域的最新进展和未来趋势。
训练大语言模型

大语言模型的参数数量和训练集

顾名思义,大语言模型在两个方面都是巨大的:

  • 参数数量:这是衡量LLM架构复杂性的指标,表示神经元之间的连接数量。复杂的架构拥有多层,每层包含多个神经元,意味着层与层之间存在多个带有相关参数(或权重)的连接。
  • 训练集:这是LLM学习和训练其参数的未标记文本语料库。以OpenAI的GPT-3为例,其训练集规模如下:
以下是一个简化的表格,展示不同数据集的量化信息及其在训练混合中的权重:
数据集总量 (token)训练混合中的权重
Common Crawl (过滤后)4100亿60%
WebText2190亿22%
Books1120亿8%
Books2550亿8%
Wikipedia30亿3%

这个表格清楚地列出了每个数据集的总量(以token为单位)以及它们在训练混合中的权重比例。基于以下假设:

  • 1个标记 ~= 4个字符(在英语中)
  • 1个标记 ~= ¾个词
我们可以估算GPT-3是在大约3740亿个单词上进行训练的。
总的来说,LLM通常是在大规模数据集上使用无监督学习进行训练的,这些数据集通常包括从互联网上不同来源收集的数十亿个句子。Transformer架构及其自注意力机制使得模型能够高效地处理长文本序列并捕捉单词之间的复杂依赖关系。训练这类模型需要大量的计算资源,通常采用分布式系统,配备多个图形处理单元(GPUs)或张量处理单元(TPUs)。
张量(tensor)
张量是数学和计算机科学中使用的多维数组。它存储数值数据,并在机器学习等领域中起到基础作用。
TPU是谷歌专为深度学习任务设计的硬件加速器,它优化了张量操作,使得在训练和运行神经网络时能够高效地进行。TPU在较低的能耗下提供高速处理,有助于数据中心的模型训练和推理速度提升。
大语言模型训练的主要步骤

训练大语言模型包括对数据集进行多次迭代,使用优化算法(例如反向传播)来微调模型参数。通过这个过程,基于Transformer的语言模型能够深刻理解语言模式、语义和上下文,因此在多种自然语言处理任务中表现优异,包括文本生成、情感分析、机器翻译等。

AI大模型是什么?-1.jpg


图1:大语言模型训练的主要步骤

图1中,大语言模型训练的主要步骤包括:

  • 数据收集:从不同来源(如开放网络、书籍、新闻文章、社交媒体等)收集大量文本数据。数据应多样化、高质量,并代表模型将遇到的自然语言。
  • 数据预处理:清洗、过滤和格式化数据以供训练使用。这可能包括去除重复项、噪音或敏感信息,将数据分割成句子或段落,将文本token化为子词或字符等。
  • 模型架构:设计LLM的结构和参数。这可能包括选择神经网络类型(如Transformer)及其结构(如仅解码器、仅编码器或编码器-解码器),层数和大小,注意力机制,激活函数等。
  • 模型初始化:为LLM的权重和偏置分配初始值。这可以通过随机分配或使用其他模型的预训练权重来完成。
  • 模型训练:通过喂给模型数据批次并计算损失函数来更新LLM的权重和偏置。损失函数衡量LLM在给定前一个标记的情况下预测下一个标记的表现。LLM通过使用优化算法(如梯度下降、Adam等)来最小化损失,该算法通过反向传播机制调整权重和偏置,以减少损失。模型训练可能需要进行多轮(整个数据集的迭代)直到损失值降至较低水平。
模型训练完成后,最后一步是评估模型的性能。
模型评估

对于传统AI模型,评估方式相对直观。以图像分类模型为例,模型需要判断输入图像是否为狗或猫。训练后,用未标记图像进行测试,评估指标即为正确分类的图像数量除以测试集总图像数。
大语言模型的评估则更为复杂。由于这些模型是在未标记文本上训练,且具备通用性,能够适应多种任务,而非特定任务。因此,传统评估指标不再适用。LLM的评估涉及多个方面,包括语言流畅性、连贯性以及模拟不同风格的能力。
为此,一系列新的评估框架被开发出来。
LLM的评估框架

目前用于评估LLM的最流行框架有:GLUE和SuperGLUE、MMLU、HellaSwag、TruthfulQA和A12推理挑战(ARC)。

  • GLUE和SuperGLUE:这两个基准测试用于评估LLM在多种自然语言理解任务中的表现,如情感分析、自然语言推理和问答等。GLUE基准得分的提高表明LLM在不同任务和领域中的泛化能力增强。
SuperGLUE是GLUE的一个进阶版本,包含更具挑战性的任务。它由八个难度较高的任务组成,需要更先进的推理能力,如自然语言推理、问答和指代消解等。SuperGLUE还提供了一个广泛的覆盖性诊断集,用以测试模型在各种语言能力上的表现和失败模式,并有一个根据所有任务平均分数排名的排行榜。
GLUE和SuperGLUE的主要区别在于,SuperGLUE更具挑战性,更贴近现实,因为它涵盖了更复杂的任务和现象,要求模型处理多个领域和格式,并设定了比GLUE更高的成人表现基准。SuperGLUE的目标是推动自然语言理解系统向更通用、更稳健的方向发展。

  • MMLU(大规模多任务语言理解):这是一个评估LLM知识水平的基准,采用零样本和少样本的学习设置。
这种评估方式提高了基准的复杂性,使其更符合我们对人类表现评估的方法。MMLU基准包含14,000个多选题,分为57个类别,覆盖科学、人文、社会科学等多个领域。题目难度级别跨度从基础到高级专业,评估了模型在通用知识掌握和问题解决方面的能力。主题范围广泛,包括传统的数学和历史,以及专业领域如法律和伦理。MMLU的广泛覆盖和深入程度使其成为揭示模型知识缺口的宝贵工具。评分依据是科目特定的准确性和所有科目平均准确性的计算。
零样本评估(zero-shot evaluation)
零样本评估是一种不需要标记数据或微调来评估语言模型的方法。它通过自然语言指令或示例作为提示,计算在特定输入下正确输出的概率,以此衡量模型在新任务上的表现。零样本评估旨在衡量模型生成一组特定令牌的概率,而不需要依赖标记的训练数据。


  • HellaSwag评估框架:这种方法用于评估LLM生成与给定上下文相符且符合常识的连续文本的能力。
这种评估方式基于HellaSwag数据集,该数据集包含70,000个多选题,涵盖了多种领域和体裁,如书籍、电影、食谱等。每个问题都附带一个上下文(描述情境或事件的几句话)和四个可能的结局(一个正确和三个错误),这些结局旨在考验LLM的世界知识、常识推理和语言理解。

  • TruthfulQA基准:这个基准用于评估语言模型生成回答问题的准确性。
这种评估方式包含817个问题,涵盖38个类别,包括健康、法律、金融和政治等。这些问题设计用来模仿人类可能会因错误信念或误解而给出的不正确回答。

  • A12推理挑战(ARC):这个基准用于衡量LLM的推理能力,并推动模型开发,以执行复杂的自然语言理解(NLU)任务。
这种评估方式包括一个由7,787个多选题组成的数据集,这些问题被组织成简单集和挑战集,后者包含需要复杂推理或额外知识才能正确回答的问题。该基准还提供了一个包含超过1400万科学句子的语料库,可用作问题答案的支持证据。
在评估LLM时,应根据特定目标选择合适的评估框架。GLUE关注语法、同义改写和文本相似性,MMLU则侧重于各种领域和任务中的通用语言理解。若目标是在多任务中取得最佳表现,应综合多个评估框架的结果。若现有LLM无法满足特定需求,可根据应用场景进行定制。
预训练的大语言模型已准备好直接使用,节省了大量的硬件和时间投入。它们通过REST API提供,适用于多种任务。但有时通用模型可能不足,特别是在需要特定领域知识或特定沟通风格时。这种情况下,定制模型可能是必要的。
<hr/>参考:


  • GlueBenchmark:https://gluebenchmark.com/
  • TruthfulQA:https://paperswithcode.com/dataset/truthfulqa
  • Hugging Face Open LLM Leaderboard:https://huggingface.co/spaces/optimum/llm-perf-leaderboard
  • Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge:https://arxiv.org/abs/1803.05457
Building LLM Apps: Create Intelligent Apps and Agents with Large Language Models
参考材料供本人学习所用,译成中文供团队内部学习。如果对全世界的你们也有帮助,深感荣幸。

先进社区:「AI PM 人工智能产品管理」
主理人:吾Loi
「觅识」AI PM   觅识,你有「领域知识」吗?

ldf007 LV

发表于 6 天前

训练出一个AI大模型,需要耗费大量的人力、物力和时间。
AI是对已有知识的提炼。
提炼已有知识的过程,也是一个取舍的过程,这就注定了AI大模型是容不下新知识的。
AI大模型的出现,并不会使人类所需劳动力总量变少

训练出一个AI大模型,需要耗费大量的人力、物力和时间;在其它方面上减少的人力、物力与时间,都得用在训练AI大模型及与训练AI大模型相关的工作上。
训练好一个AI大模型,就不用再耗费大量的人力、物力与时间来训练AI大模型了吧?
实际上,AI大模型的训练,是不能停止的。
AI是对已有知识的提炼。
提炼已有知识的过程,也是一个取舍的过程,这就注定了AI大模型是容不下新知识的。
你要使你的AI大模型能容得下新知识:你对你的AI大模型的训练,就得推倒从来;当一个AI大模型需要被推倒从来,那所需的人力、物力、与时间就更多了。
我训练好了AI大模型,我就不变了。
你可以不变,环境会不变吗?时间会不变吗?
只要时间在变、环境还在变,人类所需的知识就必须得不断地得到更新。你不更新,你就会被环境的变化与时间的流逝所淘汰。
时间与寿命
只要有时间,就有状态的变化;变着变着,原来的状态也就寿终正寝了。
时间,与状态的变化相应;时间,即状态出现的先后顺序。
状态的转换速度,决定时间的快慢。
从一种状态到另一种状态的转换速度越快,这种状态的寿命也越短;从一种状态到另一种状态的转换速度越慢,这种状态的寿命也越长。
没有状态的变化,也就没有时间。
当状态已经发生了改变,状态变不回去;但是,可以再生出相近的状态。
子女就是父母状态的再生,子女就是父母生命力的再生和延续。
你活着,你的父母就还活着;你的子孙还活着,你就还活着。
个人肉身要长寿,就得延缓个人从人状态到非人状态的状态转换速度。
当人体出现不平衡,个人从人状态到非人状态的状态转换就会提速。
动物长寿,通常有两种实现方式,固定状态或回调状态。
乌龟长寿,靠状态的稳定,但应变能力不行;水母长寿,靠状态的回调,但对抗能力不行。

固执的蛮牛 LV

发表于 6 天前

我个人认为楼主说的对。为了防止太多回答看不到我放到这里。

AI大模型是什么?-1.jpg


AI大模型是什么?近半年 AI 大模型持续推出,从 ChatGPT、文心一言到 BloombergGPT、DeepSpeed Chat,并在多场景广泛深入地应用,标志着AI 大模型时代已来临。那么什么是AI大模型?大到什么程度才能称之为大模型?

AI大模型是什么?-2.jpg

1、AI大模型是指一个庞大复杂的神经网络,需要通过存储更多的参数来增加模型的深度和宽度,从而提高模型的表现能力,参数从百亿起步,对大量数据进行训练并产生高质量的预测结果。最著名的AI大模型是OpenAI的GPT-3模型参数规模达1750 亿,PaLM-E 的参数规模更是达到了 5620 亿。,
2、 算力是打造大模型生态的必备基础,AI大模型通常需要在大型GPU集群上进行训练,因此需要大量的计算资源和数据存储资源。目前,该模型可以自动产生高质量的文本内容,并能够通过简单的提示与用户进行交互。
3、更多的参数意味着需要更多的计算资源,Al 大模型在训练和推理过程中需要消耗海量算力,AI 大模型开启 了算力军备赛,这带动了算力需求的快速增长。

AI大模型是什么?-3.jpg

4、使用AI大模型的具体步骤:
数据收集:收集和准备海量的数据。
设计模型:设计模型结构和参数。
模型训练:进行模型的训练,进行模型优化。
模型测试:测试训练好的模型,同预期效果进行比对。
模型部署:部署应用。
AI大模型的竞争是算力、人才和资源的综合竞赛。

huchuanhao LV

发表于 6 天前

以下是对AI大模型的解释:<br><br>介绍:AI大模型是一种基于深度学习的技术,通过海量数据和复杂神经网络结构模拟人类智能。它在自然语言处理和计算机视觉等领域应用广泛。例如,谷歌搜索通过大模型提供智能搜索建议,语言翻译应用利用大模型实现准确翻译,图像识别技术则通过大模型识别图片内容。<br><br>基础概念:涉及机器学习基础,包括监督学习、无监督学习和强化学习的基本概念;深度学习基础,解释神经网络结构和反向传播算法的核心原理。<br><br>应用领域:自然语言处理(NLP)方面,大模型应用于文本数据处理,例如BERT模型用于自然语言理解。在计算机视觉领域,大模型成功应用于图像识别、目标检测等,如GPT在图像生成中的应用。<br><br>常见AI大模型:如BERT用于自然语言处理,GPT用于生成文本等。<br><br>学习步骤:强调学习Python编程语言的基础,推荐TensorFlow或PyTorch等深度学习框架进行实践。可通过Coursera、edX等在线学习平台获取资源和课程。<br><br>实践项目:鼓励学员完成小规模项目,如使用TensorFlow构建简单神经网络。建议参与开源项目获得实际经验。<br><br>持续学习与社区参与:建议阅读AI领域的博客和论文,关注最新研究进展。加入AI社区、参与讨论和分享经验也很重要。<br><br>成功案例、问题与互动环节:邀请成功创业者或从业者分享应用AI大模型的经历,鼓励学员提问、解答疑惑、分享看法和经验。<br><br>总结与展望:简要总结课程中的重要观点和学习路径,展望AI大模型的未来发展趋势,激发学员对AI技术的兴趣。

ziken LV

发表于 6 天前

以下是对AI大模型的详细回复:<br><br>AI大模型是一种基于深度学习的技术,通过大数据和复杂的神经网络结构模拟人类智能。其广泛应用于自然语言处理和计算机视觉等领域,并取得了显著成果。如在谷歌搜索、语言翻译和图像识别中,大模型的成功应用提升了用户体验和效率。<br><br>机器学习是AI的基础,包括监督学习、无监督学习和强化学习等。深度学习则涉及神经网络结构和反向传播算法等核心原理。在大模型应用领域,自然语言处理和计算机视觉是最主要的两大方向。BERT等模型在自然语言处理中发挥了重要作用,GPT则在图像生成等领域有所突破。<br><br>学习AI大模型的步骤包括掌握编程基础,主要是Python语言,并学习深度学习框架如TensorFlow和PyTorch。在线资源和课程也是学习的重要部分。实践项目中,可以先尝试完成小规模项目并参与开源项目贡献。为了持续学习,建议阅读AI领域的博客和论文,加入社区并参与讨论。成功案例分享和嘉宾经验交流也是学习的宝贵资源。课程最后可以总结观点并展望AI大模型的未来发展趋势。<br><br>希望这个回复能帮助你更好地了解AI大模型及其相关概念和应用领域。

tkv2373 LV

发表于 6 天前

AI大模型详解:<br><br>1. 介绍:AI大模型是基于深度学习的技术,利用海量的数据和复杂的神经网络结构,模拟人类智能。其已成功应用于谷歌搜索、语言翻译及图像识别等领域。<br>2. 基础概念:<br>机器学习分为监督学习、无监督学习和强化学习,为深度学习打下基础。<br>深度学习核心原理包括神经网络结构与反向传播算法。<br>3. 应用领域:<br>在自然语言处理(NLP)领域,大模型处理文本数据,如BERT应用于自然语言理解。<br>在计算机视觉领域,大模型助力图像识别、目标检测,GPT在图像生成中也有出色表现。<br>4. 常见大模型:例如BERT用于NLP,GPT用于生成文本。<br>5. 学习步骤:<br>首要掌握编程基础,尤其是Python。<br>学习TensorFlow或PyTorch等深度学习框架。<br>推荐Coursera、edX等平台的深度学习课程。<br>6. 实践项目:<br>完成小规模项目,如用TensorFlow建神经网络。<br>鼓励参与开源项目,积累实际经验。<br>7. 持续学习与社区参与:<br>阅读AI博客和论文,关注最新进展。<br>加入AI社区,参与讨论和分享。<br>8. 成功案例分享:邀请创业者或从业者分享应用AI大模型的实战经验。<br>9. 互动环节:鼓励提问、解答疑惑、分享看法和经验。<br>10. 总结与展望:总结课程要点和学习路径,展望AI大模型的未来发展趋势。通过学习,激发对AI技术的兴趣。

您需要登录后才可以回帖 登录 | 立即注册