产品视角 |AI对话(一):了解大语言模型
创始人
2024-01-08 23:37:54
0

原标题:产品视角 |AI对话(一):了解大语言模型

对想做AI产品经理的同学而言,了解一些基础知识、常用名词是必须的。这篇文章,作者解释了一些AI的基础名词和概念,希望可以帮到大家。

本文为此系列引言,主要为各技术点的要点汇总,旨在普及基础技术知识点不含产品观点,对LLM了解的同学可跳过。

一、什么是大语言模型(LLM)

顾名思义,大语言模型的特点是规模庞大,可能拥有十亿以上的参数。由于研究方向不同,在前两年出现以自然语言理解任务和自然语言生成类任务的两条技术线。

1. 自然语言理解任务

即包括文本分类、句子关系判断等,本质上是分类任务。其技术以Bert为代表。Bert(Bidirectional Encoder Representation from Transfomer)采用双向Transformer Encoder架构。Bert的优点是可以更好地理解上下文信息,缺点是长文本处理不够稳定

2. 自然语言生成类任务

可给定输入文本,要求对应模型生成一串输出的模型。其技术以GPT为代表。GPT(Generative Pre-trained Transfomer)使用单向Transfomer Decoder结构。GPT的优点是训练过程相对简单,可以生成自然流畅的文本

从两类任务来看,如果仅用自然语言理解模型,可能无法很好地处理生成任务。但一个LLM 生成模型是可以兼顾两个任务的处理,所以主流更希望推进的应用方向是结合LLM生成模型来做落地。

附图:Transformer介绍

二、市场大语言模型有哪些

(数据来源:机器之心)

在生成式任务方向按照模型结构的不同可以分为两大类:

1. 基于Causal decoder-only (因果解码器)的Transformer结构

如GPT-4、Claude 2、LLaMA2等大模型

2. 基于Prefix decoder-only (前缀解码器)的Transformer结构

如Chat GLM-6B(清华大学提出的支持中英双语问答的对话语言模型)

那么两种结构的区别是什么呢?

相同训练tokens的情况下,Prefix decoder用到的tokens数量更少,训练效率较低,效果相对较差。(训练时Causal decoder结构会在所有Token上计算损失,而Prefix decoder只会在输出上计算损失,不计算输入的损失)

其次模型基础信息(训练数据、数据量、模型参数量、词表大小等)还会成为主要比较维度,如下图:

(数据来源:机器之心)

列名称:模型名称、发布时间、模型大小、是否基于哪个模型、适应性调优(IT指令调优、RLHF用于对齐调优-人类反馈强化学习)、预训练数据规模、近期更新、硬件情况、训练时长、评估(ICL上下文学习、CoT思维链)

三、大模型有什么样的训练范式

NLP经历四个训练范式:

  1. 第一范式:基于传统机器学习模型的范式,特征工程+算法,需要大量训练数据
  2. 第二范式:基于深度学习模型的范式,自动获取特征,相对1提高了准确率
  3. 第三范式:基于【Pre-train(无监督)+fine-tune(有监督)】的范式,pre-train是基于无标注数据训练;fine-tune阶段经过pre-train的初始化以后,后续的参数用有标注的数据进行训练。小数据集可以训练出好模型。
  4. 第四范式(重要,详情请见系列下篇):基于【Pre-train,Prompt,Predict】的范式,应用Few/Zero Shot ,需要少量(无)的任务数据。

大模型大多应用第三、第四范式为主,第三范式目的是预训练模型以更好地应用在下游任务,而用较多的数据训练新的任务,会导致少量样本学习能力差的问题,以及会造成部署资源的极大浪费。

对于第四范式,本质是将所有下游任务统一成预训练任务,以特定的模板将下游任务的数据转成自然语言形式,挖掘预训练模型的本身能力,因此可以降低语义差异以及避免过拟合。

四、大模型评测的标准和方法

产品表现:包括语义语法语境理解、内容准确性、生成质量、性能测试、拟人性和多模态能力;

  • 语义理解包括上下文理解、逻辑推理、多语言等;
  • 内容准确性包括回复内容和结果准确性和陷阱处理;
  • 生成质量包括多样性、创造性、专业度等;
  • 性能主要包括回复速度、资源消耗等;
  • 拟人性主要针对用户情感分析;

模型基础能力:主要针对算力和数据,包括参数量级、数据量级、数据质量等

其他:主要针对安全合规,包括安全和隐私处理能力、内容安全性、公平性、隐私保护等

五、评估大模型的安全性

LLM Tustworthiness 字节跳动

  1. 可靠性 :虚假信息、语言模型幻觉、不一致、校准失误、谄媚
  2. 安全性 :暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯
  3. 公平性 :不公正、刻板偏见、偏好偏见、性能差异
  4. 抵制滥用 :宣传、网络攻击、社交工程、版权泄漏
  5. 可解释性和推理 :解释能力不足、逻辑能力不足、 因果能力不足
  6. 社会规范 :恶毒语言、情感迟钝、文化迟钝
  7. 稳健性 :提示攻击、范式和分布变化、干预效果、投毒攻击

参考文献:

《最新大语言研究模型综述:T5到GPT-4最全盘点》

《通往AGI之路:大型语言模型(LLM)技术精要》

《如何评估大模型是否可信?这里总结了七大维度》

《Prompt Learning |深入浅出提示学习要旨及常用方法》

本文由 @JasmineWei 原创发布于人人都是产品经理。未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

相关内容

热门资讯

在四川为种质资源“安家” 五月的川西平原,金黄的麦浪翻涌。在成都市邛崃市天府现代种业园内,四川省种质资源中心库的年轻工作人员正...
华为发布MateBook Fo... 2025-05-20 20:01:30 作者:狼叫兽 在昨日举行的华为nova 14系列与新款鸿...
原创 2... vivo已经连续四年拿到国内手机销量第一,今年由于华为归来,再想拿到第一难度无限加大,可vivo也不...
互联中国公益行动 | 科技向善... 5月20日,2025“互联中国公益行动”在云南省楚雄彝族自治州启动。活动现场,6组嘉宾通过讲述温暖动...
上海黄浦:新婚夫妻来登记可“摇... “谁家在黄浦江边求婚呢?”5月16日晚,有网友捕捉到上海黄浦滨江的夜空中进行的一场无人机飞行活动,无...
小米会不会被美国拉进黑名单? 小米自研芯片玄戒O1很快就要发布,作为一个产业的观察者,我知道,这是极为艰难的一步,目前全世界做智能...
华为+DeepSeek,终于不... 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀起狂澜。 然而主流的...
浙江出台27条举措支持人工智能... 【大河财立方消息】5月20日消息,浙江省人民政府日前印发关于支持人工智能创新发展若干措施的通知,共涉...
日本新研究:人工智能生成内容不... 新华社北京5月20日电(记者李雯)尽管人工智能生成内容已非常流畅,但提供的信息很多时候还是不准确。日...
谢耘:人工智能至今仍不是现代科... 【文/谢耘】 “人工智能”一词是在1956年夏天在美国达特茅斯学院举行的一个研讨会上提出来的。从此...
2025年谷歌I/O一览:新推... 界面新闻记者 | 李彪 界面新闻编辑 | 文姝琪 5月20日至21日,搜索巨头谷歌在加州山景城海...
原创 不... 近日,科技圈最受瞩目的当属小米玄戒O1芯片了,自从雷总正式官宣以来,这款芯片就成为了网友关注的焦点,...
清华同方:2024年大模型技术... 今天分享的是:清华同方:2024年大模型技术白皮书 报告共计:61页 《清华同方:2024年大模型技...
浙江抢占人工智能发展制高点 拟... 为了支持人工智能发展,浙江政府出台政策。 据5月20日浙江发布的消息,为抢占人工智能发展制高点,打造...
人形机器人落地 保守估计要10... 《科创板日报》5月21日讯(记者 李明明)作为AI落地物理世界的重要载体,在资本持续涌入的同时,人形...
一文速览谷歌2025开发者大会... 图片来源:界面图库 界面新闻记者 | 宋佳楠 北京时间5月21日,一年一度的谷歌开发者大会(G...
繁凯电镀取得电镀模具密封结构专... 金融界2025年5月20日消息,国家知识产权局信息显示,温州市繁凯电镀有限公司取得一项名为“一种电镀...
懂AI会“飞行”,这个专业要培... ①华南理工大学未来技术学院学生正在调试无人机设备。 ②华南理工大学未来技术学院学生在实验室开展试验...
山德科技取得一种通讯电子精密模... 金融界2025年5月20日消息,国家知识产权局信息显示,河源市山德科技有限公司取得一项名为“一种通讯...
善用优势,以“新”促兴 本报记者 汪灵犀 文/图 在香港新界吐露港沿岸,一颗巨大的“金蛋”是香港科学园的地标性建筑。 “从...