当前位置:首页>滚动 > >正文

大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

  • 2023-05-16 16:24:49来源:清一色财经

开源的力量正在源源不断地影响着整个 AI 社区,无论是 LLM 还是数据集。本文作者 Sebastian Raschka 对相关资源进行了汇总,并分享了自己的洞见。

前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。

围绕 Meta 的 LLaMA 开源模型,整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型,而且开源模型的迭代速度更快,可定制性更强,更有私密性。


(资料图片)

近日,前威斯康星大学麦迪逊分校助理教授、初创公司 Lightning AI 首席 AI 教育官 Sebastian Raschka 表示,对于开源而言,过去一个月很伟大

不过,那么多大语言模型(LLM)纷纷出现,要紧紧把握住所有模型并不容易。所以,Sebastian 在本文中分享了关于最新开源 LLM 和数据集的资源和研究洞见。

论文与趋势

过去一个月出现了很多研究论文,因此很难从中挑选出最中意的几篇进行深入的探讨。Sebastian 更喜欢提供额外洞见而非简单展示更强大模型的论文。鉴于此,引起他注意力的首先是 Eleuther AI 和耶鲁大学等机构研究者共同撰写的 Pythia 论文。

论文地址:https://arxiv.org/pdf/2304.01373.pdf

Pythia:从大规模训练中得到洞见

开源 Pythia 系列大模型真的是其他自回归解码器风格模型(即类 GPT 模型)的有趣平替。论文中揭示了关于训练机制的一些有趣洞见,并介绍了从 70M 到 12B 参数不等的相应模型。

Pythia 模型架构与 GPT-3 相似,但包含一些改进,比如 Flash 注意力(像 LLaMA)和旋转位置嵌入(像 PaLM)。同时 Pythia 在 800GB 的多样化文本数据集 Pile 上接受了 300B token 的训练(其中在常规 Pile 上训练 1 个 epoch,在去重 Pile 上训练 1.5 个 epoch )。

下面为一些从 Pythia 论文中得到的洞见和思考:

在重复数据上的训练(即训练 epoch>1)会不会有什么影响?结果表明,数据去重不会改善或损害性能;训练命令会影响记忆吗?遗憾的是,结果表明并不会。之所以说遗憾,是因为如果影响的话,则可以通过训练数据的重新排序来减轻讨厌的逐字记忆问题;batch 大小加倍可以将训练时间减半但不损害收敛。

开源数据

对于开源 AI,过去一个月特别令人兴奋,出现了几个 LLM 的开源实现和一大波开源数据集。这些数据集包括 Databricks Dolly 15k、用于指令微调的 OpenAssistant Conversations (OASST1)、用于预训练的 RedPajama。这些数据集工作尤其值得称赞,因为数据收集和清理占了真实世界机器学习项目的 90%,但很少有人喜欢这项工作。

Databricks-Dolly-15 数据集

Databricks-Dolly-15 是一个用于 LLM 微调的数据集,它由数千名 DataBricks 员工编写了超过 15,000 个指令对(与训练 InstructGPT 和 ChatGPT 等系统类似)。

OASST1 数据集

OASST1 数据集用于在由人类创建和标注的类 ChatGPT 助手的对话集合上微调预训练 LLM,包含了 35 种语言编写的 161,443 条消息以及 461,292 个质量评估。这些是在超过 10,000 个完全标注的对话树中组织起来。

用于预训练的 RedPajama 数据集

RedPajama 是一个用于 LLM 预训练的开源数据集,类似于 Meta 的 SOTA LLaMA 模型。该数据集旨在创建一个媲美大多数流行 LLM 的开源竞争者,目前这些 LLM 要么是闭源商业模型要么仅部分开源。

RedPajama 的大部分由 CommonCrawl 组成,它对英文网站进行了过滤,但维基百科的文章涵盖了 20 种不同的语言。

LongForm 数据集

论文《The LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction》介绍了基于 C4 和 Wikipedia 等已有语料库的人工创作文档集合以及这些文档的指令,从而创建了一个适合长文本生成的指令调优数据集。

论文地址:https://arxiv.org/abs/2304.08460

Alpaca Libre 项目

Alpaca Libre 项目旨在通过将来自 Anthropics HH-RLHF 存储库的 100k + 个 MIT 许可演示转换为 Alpaca 兼容格式,以重现 Alpaca 项目。

扩展开源数据集

指令微调是我们从类 GPT-3 预训练基础模型演化到更强大类 ChatGPT 大语言模型的关键方式。Databricks-Dolly-15 等开源人工生成指令数据集有助于实现这一点。但我们如何进一步扩展呢?是否可以不收集额外数据呢?一种方法是从自身的迭代中bootstrap 一个 LLM。虽然 Self-Instruct 方法在 5 个月前提出(以如今标准来看过时了),但它仍是一种非常有趣的方法。值得强调的是,由于 Self-Instruct 一种几乎不需要注释的方法,因而可以将预训练 LLM 与指令对齐。

如何运作呢?简而言之可以分为以下四个步骤:

首先是具有一组人工编写指令(本例中为 175)和样本指令的种子任务池;其次使用一个预训练 LLM(如 GPT-3)来确定任务类别;接着给定新指令,使预训练 LLM 生成响应;最后在将指令添加到任务池之前收集、修剪和过滤响应。

在实践中,基于 ROUGE 分数的工作会比较有效、例如 Self-Instruct 微调的 LLM 优于 GPT-3 基础 LLM,并可以在大型人工编写指令集上预训练的 LLM 竞争。同时 self-instruct 也可以使在人工指令上微调过的 LLM 收益。

但是当然,评估 LLM 的黄金标准是询问人类评分员。基于人类评估,Self-Instruct 优于基础 LLM、以及以监督方式在人类指令数据集上训练的 LLM(比如 SuperNI, T0 Trainer)。不过有趣的是,Self-Instruct 的表现并不优于通过人类反馈强化学习(RLHF)训练的方法。

人工生成 vs 合成训练数据集

人工生成指令数据集和 self-instruct 数据集,它们两个哪个更有前途呢?Sebastian 认为两者皆有前途。为什么不从人工生成指令数据集(例如 15k 指令的 databricks-dolly-15k)开始,然后使用 self-instruct 对它进行扩展呢?论文《Synthetic Data from Diffusion Models Improves ImageNet Classification》表明,真实图像训练集与 AI 生成图像相结合可以提升模型性能。探究对于文本数据是否也是这样是一件有趣的事情。

论文地址:https://arxiv.org/abs/2304.08466

最近的论文《Better Language Models of Code through Self-Improvement》就是关于这一方向的研究。研究者发现如果一个预训练 LLM 使用它自己生成的数据,则可以改进代码生成任务。

论文地址:https://arxiv.org/abs/2304.01228

少即是多(Less is more)?

此外,除了在越来越大的数据集上预训练和微调模型之外,又如何提高在更小数据集上的效率呢?论文《Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes》中提出使用一种蒸馏机制来管理任务特定的更小模型,它们使用更少的训练数据却超越了标准微调的性能。

论文地址:https://arxiv.org/abs/2305.02301

追踪开源 LLM

开源 LLM 的数量呈爆炸式增长,一方面是非常好的发展趋势(相较于通过付费 API 控制模型),但另一方面追踪这一切可能很麻烦。以下四种资源提供了大多数相关模型的不同摘要,包括它们的关系、底层数据集和各种许可信息。

第一种资源是基于论文《Ecosystem Graphs: The Social Footprint of Foundation Models》的生态系统图网站,提供如下表格和交互式依赖图(这里未展示)。

这个生态系统图是 Sebastian 迄今为止见过的最全面的列表,但由于包含了很多不太流行的 LLM,因而可能显得有点混乱。检查相应的 GitHub 库发现,它已经更新了至少一个月。此外尚不清楚它会不会添加更新的模型。

论文地址:https://arxiv.org/abs/2303.15772生态系统图网站地址:https://crfm.stanford.edu/ecosystem-graphs/index.html?mode=table

第二种资源是最近论文《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》中绘制精美的进化树,该论文侧重于最流行的 LLM 和它们的关系。

虽然读者看到了非常美观和清晰的可视化 LLM 进化树,但也有一些小的疑惑。例如不清楚为什么底部没有从原始 transformer 架构开始。此外开源标签并不是非常的准确,例如 LLaMA 被列为开源,但权重在开源许可下不可用(只有推理代码是这样的)。

论文地址:https://arxiv.org/abs/2304.13712

第三种资源是 Sebastian 同事 Daniela Dapena 绘制的表格,出自于博客《The Ultimate Battle of Language Models: Lit-LLaMA vs GPT3.5 vs Bloom vs …》。

虽然下述表格比其他资源要小,但其优点在于包含了模型尺寸和许可信息。如果你计划在任何项目中采用这些模型,则该表格会非常有实用性。

博客地址:https://lightning.ai/pages/community/community-discussions/the-ultimate-battle-of-language-models-lit-llama-vs-gpt3.5-vs-bloom-vs/

第四种资源是 LLaMA-Cult-and-More 总览表,它提供了有关微调方法和硬件成本的额外信息。

总览表地址:https://github.com/shm007g/LLaMA-Cult-and-More/blob/main/chart.md

利用 LLaMA-Adapter V2 微调多模态 LLM

Sebastian 预测本月会看到更多的多模态 LLM 模型,因此不得不谈到不久前发布的论文《LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model》。先来回顾一下什么是 LLaMA-Adapter?它是一种参数高效的 LLM 微调技术,修改了前面几个 transformer 块并引入一种门控机制来稳定训练。

论文地址:https://arxiv.org/abs/2304.15010

使用 LLaMA-Adapter 方法,研究人员能够在 52k 个指令对上仅用 1 小时(8 块 A100 GPU)来微调一个 7B 参数的 LLaMA 模型。虽然仅对新添加的 1.2M 参数(adapter 层)进行了微调,但 7B LLaMA 模型仍处于冻结(frozen)状态。

LLaMA-Adapter V2 的重点在多模态,即构建一个可以接收图像输入的视觉指令模型。最初的 V1 虽然可以接收文本 token 和图像 token,但在图像方面没有得到充分探索。

LLaMA-Adapter 从 V1 到 V2,研究人员通过以下三个主要技巧来改进 adapter 方法。

早期视觉知识融合:不再在每个 adapted 层融合视觉和 adapted 提示,而是在第一个 transformer 块中将视觉 token 与单词 token 连接起来;使用更多参数:解冻(unfreeze)所有归一化层,并将偏置单元和缩放因子添加到 transformer 块中每个线性层;具有不相交参数的联合训练:对于图文字幕数据,仅训练视觉投影层;针对指令遵循的数据仅训练 adaption 层(以及上述新添加的参数)。

LLaMA V2(14M)比 LLaMA V1 (1.2 M) 的参数多了很多,但它仍是轻量级,仅占 65B LLaMA 总参数的 0.02%。特别令人印象深刻的是,通过仅对 65B LLaMA 模型的 14M 参数进行微调,得到的 LLaMA-Adapter V2 在性能上媲美 ChatGPT(当使用 GPT-4 模型进行评估)。LLaMA-Adapter V2 还优于使用全微调方法的 13B Vicuna 模型。

遗憾的是,LLaMA-Adapter V2 论文省略了 V1 论文中包含的计算性能基准,但我们可以假设 V2 仍然比全微调方法快得多。

其他开源 LLM

大模型的发展速度奇快,我们无法一一列举,本月推出的一些著名的开源 LLM 和聊天机器人包括 Open-Assistant、Baize、StableVicuna、ColossalChat、Mosaic 的 MPT 等。此外,下面是两个特别有趣的多模态 LLM。

OpenFlamingo

OpenFlamingo 是 Google DeepMind 去年发布的 Flamingo 模型的开源复制版。OpenFlamingo 旨在为 LLM 提供多模式图像推理功能,让人们能够交错输入文本和图像。

MiniGPT-4

MiniGPT-4 是另一种具有视觉语言功能的开源模型。它基于 BLIP-27 的冻结视觉编码器和冻结的 Vicuna LLM。

NeMo Guardrails

随着这些大语言模型的出现,许多公司都在思考如何以及是否应该部署它们,安全方面的担忧尤为突出。目前还没有好的解决方案,但至少有一个更有前途的方法:英伟达开源了一个工具包来解决 LLM 的幻觉问题。

简而言之,它的工作原理是此方法使用数据库链接到硬编码的 prompt,这些 prompt 必须手动管理。然后,如果用户输入 prompt,该内容将首先与该数据库中最相似的条目相匹配。然后数据库返回一个硬编码的 prompt,然后传递给 LLM。因此,如果有人仔细测试硬编码 prompt,就可以确保交互不会偏离允许的主题等。

这是一种有趣但不是开创性的方法,因为它没有为 LLM 提供更好的或新的能力,它只是限制了用户可以与 LLM 交互的程度。尽管如此,在研究人员找到减轻 LLM 中的幻觉问题和负面行为的替代方法之前,这可能是一种可行的方法。

guardrails 方法还可以与其他对齐技术相结合,例如作者在上一期 Ahead of AI 中介绍的流行的人类反馈强化学习训练范例。

一致性模型

谈论 LLM 以外的有趣模型是一个不错的尝试,OpenAI 终于开源了他们一致性模型的代码:https://github.com/openai/consistency_models。

一致性模型被认为是扩散模型的可行、有效的替代方案。你可以在一致性模型的论文中获得更多信息。

标签:

延伸阅读

推荐阅读

大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

开源的力量正在源源不断地影响着整个AI社区,无论是LLM还是数据集。本文作者SebastianRaschka对相关资源进

资本圆桌快讯 | 海伦堡:目前不是上市的好时机 现在最重要是“保交付” 天天观焦点

目前香港资本市场不管对于房地产开发企业还是物业公司,都不是上市的好时机,因此海伦堡也暂停了上市的相关

天天观天下!高温来袭:电动车仪表盘保护膜被晒化 基本情况讲解

大家好,今日关于【高温来袭:电动车仪表盘保护膜被晒化】迅速上了的热搜榜,受到全网的关注度非常高。那么

基石药业PD-L1/PD-1海外授权终止 Biotech如何选择适合自身发展的出海模式?

近日,Biotech对外授权合作终止的事件再次出现。基石药业(香港联交所代码:2616)宣布将终止与EQRx关于PD-

央行货币政策报告:当前我国经济没有出现通缩

央行货币政策报告:当前我国经济没有出现通缩-中长期看,我国经济总供求基本平衡,货币条件合理适度,居民

2023注会报名费多少钱一科

经财政部注册会计师考试委员会批准,2023年注册会计师全国统一考试报名时间和考试时间如下。一、报名时间网

全面注册制启动后首单!这家公司撤回主板IPO-全球快消息

5月15日,上交所披露,浙江中天东方氟硅材料股份有限公司(简称“中天氟硅”)在沪市主板IPO审核状态变更为

环球热议:孙准浩出事细节:12日试图离境被抓_涉嫌非法行贿

原标题:韩媒曝孙准浩被拘细节!向非国家工作人员行贿,出境时被警方拦截北京时间2023年5月15日,孙准浩被

邮储银行六安市金寨县支行举办“娱乐身心 团队协作 激扬青春”趣味运动会

为缓解员工压力,让员工在工作之余的生活能够更加丰富充实,近日,邮储银行六安市金寨县支行举办了一场

送别姚老最后一程 成都很多校长都来了

成都商报-红星新闻记者殷建李宇欣5月15日一早,姚老告别会在成都市东郊殡仪馆举行,除了姚老的同事、朋友和

京瓷官宣退出消费级智能手机市场 转而专注企业领域服务

如今智能手机市场无论国内还是海外市场都在进行一轮新的洗牌,国内手机市场以华米OV为主,其它手机厂商几乎

excel折线图多组数据自定义xy excel折线图多组数据

今天来聊聊关于excel折线图多组数据自定义xy,excel折线图多组数据的文章,现在就为大家来简单介绍下excel折线

未成年人频频绕过防沉迷系统该如何破局?专家建议→_天天热闻

调查动机近日,来自天津的读者向记者反映称,她上初中的儿子竟然通过租号的方式绕开防沉迷系统,每天晚上偷

第三周期输配电价发生了哪些变化|环球动态

以江苏为例,对比发现有以下几处变化:(来源:微信公众号“电力交易员的自我修养”作者:唐晓犇)①一般工

万丰奥威:融资净买入81.49万元,融资余额2.63亿元(05-15)

2023年5月15日万丰奥威融资净买入81 49万元,融资余额2 63亿元

totolink路由器设置无线网密码_totolink路由器设置

1、通电开启无线路由,开启pc电脑设置网卡为自动获取IP及dns。2、2、打开pc电脑打开浏览器。3、输入默认路由IP地

高级美容师资格证职称_高级美容师资格证_环球速讯

1、高级美容师资格证好考吗:  想考取高级美容师的人员一般都专业美容学校学完中级获取中级证书的学员。2

电动游船扮靓漓江 全球热文

电动游船扮靓漓江

每日消息!海螺沟有高原反应吗(海螺沟有高原反应吗现在)

1、身处海螺沟时是有可能造成高原反应的。2、正常情况下,地处在海拔3000米以上时人就有可能会产生高原反应

北京卫视《卧底警花》交易现场状况百出

卧底警花定档北京卫视 北京卫视卧底警花 这个毒品交易现场真是状况百出,传说中要出场的老大,竟然只是个

杨幂离开又怎样,嘉行00小花庄达菲因出演黄蓉而全网热议|每日消息

最近传出消息,大导演徐克准备执导由知名武侠作家金庸人气小说《射雕英雄传》改编的电影,饰演男主郭靖的还

【短讯】数码3C等需求萎缩致Q1承压 灿瑞科技将加大磁传感器、HIO电驱产品推广力度|直击业绩会 今日看点

【短讯】数码3C等需求萎缩致Q1承压灿瑞科技将加大磁传感器、HIO电驱产品推广力度|直击业绩会。新闻资讯提供

介质是什么意思呢_介质是什么意思-世界速看

1、一种物质存在于另一种物质内部时,后者就是前者的介质;某些波状运动(如声波、光波等)借以传播的物质叫

康缘药业(600557.SH):公司及相关人员收到江苏证监局警示函-世界聚焦

格隆汇5月15日丨康缘药业(600557)(600557 SH)公布,公司及相关人员近日收到江苏证监局警示函。经查,公司20

资讯:乐友/leyou是哪个国家的品牌_什么档次怎么样

乐友(中国)超市连锁有限公司,乐友,知名孕婴童连锁品牌,知名购物网品牌,国内孕婴童行业领先的连锁零售企

美国财政部长耶伦预计:美国监管机构将对中型银行之间的合并持开放态度|全球简讯

【友财网讯】-美国财政部长珍妮特·耶伦(JanetYellen)周六表示,当前的银行业环境和美国一些地区性银行的盈

年度投资537亿,襄阳今年将实施153个省市重点项目

【大河财立方消息】5月15日消息,襄阳市发展和改革委员会日前印发襄阳市2023年省市重点项目建设计划。其中

世界观速讯丨上交所将召开沪市金融业专题座谈会 讨论促进金融业估值提升

此次会议讨论的重要内容为“在服务中国式现代化中促进金融业估值提升和高质量发展”。

天天速读:北京最高温超34℃ 迎来今年首个高温日

受暖气团影响,今天(15日),北京最高气温超过34摄氏度,迎来今年首个高温日。北京市气象台已于昨天(14日

天天热点!天命之年是多少岁 天命之年

今天来聊聊关于天命之年是多少岁,天命之年的文章,现在就为大家来简单介绍下天命之年是多少岁,天命之年,

猜您喜欢

Copyright ©  2015-2022 南非服装网版权所有  备案号:沪ICP备2022005074号-13   联系邮箱:58 55 97 3@qq.com