2023 年十大人工智能(LLM)必读论文(下)
阿法兔研究笔记2024/01/02 05:37
作者:阿法兔研究笔记
用读论文迎接新的一年,新年快乐!!!看到这篇的朋友 2024 运气爆棚,顺利满满!
欢迎大家点击在看,或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~ LLM
6)Mistral 7B 尽管 Mistral 7B 论文有些简短,但它提出的模式很有影响力:
简而言之,Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型,尽管它的规模相对较小,只有 70 亿个 Token,但在各种 benchmark测试中,它的表现却优于更大的同类模型,比如它的表现超过了 13B Llama 2 模型。 ( 除了比其大两倍的 Qwen 14B 之外,Mistral 7B 也是今年 NeurIPS LLM Finetuning Efficiency 挑战赛获胜方案中使用的 base mode)
来自 https://arxiv.org/abs/2310.06825 的注释图,Mistral 7B 和 Llama 13B 的性能比较
从架构上来看,Mistral 7B 与 Llama 2 共享了 group-query attention,虽然与 Llama 2 非常相似,但 Mistral 架构中的一个有趣的补充是 sliding window attention ,用以节约内存并提高计算吞吐量,从而加快训练速度。 (Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020)
为什么选择 MoE?
结合起来,像 Mixtral 这样的 7B 模型中的 8 个Expert,总共有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ,而不是self-attention weight matrices。因此,它可能更接近 40-50B 个参数。请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用<14B 个参数(2x <7B,而不是全部<56B),因此与传统的非 MoE 方法相比,训练(尤其是 inference)将会更快。
如果想要了解更多关于 MOE 的内容,这里有一个 Sophia Yang 推荐的阅读清单:
此外,如果读者对尝试 MoE 和 LLM 感兴趣,也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM 地址:https://github.com/XueFuzhao/OpenMoE
(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463) 更多关于 phi models 的资料:
7) Orca 2: Teaching Small Language Models How to Reason
这是一篇相对较新的论文,因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。
收录这篇论文的原因在于:它融合了多个概念和观点:
它是如何工作的?简而言之,主要分为 4 个步骤:
在图像和视频中的Object recognition和segmentation,以及分类和生成建模,是计算机视觉的主要研究领域。
简要说明这两项任务之间的区别:Object recognition是预测边界框和相关标签;segmentation则是对每个像素进行分类,以区分前景和背景物体: Object recognition(上图)与 Segmentation(下图)。 图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640)和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3)
The Segment Anything Model 三个主要组成部分,见https://arxiv.org/abs/2304.02643 稍微详细一点,这三个部分可以总结如下:
图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内,该论文已经被引用超过 1500 次,并且已经有许多项目在这篇论文的基础上构建。
Emu 是一个可以从文本提示生成整个视频的文本到视频模型, 虽然它不是第一个令人印象深刻的文本到 视频生成模型,但它与以前的作品相比有很大优势: Emu 与其他文本到视频模型的性能比较,见 https://arxiv.org/abs/2311.10709 正如作者所指出的,与之前的方法相比,Emu 架构的设置相对简单。
新年快乐!2024 大展宏图,越来越好!
欢迎大家点击在看,或转发到朋友圈~~这样兔儿就更有动力发更多好内容了~ LLM
*本文 4400 字左右
作者:SEBASTIAN RASCHKA, PHD,原文名称:Ten Noteworthy AI Research Papers of 2023
2023 年,是机器学习和人工智能发展最为迅速的一年,这里和分享分享 10 篇笔者认为最值得关注的论文(今天是第二部分)。
上一篇见: 2023 年十大人工智能(LLM)必读论文(上)
当然,这里主要是以大语言模型(LLM)论文为主。选择标准可能也会稍显主观,但还是基于笔者个人特别喜欢或认为有影响力、值得关注的论文。( 注:这里的排序顺序是推荐阅读顺序,而不是根据质量或影响力排序)。
6)Mistral 7B 尽管 Mistral 7B 论文有些简短,但它提出的模式很有影响力:
简而言之,Mistral 7B 论文介绍了一个紧凑但功能强大的语言模型,尽管它的规模相对较小,只有 70 亿个 Token,但在各种 benchmark测试中,它的表现却优于更大的同类模型,比如它的表现超过了 13B Llama 2 模型。 ( 除了比其大两倍的 Qwen 14B 之外,Mistral 7B 也是今年 NeurIPS LLM Finetuning Efficiency 挑战赛获胜方案中使用的 base mode)
来自 https://arxiv.org/abs/2310.06825 的注释图,Mistral 7B 和 Llama 13B 的性能比较
从架构上来看,Mistral 7B 与 Llama 2 共享了 group-query attention,虽然与 Llama 2 非常相似,但 Mistral 架构中的一个有趣的补充是 sliding window attention ,用以节约内存并提高计算吞吐量,从而加快训练速度。 (Sliding window attention was previously proposed in Child et al. 2019 and Beltagy et al. 2020)
Zephyr 和 Mixtral
Mixture of Experts 101
如果你对 MOE 还比较陌生,可以参考下面的解释: 上面的图表展示了 Switch Transformer 的架构,该架构对每个 Token 使用 1 个Expert ,总共有 4 个Expert。另一方面,Mixtral-8x-7B 由 8 个Expert组成,每个 Token 对应 2 个Expert。为什么选择 MoE?
结合起来,像 Mixtral 这样的 7B 模型中的 8 个Expert,总共有约 56B 个参数。实际上,它少于 56B,因为 MoE 方法仅应用于 FFN (feed forward network, aka fully-connected) ,而不是self-attention weight matrices。因此,它可能更接近 40-50B 个参数。请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用<14B 个参数(2x <7B,而不是全部<56B),因此与传统的非 MoE 方法相比,训练(尤其是 inference)将会更快。
如果想要了解更多关于 MOE 的内容,这里有一个 Sophia Yang 推荐的阅读清单:
- The Sparsely-Gated Mixture-of-Experts Layer (2017)
- GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
- MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)
- Mixture-of-Experts Meets Instruction Tuning (2023)
此外,如果读者对尝试 MoE 和 LLM 感兴趣,也可以查看 OpenMoE 的repository,在今年早些时候实现并分享了 MoE LLM 地址:https://github.com/XueFuzhao/OpenMoE
(via the phi-1.5 paper,https://arxiv.org/abs/2309.05463) 更多关于 phi models 的资料:
- Textbooks Are All You Need -- the phi-1 paper
- Textbooks Are All You Need II: phi-1.5 Technical Report
- The Phi-2: The Surprising Power of Small Language Models announcement
7) Orca 2: Teaching Small Language Models How to Reason
这是一篇相对较新的论文,因此时间会证明它是否会在未来数月或数年内对我们如何训练 LLM 产生持久的影响。
收录这篇论文的原因在于:它融合了多个概念和观点:
它是如何工作的?简而言之,主要分为 4 个步骤:
- 用一组人类编写的指令(本例中为 175 条)和示例指令建立任务池;(Seed task pool with a set of human-written instructions (175 in this case) and sample instructions;)
- 使用预训练 LLM(如 GPT-3)确定任务类别;( Use a pretrained LLM (like GPT-3) to determine the task category)
- 给定新指令,让经过预训练的 LLM 生成响应(Given the new instruction, let a pretrained LLM generate the response)
- 收集、修剪和过滤回复,然后将其添加到任务池中(Collect, prune, and filter the responses before adding them to the task pool)
在图像和视频中的Object recognition和segmentation,以及分类和生成建模,是计算机视觉的主要研究领域。
简要说明这两项任务之间的区别:Object recognition是预测边界框和相关标签;segmentation则是对每个像素进行分类,以区分前景和背景物体: Object recognition(上图)与 Segmentation(下图)。 图片来自 YOLO 论文(https://arxiv.org/abs/1506.02640)和 Mask R-CNN 论文(https://arxiv.org/abs/1703.06870v3)
The Segment Anything Model 三个主要组成部分,见https://arxiv.org/abs/2304.02643 稍微详细一点,这三个部分可以总结如下:
- An image encoder utilizing a masked autoencoder based on a pretrained vision transformer (ViT) that can handle high-resolution inputs. This encoder is run once per image and can be applied before prompting the model
- A prompt encoder that handles two types of prompts: sparse (points, boxes, text) and dense (masks). Points and boxes are represented by positional encodings combined with learned embeddings for each prompt type. And free-form text uses an off-the-shelf text encoder from CLIP. Dense prompts, i.e., masks, are embedded using convolutions and summed element-wise with the image embedding.
- A mask decoder maps the image embedding, prompt embeddings, and an output token to a mask. This is a decoder-style transformer architecture that computes the mask foreground probability at each image location.
图像segmentation对于自动驾驶汽车、医学成像等应用至关重要。在短短 6 个月内,该论文已经被引用超过 1500 次,并且已经有许多项目在这篇论文的基础上构建。
10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
Emu 视频:通过显式图像条件分解文本到视频生成,是 Meta 研究部门的另一个值得注意的计算机视觉项目。Emu 是一个可以从文本提示生成整个视频的文本到视频模型, 虽然它不是第一个令人印象深刻的文本到 视频生成模型,但它与以前的作品相比有很大优势: Emu 与其他文本到视频模型的性能比较,见 https://arxiv.org/abs/2311.10709 正如作者所指出的,与之前的方法相比,Emu 架构的设置相对简单。
新年快乐!
新年快乐!2024 大展宏图,越来越好!
【阅读更多】
6000 字解读:当前大语言模型 LLM 研究的 10 大挑战
2023 年十大人工智能(LLM)必读论文(上)
最新!彻底颠覆 Office,微软发布 Copil
生成式 AI 颠覆前端,你该何去何从?
重磅突发!OpenAI 正式推出多模态 GPT-4
0
0
免责声明:文章中的所有内容仅代表作者的观点,与本平台无关。用户不应以本文作为投资决策的参考。
PoolX:锁仓获得新代币空投
不要错过热门新币,且APR 高达 10%+
立即参与!
你也可能喜欢
以太坊倡导者为以太坊领域的Saylor类投资者辩护
以太坊教育家和倡导者Anthony Sassano提出了一个案例,让某人代表以太坊社区领导类似比特币的指控,类似于
币界网•2024/12/22 14:30
Starboard瞄准Riot平台的低效,计划实现数十亿美元的增长
比特币矿业巨头Riot Platforms可能坐拥一座金矿,但尚未完全挖掘。Starboard,最激进的活动家之一
币界网•2024/12/22 14:30
加密货币价格
更多Bitcoin
BTC
$95,611.78
-2.06%
Ethereum
ETH
$3,314.85
-1.97%
Tether USDt
USDT
$0.9994
-0.03%
XRP
XRP
$2.24
-1.04%
BNB
BNB
$656.46
-1.32%
Solana
SOL
$182.04
-1.21%
Dogecoin
DOGE
$0.3182
-2.14%
USDC
USDC
$1
-0.00%
Cardano
ADA
$0.8926
-2.28%
TRON
TRX
$0.2467
+0.54%
Bitget 盘前交易
在币种上市前提前买卖,包括 ME、TOMA、OGC、USUAL 等。
立即交易
立即成为交易者?新用户可获得价值 6200 USDT 的迎新大礼包
立即注册