LLM入门1之阅读综述论文

less than 1 minute read

Published: January 01, 2024

这篇博客介绍了我在阅读论文Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond时的笔记

初识LLM之LLM综述

参考论文地址https://arxiv.org/abs/2304.13712

名词解释

NLU: natural language understanding
- 自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色，是推荐、问答、搜索等系统的必备模块。本文介绍了NLU和NLP、NLG的关系，并基于数据流将NLU的内容进行整理，最后对文本分类、文本聚类和NER这3种典型任务的目标和思路进行了简单说明。(百度百科)
AGI：Artificial General Intelligence
- 也即通用型的人工智能,亦被称为强 AI，该术语指的是在任何你可以想象的人类的专业领域内，具备相当于人类智慧程度的AI，一个AGI可以执行任何人类可以完成的智力任务。
  当前先进的LLM模型
  在图中，只有灰色的模型不是基于Transformer结构，其他的模型都是基于Transformer结构；而粉色的branch是表示只有encoder的结构；蓝色的是只有decoder的结构；绿色的是encoder-decoder结合的结构

可以从图中得到的几个结论

openai是最牛*的,GPT4和GPT3牛！！！
Meta提供了最多的开源的llm模型
随着GPT-3的提出，越来越多的LLM选择了closed source
当前发展最繁盛的是仅有解码器的结构，同时编码器和解码器结合的结构也很有前景(谷歌为其开源做出了巨大的贡献，然而不如多搞搞仅有encoder的结构)
两种style的大模型
BERT-style：Encoder-Decoder or Encoder-only
无监督的学习很适用于当前计算机的主流，其中一种为在考虑周围环境的同时预测句子中出现的掩蔽词，这种方式为Masked Language Model(NLM)掩蔽语言模型(据说可以提高对与单词的理解和上下文的关系)，这类模型一般在大型的文本语料库中进行训练，并在许多的NLP任务上刷了很高的指标，例如BERT，RoBERTa(不过MLM到底是什么还有疑惑)
GPT-style：Decoder-only
针对一个普适的模型，一般是与特定的任务是无关的，但是在面临特定的任务时，微调还是避免不了；如果我们可以扩大语言模型的规模，那么微调可以越来越“微”，甚至做到零样本，其中自回归语言模型(Autoregressive Language Models)这一特性最为明显；这些模型广泛地应用于文本生成和问答等下游的任务。

GPT3是首次通过提示和上下文学习达到了零样本性能,极大地展示了这种自回归模型的优越性。而chatgpt是基于其的改进，使其更符合现实中的应用。
实际应用的问题
是微调模型还是大语言模型
如果可以找到跟测试数据比较相似的训练数据，那么微调的模型是更好的，但是如果没有，甚至是对抗任务或者领域迁移这种情况，大模型是更diao的
预训练数据
预训练数据Pre-trained data是最为关键的；常用的预训练数据由无数的文本源组成，包括书籍、文章和网站。这些数据经过精心策划，以确保全面反映人类知识、语言细微差别和文化观点。预训练数据的重要性在于它能够为语言模型提供对单词知识、语法、语法和语义的丰富理解，以及识别上下文和生成连贯响应的能力。
Finetuning data
在考虑为下游任务部署模型时候，考虑的有三个场景“0”，“少量”，“丰富”
没有标记数据的情况
也即零样本的情况，这种情况下使用LLM被证明是最为有效的
很少标记数据的情况
将少数的标记数据直接的纳入到LLM的输入提示中，上下文学习；这样可以有效的引导LLM到其对应的任务中去，个人感觉这个跟(小样本学习)的概念是一样的
标记的数据十分丰富的情况
这种时候就使用微调模型了

资料引用

https://zhuanlan.zhihu.com/p/622027410

Twitter Facebook LinkedIn

Cai-Mingshuo

LLM入门1之阅读综述论文

初识LLM之LLM综述

名词解释

当前先进的LLM模型

可以从图中得到的几个结论

两种style的大模型

BERT-style：Encoder-Decoder or Encoder-only

GPT-style：Decoder-only

实际应用的问题

是微调模型还是大语言模型

预训练数据

Finetuning data

没有标记数据的情况

很少标记数据的情况

标记的数据十分丰富的情况

资料引用

高数知识点复习

一些数字图像处理知识

Diffusion入门知识4—彻底搞懂扩散模型

Pytorch进阶之那些基础但重要的知识点二