在人工智能领域,特别是自然语言处理(NLP)和机器学习中,几个重要的概念正在推动研究和应用的前沿发展。以下是few-shot learning, zero-shot learning, in-context learning, tuning-free, training-free, inference-only的定义、代表性文章及其相关性。
Zero-Shot Learning
定义:
Zero-shot learning是一种极端的少样本学习()方法,它使得模型能够在完全没有见过目标类样本的情况下进行预测。模型通过在训练阶段学习到的特征和类描述之间的关系来实现这一点。
以分类任务为例:
零数据学习(Zero-data learning) 旨在解决分类问题标记训练数据以覆盖所有类别进行区分,或多任务问题,其中可用的训练数据没有提供某些所需输出的示例要解决的任务 1。
对从未见过的视觉类的实例进行分类的能力,称为零样本学习(Zero-shot learning ),在许多情况下都很有用。有许多物种、产品或活动没有标记数据,新的视觉类别也经常出现,比如最新的小工具或汽车模型2。
Few-Shot Learning
定义:
Few-shot learning是一种机器学习方法,旨在利用极少量的样本来训练模型,从而在新的任务中表现出良好的性能。这通常涉及到模型在预训练阶段获得大量的背景知识,然后在只提供几个新样本的情况下快速适应新任务。
以分类任务为例:
Few-shot 分类任务中,分类器(模型)必须适应训练中没有看到的新类别,仅给出这些类别中每个类别的几个例子。原始方法会根据新数据重新训练模型,但这会导致严重过拟合。虽然这个问题相当困难,但已经有研究证明人类甚至有能力进行 one-shot 分类,其中每个新类别只给出一个例子,并且具有高度的准确性 3。
In-Context Learning
定义:In-context learning是一种在不显式微调模型权重的情况下,通过给模型提供相关的上下文信息(例如提示或样本)来实现模型性能提升的方法。GPT-3等大规模语言模型展示了这种能力。
在 LLM 的语境下:
“上下文学习”(In-context learning)使用预先训练的语言模型的文本输入作为任务规范的一种形式:该模型以自然语言指令和/或任务的一些演示为条件,然后期望通过预测接下来会发生什么来完成任务的进一步实例 4。
下图是 in-context learning (左边一列)和一般 fine-tuning (右边一列)的区别,in-context learning 不产生梯度、不会更新模型参数,而 fine-tuning 会产生梯度、更新模型参数。
需要注意区分 in-context learning 中可以有 Zero-Shot、One-Shot 和 Few-Shot 的 Setting,但和 Zero-Shot learning、One-Shot learning、Few-Shot learning 不一样!
Tuning-Free
定义:Tuning-free指的是无需对模型的超参数进行调整或微调,就可以直接使用预训练模型进行推断和应用。这类方法强调模型的预训练阶段,使得在应用阶段无需再进行调整。
代表性文章:
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). “Improving language understanding by generative pre-training.” OpenAI preprint.Training-Free
定义:Training-free是指模型在推断阶段完全不需要额外的训练或微调,即模型在预训练阶段已经获得了足够的知识,直接应用于任务。
代表性文章:
Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., … & Sutskever, I. (2021). “Zero-Shot Text-to-Image Generation.” International Conference on Machine Learning (ICML).Inference-Only
定义:Inference-only指的是模型仅在推断阶段使用,而不涉及任何形式的训练。通常,这些模型在预训练阶段已经学习了大量知识,可以直接用于任务。
代表性文章:
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL-HLT.概念之间的相关性
Few-shot Learning 与 Zero-shot Learning:
Few-shot learning使用极少样本,而zero-shot learning在没有目标类样本的情况下工作。两者都依赖于预训练阶段获得的广泛知识。In-Context Learning 与 Few-shot Learning:
In-context learning可以被看作是few-shot learning的一种形式,特别是当模型通过提供上下文信息来进行学习时。Tuning-Free 与 Training-Free:
这两个概念都强调在推断阶段无需进一步训练或调优。Tuning-free更关注超参数调整,而training-free完全避免任何形式的训练。Training-Free 与 Inference-Only:
Training-free和inference-only几乎是同义词,均强调模型在推断阶段无需任何训练,直接应用。通过这些定义和代表性文章,可以更清晰地理解这些概念在人工智能研究中的位置及其相互关联。这些方法和概念在大规模预训练模型的背景下尤为重要,推动了NLP和其他领域的显著进步。
Larochelle, H., Erhan, D., & Bengio, Y. (2008). “Zero-data learning of new tasks.” AAAI Conference on Artificial Intelligence. ↩︎
Socher, R., Ganjoo, M., Manning, C. D., & Ng, A. (2013). “Zero-shot learning through cross-modal transfer.” Advances in Neural Information Processing Systems (NeurIPS). ↩︎
Snell, J., Swersky, K., & Zemel, R. (2017). “Prototypical Networks for Few-shot Learning.” Advances in Neural Information Processing Systems (NeurIPS). ↩︎
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). “Language Models are Few-Shot Learners.” Advances in Neural Information Processing Systems (NeurIPS). ↩︎