跳转至

Intro to LLM

1. 大模型的发展历程

大模型的发展经历了多个阶段,从早期的符号AI,到1980年代后的统计AI与神经AI,再到如今的大规模语言模型(LLMs)和多模态模型。

graph TD
    A[符号AI] --> B[统计AI]
    B --> C[神经AI]
    C --> D[大规模语言模型]
    D --> E[多模态模型]

2. 大模型的类型

当前的大模型主要包括以下几种类型:

  • 语言大模型(如GPT系列)
  • 视觉大模型(如Stable Diffusion)
  • 科学大模型(如AlphaFold)
  • 多模态大模型(如PaLM-E)
graph LR
    A[大模型类型] --> B[语言大模型]
    A --> C[视觉大模型]
    A --> D[科学大模型]
    A --> E[多模态大模型]

3. 语言建模问题

语言模型旨在回答"文本的概率是什么?"的问题。通过神经网络(如GPT-3、GPT-4)进行语言建模,能够生成与上下文相关的连贯文本。

graph TD
    A[输入文本] --> B[神经网络模型]
    B --> C[预测下一个词]
    C --> D[输出生成文本]

4. 大型语言模型的特性

  • 涌现能力:一些能力在小模型中不存在,但在大模型中出现。
  • 多任务泛化能力:单个模型能够解决多个自然语言处理任务。
  • 作为知识库:语言模型可以作为知识库提供信息(尽管不总是准确)。
graph TD
    A[小模型] -->|能力有限| B[涌现能力]
    B --> C[大模型]
    C -->|多任务泛化| D[更高准确率]

5. 提示词工程(Prompt Engineering)

提示词工程是一种与大型语言模型(LLMs)进行交互的方式,通过调整输入内容(提示词),来最大化模型的输出效果。提示词可以设定模型的角色或指导其输出处理方法。

graph LR
    A[提示词] --> B[设定角色]
    A --> C[指导输出方法]
    B --> D[生成特定风格的文本]
    C --> D

6. 应用场景

大型语言模型被广泛应用于各类任务中,如生成代码、文本摘要、复杂推理、多语言支持等。

graph TD
    A[大型语言模型应用] --> B[生成代码]
    A --> C[文本摘要]
    A --> D[复杂推理]
    A --> E[多语言支持]