AIGC（生成式AI）试用 17 -- 续2，生成式AI是什么

还是培训资料中的内容，重读一遍。
列举内容，尝试理解的多那么一点点。

1. 生成式AI

生成式AI定义

- Generative AI, GenAI
- 一种人工智能技术
- 对已经数据分类、预测
- 生成新的内容，包括文本、图像、音频、视频
- 由大量数据语料库预训练大模型提供动力（基础模型，Foundation Model, FM）
- 通过深度学习模型实现

参考：
生成式AI的历史和发展（关键技术） - 知乎
人工智能发展史(上) - 知乎
人工智能发展史(下) - 知乎生成式AI相关

- 人工智能，AI，允许计算机使用逻辑、if-then语句以及机器学习来模仿人类智能的技术
- 机器学习，ML，人工智能的子集，利用机器搜索数据中的模式来自动建立逻辑模型
- 深度学习，DL，由深度多层神经网络组成的机器学习的子集，执行语音和图像识别任务
- 生成式人工智能生成式AI模型活动

- 未标记数据 -> 预训练 -> 基础模型 -> 适配 -> 常规任务：文本生成、文字摘要、信息提取、图像生成、聊天机器人、问题回复答
- 预训练
- 模型微调
- 提示词工程生成式AI基础模型 -- 陌生领域。。。后续补充

- GPT，generative pre-trained transformer，生成式预训练transformer，基于transformer的生成式语言模型，可以生成逼真的文本
- GAN，generative adversarial network，生成式对抗网络，包含了生成器和判断器的对抗网络，可以生成逼真的图像
- VAE，variatonal autoencoder，变分自动编码器，基于概率编码的生成模型，可以学习数据的潜在分布，并从中采样生成新数据，在无监督学习中广泛应用
- 自动编码器，autoencoder，无监督神经网络，通过学习如何有效压缩和解压数据来得到数据的潜在表示，用于生成图像、文本
- WaveNet，生成原始音频波形的神经网络，生成人类语言
- DALL-E，openAI研发的一种基于GPT和CLIP的图像生成模型
- AlphaFold，deepMind开发的蛋白质结构预测生成模型
- 多模态模型生成式AI特点

- 基础模型包含大量参数，能够掌握复杂规律
- 具有超强的泛化能力，在文泛的上下文中运用知识
- 支持自定义，使用企业内部数据，执行特定域的功能
- 具有一定创造力

因此生成式AI
- 体验，创造产品与客户互动的全新、吸引人的、创新方式
- 效率，从根本上提高业务效率
- 总结，从企业信息中提取见解和答案，快速做出决策
- 创新，经由训练和提示，创作新内容和新想法生成式AI参与者

- LLM，Large Language Model，大型语言模型，具有数十亿参数 (B+) 的预训练语言模型 (GPT-3, Bloom, LLaMa, GLM)；用于各种自然语言处理任务,如文本生成、机器翻译和自然语言理解等。
- P. Model Provider，从零开始预训练大型模型 (FM, LLM)，供下游使用。专注于训练具有超过上亿级别参数的Transformer和 Diffusion模型，如 (GPT 类,Stable Diffusion, Bloom, XLNet, LLaMa, OPT, GLM, etc.)
- T. Model Tuner，从Model Providers 购买预训练模型或者使用开源模型 (LLM, FM) 并进行个性化定制 (Fine-Tune)，结合特定行业或者细化市场为最终用户构建产品和解决方案，通常是 SaaS 类服务
- C. Model Consumer，直接使用预训练的模型 (LLM, FM, Fine-Tune model) 提升 Application 的使用体验,提升业务价值。不对模型本身进行训练和定制，而是选择现成的AI产品或者模型。 LLM，大语言模型 -- 陌生领域。。。后续补充

2. 生成式AI核心

Transformer

- 转换器
- 一种神经网络架构
- 用于机器翻译等自然语言处理任务
- 设计之初用来解决机器翻译问题
- 由一个输入序列转换成一个输出序列
- 理论上能够接受任意长度的句子输入 Attention

- 专注机制
- 计算权重
- Transformer架构中的核心组件
- 生成阶段，让模型能够关注到输入序列中最相关的部分
- 对token在上下文中的语义做编码，分别计算每个token对句子中的其他token的权重表示
- Self-Attention ???
- Encoder-Decoder Atttention ???

3. 生成式AI存在的问题

生成式AI产生的内容引发的著作权和知识产权问题安全问题

- 提示词注入 ???
- 数据泄露
- 不完善的沙盒隔离
- 非授权代码执行
- SSRF漏洞 ???
- 过度依赖LLM生成内容
- 未充分对齐 ???
- 访问控制不足
- 错误处置不当
- 训练数据投毒数据操纵

- 恶意用户深度通过操作数据输入，干扰AI模型的输出
* 通过数据验证，确保输入数据的完整性和真实性
* 用户身份验证，防止恶意用户干扰
- 生成式AI输出可信度不足
* 输出验证，评估生成内容可信度
* 用户反馈，改进输出质量恶意使用

- 提示注入，误导 -> 对提示方法、敏感词进行过滤
- 提示泄露，挖坑、诱导性提示，导至敏感、安全信息泄露
- 越狱 ???，利用漏洞，非法访问

4. 遗留问题

LSTM Word Embedding Self-Attention ??? Encoder-Decoder Atttention ??? 生成式AI模型分类生成式AI带来的安全问题