ChatGPT is not all you need. A State of the Art Review of large Generative AI models
Generative AI可以有效且创造性的完成一些工作。在文本,图片, 视频方面。
文本到图片:DALLE-2 model ;文本到3D图片:Dreamfusion model;图片到文本:Flamingo model
文本到视频:Phenaki model;文本到语音:AudioLM model; 文本到文本:ChatGPT
文本到代码:Codex model;文本到scientific
text: Galactica model ,
AlphaTensor(创建算法 通过强化学习发现更快的矩阵乘法)
生成式AI是生成新颖的内容。不是像专家系统一样简单分析或作用于现有的数据。 专家系统包含知识库和if else的推理引擎。
生成式模型不同于预测机器学习系统解决分类回归问题。生成式AI可以理解并且生成对应的信息。
generative ai不会取代人类,而是会增强人类创造的内容,成为灵感来源。
Generative AI模型分类
- 根据输入和输出的类型进行分类,如上提到的,文本到图像,文本到文本,文本到代码等
- 相关模型都是最近发布的。除了2021年发布的LaMDA和2023年发布的Muse,其他都是2022年发布的。
- 只有六个organizaiton支持部署这些模型。 这类模型部署需要强大的计算能力和数据科学,数据工程方面高熟练度和经验丰富的团队。微软向OpenAI投资了10亿美元,帮助开发模型。 Google 在2014年收购了Deepmind,VisualGPT由KAUST,Garnegie Mellon University 和 NanYang Technological University. Human Motion Diffusion Model由Tel Aviv University, Israel. 其他模型由公司和大学合作开发的。 Stable Diffsion(Runway, Stability AI and LMU MUNICH) ,Soundify (Runway and Carnegie Mellon University) , DreamFusion (Google and UC Berkeley)
Generative AI models categories
Text-to-image models
DALL E2 :Openai创建的,使用了CLIP(contrastive language-image pre-training),在(image,text)上进行训练的网络。
IMAGEN:包含了一个大语言模型。该模型发现文本通过语言模型映射进行图像合成比增加扩散模型的大小更能提高样本保真度和 对齐(图像文本对齐)
Stable Diffusion:使用了latent-diffusion model。开源的。模型包含两部分text encoder和image generator。
Muse:SOTA模型。 trained on a masked modelling task in discrete token space.推理速度很快。
Text-to-3D models
Dreamfusion:谷歌开发,
Magic3D: Nvidia制作,两个问题:处理时间长,生成的图像质量较低
images-to-text
Flamingo:deepmind
VisualGPT: (openai GPT2) In order to bridge the semantic gap between different modalities, a novel encoder-decoder attention mechanism
text to video models
Phenaki: google
Soundify: 音效,视频相匹配
text to audio model
AudioLM: 效果人类无法分辨出合成样本和真实样本
Jukebox:openai 生成音乐
Whisper:openai
text to text model
chatgpt : openai
LaMDA:google
PEER:Meta AI
Meta AI Speech from Brain: 用于帮助无法通过语音、打字或手势进行交流的人
Text to code model
Codex: openai 在GPT3上进行微调。
Alphacode:715.1 GB的代码数据训练。为需要更深层次推理的问题生成代码的系统
text to science models
Galactica: 该模型可以执行涉及SMILES化学公式和蛋白质序列的多模态任务
Minerva:能够通过逐步推理解决数学和科学问题的语言模型,解决了定量推理问题