一、通用型AI

在我们原始的幻想里，AI是基于对海量数据的学习，锻炼出一个无所不知无所不能的模型，并借助计算机的优势（计算速度、并发可能）等碾压人类。

但我们目前的AI，不管是AlphaGo还是图像识别算法，本质上都是服务于专业领域的技术工人。

而GPT目前看似只能解决自然生成领域的任务，但实际上，他展现出了通用型人工智能的潜力。

在前面，我们讲过，目前而言，BERT擅长自然语言理解类任务（完形填空），GPT擅长自然语言生成类任务（写作文）。

但在Google的FLAN-T5模型上已经实现了两类任务在输入输出形式上的统一，从而使得用GPT来做完形填空成为可能。也就是可以用一个大模型来解决所有NLP领域的问题。

二、提示词模式更有优势

那么再进一步地，是否GPT可以从NLP领域走向其他AI领域呢？当然有可能！在去年年中爆火的AI绘画，其中一个关键技术门槛其实就是Text-图像的转化，这同样是来自OpenAI所开源的CLIP模型实现。

因此GPT在图像领域的能力同样也令人期待。同理在多模态如音频、视频，本质上也能转化为Text-everthing的问题去求解，从而让大语言模型发挥成吨的威力。

当然你可能会问，那么只要大语言模型就可以呀，为什么是GPT，而不是BERT呢？接着往下看。

事实上，BERT的fine-tuning模式有两个痛点。

我需要准备某个专业领域的标注数据，这个数据还不能少，如果太少，AI模型训练后就会形成过拟合（就是AI直接背下了整本习题册，册里的问题100%正确回答，但是稍微变幻题型就GG）。
我需要部署大语言模型，才能对他进行进行微调，那么部署大语言模型的成本，甚至进一步对他进行微调的能力，并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。

而Promot模式恰恰相反，不需要太多的数据量，不需要对模型参数进行改动（也就意味着可以不部署模型，而是接入公开的大语言模型服务）。那么他的调试就会呈现百花齐放的姿态，玩家越多，创造力涌现就越猛烈。

这里的人机交互，指的是人-模型之间的交互。