互联网资讯

打造中国版GPT-3：实现万能AI的秘诀

2023年11月6日 · admin

既能问答、翻译、写文章，也能写代码、算公式、画图标……OpenAI 2020 年 5 月推出的 GPT-3，因其神奇的通用性而走红 AI 领域。

如何打造中国版的“万能AI”GPT-3 GPT-3 支持输入自然语言自动生成公式

GPT-3 是用英文语料做预训练的，主要应用于英文相关场景，而中文业界和学术界已经出现了期待中文版 GPT-3 的声音。

出门问问一直对更加通用的语言智能很感兴趣。团队正深入理解 GPT-3 的相关论文，推进相关实验，尝试提升训练效率等工作。

如何打造中国版的“万能AI”GPT-3

如何打造中文版 GPT-3？

那么，如果要打造一个中文版的 GPT-3，该怎么操作？

与英文相比，中文版 GPT-3 的诞生将经历一个从零到一的过程，可以借鉴英文 GPT-3 技术迭代的相关经验。GPT-3 的技术迭代之路，是一个不断增大训练数据量和模型参数规模的过程。

本质上，GPT-3 是一个大规模预训练 NLP（自然语言处理）模型。大规模预训练是指，先用大量没有标注的语料做无监督学习，得到一套模型参数，然后再用少量标注语料精调，最后应用于具体的下游 NLP 任务。这种模式已经诞生了不少成功的 NLP 模型，如 Google 2018 年推出的 BeRt，但其通用性上依然不足。直到 GPT-3 推出，让这类预训练模型的通用性上了一个台阶。

从 GPT 第一代到 GPT-3，其模型层面一直都是基于 TRansfoRMeR（一种领先的提取语义特征方法）做预训练，没有什么改变，但训练数据量和模型规模十倍、千倍地增长。

2018 年 6 月发布的 GPT 第一代，预训练数据量仅为 5GB。GPT-2 增长为 40GB，GPT-3 更是猛增到 45TB（等于 45000GB）。而模型规模方面，从 GPT 第一代的 1.17 亿参数量，指数增长为 1750 亿。

如何打造中国版的“万能AI”GPT-3

随着数据量和模型规模的增大，GPT 逐渐舍弃了用少数标注语料精调这一步，完全基于预训练得出的参数，去做下游任务，精确度依然有一定保证。

GPT 所需算力也越来越夸张，初代 GPT 在 8 个 GPU 上训练一个月就行，而 GPT-2 需要在 256 个 Google Cloud TPU v3 上训练，训练时长未知。到 GPT-3，预估训练一个模型的费用超过 460 万美元。

相应地，参与到 GPT 论文的作者从初代的 4 位，增加到第三代的 31 位。并且，31 位作者分工明确，有人负责训练模型，有人负责收集和过滤数据，有人负责实施具体的自然语言任务，有人负责开发更快的 GPU 内核。

如何打造中国版的“万能AI”GPT-3 GPT-3 的论文足有 31 位作者

借鉴 GPT-3 的迭代经验，李志飞认为开展中文 GPT-3 模型训练比较合理的路径是：从中小规模的模型入手，开展研究及实验，达到一定效果后再推广到大模型上进行验证。

至于人力方面的配置，他表示 GPT 是一个非常综合的大系统工程，涉及到学术、工程、商业等团队之间的大规模协同。一般需要搭建几十人的团队，其中包括科学家、工程师、项目经理等角色。

虽然可以借鉴英文 GPT-3 技术迭代的相关经验，但是在创建中文版 GPT-3 的过程中，也需要解决很多独特的问题，如中文训练数据、算力等。

一方面，我们需要将更多的时间精力，投入在高质量、多样性的训练文本的获取上。另一方面，计算的效率问题，也是目前大规模深度学习模型训练所面临的共同挑战。

从总体规模、数据质量及多样性上看，目前能够从互联网上获取到的高质量中文数据，相比英文数据要少一些，这可能会影响到中文模型的训练效果。不过，从已有的研究分析结果来看，数据并非越多越好。

我们可以结合数据优化、数据生成等方式来提高训练语料的有效性。初步来看，具体训练语料，主要包括百科问答、新闻资讯、博客电子书类数据及其它泛爬数据，经过数据处理后其规模在 500GB 左右。

GPT-3 模型参数到达 1750 亿，其背后训练资源的开销非常庞大，预估训练一个模型的费用超过 460 万美元。不过，随着国内外各项研究的推进，预训练模型的训练效率将会不断提升。

我们可以借鉴其他预训练语言模型的优化经验，在训练语料、网络结构、模型压缩等方面多做工作，预计将模型的单次训练成本降低一个数量级。

看上去，构建中文 GPT-3 是一件很费劲的事情，但这项工作带来的回报也非常可观。GPT-3 展现出的通用能力，可以将其视为下一代搜索引擎和 AI 助理，所以这项技术本身的商业应用场景可以很广阔。

其次，构建 GPT 模型的过程中，将涉及到超算中心和AI算法平台的建设，这些算力和算法平台可以为企业、科研机构、政府提供底层服务，通过开放平台为产业赋能，如智能车载、智慧城市、科技金融等领域。

另外，虽然 GPT 本质是一个关于语言的时序模型，但语言之外的其它时序问题，如经济、股票、交通等行为预测，也有可能成为潜在应用场景。

GPT-4 可能如何演化？

GPT-3 目前的表现虽然令人震惊，但它本身还存在着很多问题，比如它并不能真正理解文本的含义，只是对词语进行排列组合。而且，研究员也并未完全了解它的工作机制。

毫无疑问，GPT-4 模型会更加暴力。

目前的 GPT-3 模型还严重依赖小样本学习机制。

下一代的 GPT 模型极有可能是一个多模态的模型。

如何打造中国版的“万能AI”GPT-3

另外一个重要的进化，是引入学习反馈机制。

李志飞还认为，GPT-4 可能引入任务执行能力。

总体而言，李志飞对 GPT 的未来发展非常乐观。