ChatGPT背后的创新支持机制及对我国的启示
2022年11月30日,美国人工智能研究机构OpenAI发布了基于大型语言模型的聊天机器人ChatGPT。ChatGPT能够准确理解用户的发问,生成接近于人类语言水平的高质量回答,并联系上下文进行多轮互动对话,是人类迈向通用人工智能的重大进展,吸引了从工业界、学术界到普通用户的广泛关注。发布仅2个月后,ChatGPT的全球月活跃用户就突破了1亿,打破了TikTok之前创造的纪录,成为史上用户增长速度最快的消费级利用程序。ChatGPT的出现,是OpenAI所实行的一系列创新支持机制综合作用的结果。我们需理性认识技术发展规律,积极鉴戒其创新支持机制,加强国家层眼前瞻性布局,推动人工智能关键核心技术突破。
一、ChatGPT的发展与特点
2018年,OpenAI提出了名为GPT(Generative Pre-Training Transformer,生成式预训练变换器)的大型语言模型,并开始不断对GPT模型进行优化迭代。2019年2月,OpenAI发布了GPT⑵,提升了模型大小和训练数据量。2020年5月,OpenAI发布了GPT⑶,可以根据用户的简单描写,生成代码、网页,撰写文章或新闻,还可以编写诗歌和音乐。2021年至2022年,OpenAI继续对GPT⑶模型进行微调,发布了WebGPT、InstructGPT等一系列GPT⑶的变体模型,这些模型统称为GPT⑶.5。2022年底,OpenAI将GPT⑶.5模型利用到对话(Chat)任务领域,发布了对话机器人ChatGPT,引发了全球通用人工智能热潮。
(一)基于长时间主义的技术线路选择
GPT并不是自然语言处理领域的唯一知名模型。谷歌公司2018年底推出的BERT模型(Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示)一直是GPT的强大竞争对手。BERT和GPT的结构和训练方法都非常类似,在自然语言处理领域也一样获得了优秀的表现。但是,GPT被设计为统筹自然语言理解和自然语言生成两种任务,而BERT只专注于履行自然语言理解任务。区别的任务导向,决定了二者在技术线路上的分野。
直到本次GPT大火之前,过去的五年中,全球自然语言处理领域的主要热门方向一直是BERT。2019年,BERT相关论文发表数量就有近200篇。由于GPT模型训练工作难度更大,在自然语言理解任务中的表现也相对较难产生阶段性成果,因此,它的研发团队论文发表数量很少。OpenAI没有寻求短时间论文发表数量,而是秉承长时间主义,多年如一日、“甘坐冷板凳”,对GPT模型进行研究攻坚。ChatGPT的成功,不单单是一项具体技术的进步,更是OpenAI在大型语言模型发展方向上坚持长时间主义,进行战略布局并耐心坚守的结果。
(二)量变引发质变的建模方式
决定GPT等深度学习模型能力上限的,主要是模型大小和训练数据集两个因素。模型大小就像模型的“学习潜力”,一般用参数量来衡量,参数越多、模型越大越复杂,可实现的智能上限越高。训练数据集作为“学习教材”,其具体内容的数量和质量都非常重要,会直接影响模型实现的效果。
OpenAI在对GPT系列模型的迭代更新进程中,不断将模型范围推至极限。GPT⑴模型中,人工神经网络的堆叠层数为12层,参数范围为1.17亿个,训练数据集范围为5GB。GPT⑵将人工神经网络堆叠层数增加到48层、1600维度,参数范围扩大到15亿个,训练数据集范围为40GB。GPT⑶的参数范围更是高达1750亿个,是最大的BERT模型(3.75亿个参数)的470倍,光是模型本身就需要700GB的硬盘空间来存储。GPT⑶的训练数据集也是范围空前,已扩大到了45TB,训练时间需耗费1920个显卡小时,相当于一块高端专用芯片昼夜不停工作80天才能完成对数据的学习。
2022年,谷歌公司在《大型语言模型的出现能力》论文中对GPT⑶的发展进行了研究,发现参数范围超过某一个临界点后,它的模型能力开始呈指数型爆发式增长,并出现了一些不可预测的“高级”能力,包括类比推理、抽象模式归纳、词义消歧、人类情感理解等137项能力,在部份任务上已展现出了类似乃至超出人类的准确性。
(三)算力合作等业务协同模式
算力是人工智能发展不可或缺的基础设施。ChatGPT所依托的深度学习算法触及较多的矩阵或向量运算,计算量大、计算进程复杂,模型训练和运行都需要大量高端专用芯片。随着技术进步,算力需求还在飞速提升。2018年,OpenAI发布的分析报告提出,自2012年以来,人工智能算法训练所需要使用的算力呈指数增长,每3.4个月增长一倍,即每一年增长10倍。
为了解决算力问题,OpenAI和全球数字巨头微软围绕云计算业务进行了合作。从2016年10月起,微软的Azure云计算平台成为OpenAI运行深度学习大范围实验的主要云平台。微软为OpenAI提供了充足的高端专用芯片,创建了超级计算集群,并开发了多种软件,为OpenAI旗下产品的模型训练提供了全方位的云服务配套支持。在微软的算力支持下,GPT系列模型快速迭代升级,并迅速落地转化,成为人人都能用上的利用服务。OpenAI获得技术进步后,发布的工具和服务集成在微软Azure Cloud平台中,反向带动了微软云计算业务的发展,获得了极好的协同效应。
二、OpenAI的创新支持机制
(一)高精尖人材团队
顶尖人材对人工智能发展的作用相当重要。OpenAI联合开创人、首席履行官山姆·阿尔特曼(Sam Altman)从斯坦福大学停学后,28岁创建创业孵化公司Y Combinator,29岁创建OpenAI。他坚持将通用人工智能作为OpenAI的目标,并努力寻求理想和盈利之间的平衡,是保持OpenAI运营的灵魂人物。
GPT团队中有多位全球人工智能领域顶尖专家。OpenAI联合开创人、首席科学家伊利亚·苏茨克维(Ilya Sutskever)是深度学习领域的权威,带领研究团队肯定了GPT的研发方向。GPT⑵论文第一作者亚历克·拉德福德(Alec Radford)曾在图象生成领域提出了著名的DCGAN模型(Deep Convolution Generative Adversarial Networks,深度卷积生成对抗网络)。华人杰弗里·吴(Jeffrey Wu)是GPT⑵和RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习技术)两篇论文的第三作者,也是GPT⑶论文作者之一,对GPT系列模型研发作出了重要贡献。
GPT的成功更是庞大顶尖人材团队群策群力和共同努力的结果。OpenAI的绝大多数成员都具有斯坦福大学、麻省理工学院等世界顶尖名校教育背景,和谷歌、苹果、英特尔等世界顶尖科技企业工作经历。这为GPT模型能延续迭代直至成功,奠定了重要的人材基础。GPT⑶的论文署名作者多达31位,另外一项关键技术RLHF的论文署名作者也到达了20位,充分体现了团队协作的气力。
(二)工程化研发流程
OpenAI在运营模式上的一个重要创新,是将算法研究与软件工程相结合,采取工程化思惟推动技术迭代。OpenAI联合开创人、现任总裁格雷格·布洛克曼(Greg Brockman)表示,OpenAI从成立之初,就在打造一支“能将软件工程与算法研究相结合的团队”。ChatGPT的研发流程也一样显现出了工程化的特点。ChatGPT团队进行了业务拆分和流水线分工,组建了模型构建、模型预训练、数据整合与标注、模型微调、安全等多个小团队,区别团队各司其职、相互配合。同时,团队接受伊利亚·苏茨克维等人的统一领导,以确保软件工程的开发效力。
通过人工数据标注改进模型效果,是ChatGPT工程化研发模式的重要体现。OpenAI曾公然表示,ChatGPT在GPT⑶.5模型的基础上,依托大量人工标注数据进行了微调。据美国《时期周刊》报导,2021年底,OpenAI与Sama公司签署了约20万美元的数据标注外包合同,Sama公司雇用了大批肯尼亚劳工负责筛除数据集中的攻击性言论等不恰当内容。另外,OpenAI投入了数十位具有博士学历的专业人材,负责人工给出相应指令或问题的高质量答案,再基于这些数据调剂GPT⑶.5模型,以确保ChatGPT能够更好地理解人类意图,输出更接近于人类语言水平的回答。这也印证了当前阶段人工智能界的普遍说法:“有多少人工,才有多少智能”。
(三)组合型融资方式
OpenAI成立之初是非营利机构。由于人工智能算法训练所需研发投入极高,非营利机构的组织情势难以取得充足研发资金,2019年3月,OpenAI进行了重组,创新设立“捐赠+投资”的融资结构,在保持非营利机构定位的同时,创建了“有限盈利”子公司OpenAI LP负责筹集资金。
OpenAI LP成立后,于2019年接受了微软10亿美元的投资,2021年和2023年1月,又分别接受了微软追加的20亿美元和100亿美元投资,同时给予了微软一定股分和部份知识产权。双方约定:如果OpenAI没有取得盈利,微软的130亿美元就算为捐赠;如果取得盈利,在OpenAI的首批投资者收回初始资本后,微软有权收回投资资本,然后继续参与分红,直到分红利润到达920亿美元上限为止;尔后微软所持股分重新归还给OpenAI LP。
这类“捐赠+投资”结构,在保证融资的同时,确保了OpenAI技术团队的研究方向不受盈利目标压力和股东意愿影响。充裕的经费保障了人材招聘和研发所需的巨额开消。OpenAI人员工资和福利支出从2016年的700万美元提升至2022年的8900万美元,同期计算和数据支出从不到400万美元提升至4.16亿美元。对微软来讲,支持OpenAI也是一个重要的战略性选择,得到的投资回报是巨大的。微软旗下的必应搜索、Office办公软件、云计算业务都整合了OpenAI的技术,取得了更大的市场份额和盈利空间,还享有收回投资和未来分红的可能性。
三、启示与建议
可以预期,以ChatGPT为代表的新一代人工智能技术,将带来生产力的大幅提升,重构社会经济活动的各个环节。为更好应对新一轮科技产业革命和日趋剧烈的国际竞争带来的挑战,国内相关机构应当高度关注ChatGPT后续发展和利用拓展,大力提升人工智能领域技术水平和全球影响力。OpenAI的一系列创新支持机制,对我国科技发展战略、科研体制机制、算力基础设施、技术国际合作等的改革创新,均具有重要的启发和鉴戒意义。
首先,要紧跟全球人工智能技术发展大势,加速推动关键核心技术攻关。要积极抢抓新一轮科技革命和产业革命战略机遇,充分认识技术发展本身规律,发挥新型举国体制作用,依托重点高校、科研机构和创新型企业,加大对人工智能基础性研究、长周期研究、重大疑问问题研究的综合支持力度。鼓励企业参与科技顶层设计和重大决策,对未来技术方向展开更多前瞻性的预研预判。
其次,要创新支持前沿技术发展的体制机制,鼓励有条件的新型研发机构创新组织架构和融资模式。加大对企业成为科技创新主体的支持,创造稳定政策环境,鼓励企业充分利用广阔的国内市场空间和成熟的商业利用场景,构成产业“飞轮效应”。加强核心技术领域人材培养教育,提高高精尖人材福利待遇,优化国际高端人材引进和服务机制,吸引更多人材回国发展。探索首席科学家负责制,赋予科研人员更大的技术线路决定权和经费使用自主权。
再次,要延续优化国内互联网基础设施,优化国内算力产业发展的整体布局。推动全国算力范围化集约化发展,布局算力关键和数据中心集群,支持“东数西算”工程建设。提高算力绿色低碳水平,下降用电价格和碳排放本钱。支持创新合作模式和合作机制,推动网络、算力、数据等各方面资源协同。
最后,要建设开放的国际技术合作生态,鼓励开源技术社群社区发展。积极其国内科研人员展开跨国、跨机构的交换创造便利条件。支持国内高校、科研机构、企业联合海外机构展开研发合作,积极引进国际先进技术和产品。支持企业以市场化方式对接国际先进资源,延续优化跨境投资布局,支持我国具有相对优势的人工智能技术和产品走出去。
张华珺 谢琳灿(国家发展和改革委员会国际合作中心)/ 文,首发刊载于《科技中国》2023年第4期 特别关注。