基于GPT-X的商品文案和图片生成实践
导读 本文将分享数元灵近期基于AIGC在电商领域的文案生成和图象生成方向的实践,主要内容包括以下几大部份:
全文目录:
分享佳宾|孙凯 数元灵 首席科学家
编辑整理|扈应 贵州大学
内容校订|李瑶
出品社区|DataFun
导言
2022年是AI历史上具有里程碑意义的一年,AI发展为作家、画家、音乐家、导演等,特别是ChatGPT让AI完全出圈,不断有非计算机专业的人谈论AI会不会能够颠覆已有的模式。ChatGPT同样成为继抖音以后,最快的月活过亿的产品。
先回顾一下过去十年来 AIGC 领域中比较重要的工作。2013年至2017年主要处于基础理论逐步完善的阶段,在这个阶段VAE、GAN、Transformer等深度神经网络横空出世,处于基础组件逐步诞生和完善的阶段;2018年至2021年,超大范围的模型逐步流行,多模态逐步融会,并且大语言模型的预训练的学习方式成为可能, Few Shot Learning和Incontext Learning等学习范式被提出;从2022年到现在处于第三个阶段,AIGC集中爆发,模型效果的真实性、计算效力全面提升。最近,微软发表文章说明大模型能力出现,能人工智能已开始出现。
02
商品文案生成
产品文案对电商导购进程是非常重要的,由于很多购物者可能首先会被产品的标题所吸引,很多的售后问题可能源于产品的描写毛病(产品与描写不符)。但是,编写产品的文案是一件使人头疼的事情,由于好的文案需要首先了解人群的画像,还需要很多SEO的技能,想要延续产出高质量的文案需要投入大量的人力。
随着AI技术的发展,自动生成高质量的产品文案,不但可以满足客户的需求,还可以延续追踪热门事件,不断提升文案的质量和稳定性。
下图右边是两个例子,一个是传统的衣饰电商,另外一个是酒旅行业。客户只需给生产品的特点,大语言模型技术直接生成相应的文案。
那末该如何定义该问题?以民宿文案设计为例,在实际的利用中,原始数据多是一些结构化或非结构化的数据,客户可能也不清楚产品的卖点是甚么。怎么做卖点提取,卖点提取以后如何生成标题。这些都需要其它技术参与。
由于今天分享的是AIGC的方向,所以主要聚焦于卖点已知的情况下,如何生成较好的文案。如客户只需要简单地输入房型、风格等特点的描写,模型就可以够辨认出其中比较重要的信息,并以比较不错的文彩对产品的标题或描写进行润饰或生成。
几年前,我们也尝试过使用基于模板的方式做类似的任务。做法是首先提取产品的知识,对知识进行结构化处理,构成知识图谱。在知识图谱的基础上,做核心卖点的选择、模板的选择和卖点的填充。这类做法主要基于模板实现,受限于模板数量和人为的总结,相对来讲比较死板。
结合近期技术的进步,我们斟酌结合纯洁的生成式语言模型的方案会不会可行。特别是在ChatGPT出来以后, GPT系列的模型已可以帮助人们实现一些评论、邮件的写作,因此斟酌使用类似的生成模型完成上述的任务。在初步的实验后,获得的效果比基于模板的结果更好。在这以后,我们又进行算法上的迭代。在深入这部份内容前,我们先来回顾一下 GPT 系列模型的基本原理。
在正式介绍具体的技术方案前,先介绍一下GPT的原理。GPT的核心思想比较简单,即人类的知识包含于人类的语言中,如果能完善地预测下一个词,那末模型也能够摹拟人类的思惟,也就具有了智能。假定当n=t时,可知,当n=t+1时,也能够预测。任何与语言相关的任务,可以抽象为这类生成任务,都可以用语言模型的方式求解。
但和数十年前的语言模型区别的是,现在的语言模型通过大范围Transformer的深度神经网络进行建模。好处是:
可以更准确地建模下一个词的几率;
可以进行高效的模型训练和推理;
可以解决基于长距离的语义依赖。
由OpenAI的技术迭代进程可以发现,不但模型的范围愈来愈大,数据的范围也在增加。在大范围语料数据、大范围模型的基础上,模型的能力也愈来愈强,发展到GPT⑷不但可以处理文本语言,也能够处理多模态的数据。由于 GPT⑷从公然的资料中能获得的信息非常有限,这里仅罗列一下 GPT⑶.5 之前OpenAI推出的模型相关参数(GPT⑶.5是OpenAI推出的一列模型,ChatGPT 又称 GPT⑶.5-Turbo,但不在此表中)。
去年年末,OpenAI又提出了ChatGPT(GPT⑶.5-Turbo)及人工强化学习反馈的技术,对全部社会造成了巨大的影响。通过该技术,实现AI对齐人类偏好的能力。ChatGPT之前的模型已具有了很好的文本生成的能力,但是生成的文本和人类的偏好没有对齐,ChatGPT主要针对人类的偏好进行对齐。
这个训练进程主要分为三个阶段:
SFT阶段: 使用人工续写数据对text-davinci-003模型进行有监督微调;
RM阶段: 人工标注排序数据,使用pairwaise ranking 模型训练嘉奖模型;
RLHF阶段:使用强化学习PPO微调大语言模型。
需要说明的是,斯坦福大学在羊驼的基础上,使用Self-Instruct技术进行训练,并没有使用RLHF的训练方式,获得的效果也不错。
近期的一篇综述文章,调研了超100亿参数范围的语言模型迭代路径。为何是100亿?模型在100亿参数时会出现出现的能力,而这在之前的小模型中是不存在的。实验发现,模型在60⑺0亿参数量时,模型的能力会显著提升,这也是ChatGPT或类似模型有如此强大的功能的基础。
这里主要包括了以下因素有哪些,首先是In-Context learning,即上下文学习,是OpenAI提出的一种模式,不需要梯度更新,只需给出一些例子,模型能够知道该例子的含义,对新的任务,模型能够给出不错的预测结果。第二是Instruction Following,模型能够听懂指令,例如,给出指令:帮我写代码,模型能够给出较好的response。最后就是Step-by-step reasoning,之前的语言模型在解数学题时表现不好,谷歌提出了train of source的工作,使模型可以一步步地学习,在常识推理、逻辑推理及数学题中表现较好,这也是大模型在100亿参数量的基础上可能会出现出来的能力。
由于算力的限制,我们首先在GPT2的基础上进行微调,发现效果比基于模板的结果更好。但在其中也发现了一些问题,生成的信息虽然多样、丰富,但只能产生较高频的内容,对低频的内容效果较差。由于对民宿来讲,这是一个非标品,如果所有的文案都讲述相同的内容,其实不能有效地吸引客户。因此,在这基础上,希望模型能够对齐人类的偏好。因此,在GPT2的基础上,做了第二阶段的优化,将其利用于生成任务。
受限于当时的解决方案及算力的影响,效果不太理想。因此,参考了ChatGPT的训练方式,采取三阶段进行训练。首先,搜集质量较好的数据,对模型进行微调。其次,使用模型生成数据样本,并对这些数据进行排序。最后,利用排序完的数据对模型进行第二次的微调。在训练两轮后,发现模型收敛的效果还比较不错。
以下是一些结果的Case分析,对照于GPT2的微调模型来讲,改进后的方案能够辨认特点卖点,并且在排序上能够更加突出这类卖点。这相当于模型对齐了人类的评估标准。
我们的方法首先是基于GPT2的模型进行微调,模型范围较小。其次,我们的任务更加简单,只限于文案的生成。在第一阶段,ChatGPT采取人工标注的方式,我们的方案选用的是精选数据集,由于我们的场景,可以更高效的获得监督数据,因此该阶段无需人工标注。在第二阶段,也基于pair-wise损失训练了ranking的模型。在第三阶段,基于大范围的数据标签进行两轮微调。
03
商品图象生成
1.为何需要AI生成产品图片
在电商领域,图片是非常重要的,但是实际的拍摄进程是非常复杂的,本钱也比较高,但产品的迭代时间却比较短,对图片有大量的优化的需求。基于AI,以相对简单的文本束缚的方式,生成产品图片,特别是对衣饰产业,可以大量缩短图片生成的时间,下降原流程的时间、本钱。因此,我们在这个方向上进行探索。
首先介绍部份关于文本生成图象的一些具有里程碑意义的工作。2021年,DALL-E 1的出现具有划时期的意义,使得从文到图的生成模型具有商业落地的潜力。以后,不断有人在这一领域进行研究,包括DALL-E 2,不但实现了效果的提升,还下降了参数量。Stable Diffusion的出现也是石破天惊的一项工作,不但生成的效果好,而且可以在消费级的显卡上工作,下降了AIGC的门坎。最近非常火爆的LoRA技术,不但可以在消费级的显卡上使用,还可以对模型进行微调,更加下降了参与的门坎,促使大量的人和资本涌入这一领域。
这里以人像等自动生成为例,我们可以看到:从21年的VQGAN-CLIP到Stable Diffusion的快速演进,技术正在快速进步。而近期的ControlNet可以根据人的姿式或线光图直接生成结果,这更是具有了商业落地的可能性。
Stable Diffusion的思路比较简单,相当于使用U-Net预测噪音,即不断在原图的基础上增加噪声,将带噪音的数据作为输入,使用U-Net预测原始图象及加噪声的进程。通过这类模式,使通过噪音生成图象称为可能。
在Stable Diffusion的基础上,还提出使用隐向量的训练方式。本来的Diffusion加噪音的进程作用于图片,即中间进程和原始进程接近。而隐分散模型使用Auto Encoder将中间进程映照到隐空间中,这有益于将中间进程进行降维计算,在高维空间进行解码,这也是它能够支持大分辨率图象,下降显存计算资源的主要缘由。
对文字部份的编码,Stable Diffusion引入了CLIP,并通过cross attention的方式融入模型中。使用CLIP对Prompt进行编码,通过U-Net、cross attention作为控制条件引导图象的生成进程。总的来讲,Stable Diffusion通过构建LDM,解决了直接在高维空间进行计算带来的资源消耗和精度控制的限制,并且获得了非常好的效果。最关键的是,全部结构可以在消费级的显卡上进行使用,极大地增进了AIGC行业的发展。
在Stable Diffusion以后,最近也有许多相关工作的迭代,包括Textual Inversion、DreamBooth、ControlNet和LoRA,这些模型使得生成的图象更加逼真,并且用户可以提供更多的控制条件,微调训练的速度更快,微调的参数量更少,需要的显存更少。
8.AI Writer图片生成展现
我们在这方面的工作主要集中在电商的图片生成,如提供一些商品的买点关键词,然后由模型自动生成相应的图片。
具体做法是:采样Stable Diffusion模型进行微调,主要微调CLIP部份。首先爬取电商数据,在此基础上,通过用户的评论数量、收藏数量、成交等信息进行挑选,然后,使用CLIP对这些内容进行打分,保存标题和图片相关度较高的数据作为训练集进行训练。
原始的电商衣饰产品图片制作流程包括:摄影师拍照,模特摆拍,美工后期处理、交付等,使用模型进行图片生成,可以避免去模特、摄影师本钱,可以根据运营需求及时调剂。
经过我们对市场的调研,发现电商行业内对图片素材的自动生成需求很大。但从技术上来讲,目前全部图片生成的工作还处于探索阶段,虽然流程已买通,但是对质量要求较高的图片的生成还有一定的局限性。这个领域的进展非常快,我们也在不断的吸取经验,不断迭代优化,就目前而言,小图、概念图、缩略图的生成结果较好,高清大图还很难一次成片。
04
结语
文章开头回顾了近期文本、图象等相关领域的重要工作,讨论了大模型在电商领域带来新的机遇与挑战;随后,我们介绍了数元灵在电商文案生成基于GPT 模型的实践,对照区别版本的模型的迭代效果并进行了分析;最后,介绍了数元灵在电商图象生成基于Stable Diffusion 的实践。
AIGC目前的发展速度很快,未来我们也可能基于最新的技术进展进一步迭代模型。新技术得出现,让之前可能需要非常大计算资源才能做的产品,现在可能不需要那末多资源也能启动。
下面谈一下针对电商领域,AIGC可能会带来以下变革:
导购链路:比如和OpenAI合作的Shop,以对话的情势进行交互,客户提出想法、需求,模型推荐区别的产品,新的技术出现让这类产品交互模式成为可能。
制造和供应链:虽然对质量较高的图片生成,目前的技术还不能实现。但对制造方向,如CALA可以生成设计图,这能够下降服装设计的门坎,下降设计的本钱。
运营效力:如AI Writer可以自动生成多条运营文案,运营同学可以调剂生成的因子,挑选适合的文案。这类方式能够下降运营本钱,提高运营效力。毕竟选择题要比主观题做起来容易很多。
下图中的网站给出了许多的大模型利用场景,不单单局限于ChatGPT,还有Bard等。
目前,在国内做通用大模型或国产的ChatGPT可能其实不是一个最优的选择,由于这需要大量的积累,对我们普通创业者和开发工程来讲,可能会有以下机会:
解决大模型其实不善于的事情,如处理长文本,更及时地知识的更新等;
基于大模型改造既有业务,包括电商行业或其他行业,可能每一个行业在这个时期都会重新做一遍;
大模型时期的Linux社区,目前开源社区已是遍地开花的状态,大语言模型的iPhone时刻已过,相信Android时刻未远也!
05
Q&A
A: 这需要根据模型的大小来肯定,就目前来看,如果模型的参数小于100亿,不太可能出现通用的能力,对世界知识或指令的理解、推理能力比较差,最少可能需要60⑺0亿参数的模型才会逐步出现这类通用的能力。
A:这也是我们正在做的事情,目前是通过Prompt引导模型生成区别风格的文案。另外,可能需要一些抖音、小红书风格的标注数据,再生成时通过Prompt引导模型。
A:文案中出现幻觉或虚假信息都是可能的。目前的解决方案是生成多个候选,然落后行后处理。
A:最重要的应当是搜集高质量的数据。其次多是如何对模型进行微调。
A:这是可以的,也是我们目前正在做的事情,而且参数的范围可能不需要那末大。
A:这是可以的。
A:如果是微调模型,8块A100肯定是可以的。如果没有A100,V100也是可以的。具体的装备要求和模型参数量、数据量、训练时长都有关系,需要具体情况具体分析。
A:hugging face上应当有很多中文的大模型可使用。
A:这也是我们开始尝试时遇到的问题。在根据商品属性生成图片时,效果不理想。我们的解决方案是首先将商品数据进行归一化处理,其次,将比较稀疏的属性过滤,如使用TF-IDF挑选出重要的属性等。这个问题主要来源于数据质量。
A:目前比较难的应当是视频生成的领域。Meta提出的Make-A-Video也只能生成一些短视频,而且质量也不理想。高分辨图片中细节的部位生成的效果也是一个困难。
A:理论上说,会话的模式可以解决所有和商家、客户沟通的事情,这都是ChatGPT能够解决的事情。比如,目前大多数的客服机器人都是通过规则来实现的,在ChatGPT后可以通过ChatGPT和知知趣结合的方式来完善。
A:BERT通经常使用于分类、实体辨认等辨认类任务。GPT可能更善于生成类的任务。可以在BERT最后一层接上区别的任务层,做辨认类的任务,如亮点辨认等。
A:这需要根据需求来肯定。如国外电商通常使用邮件进行交换,这也是一个行业痛点。产品设计图、概念图的生成也是比较不错的方向。
A:有的,链接:http://nlg-demo.dmetasoul.com/ecommerce。但是由于算力的限制,部署用的模型只是一个小模型。
分享佳宾
INTRODUCTION
孙凯
数元灵
首席科学家
中科院数学所博士,前后就职于 IBM,阿里巴巴;在机器学习、推荐系统、时间序列预测等方向具有多年开发和优化经验。目前在北京数元灵科技有限公司担负首席科学家,主要负责算法方向的研发工作。
曾在阿里巴巴团体担负资深算法专家,前后在飞猪,Lazada 部门带领团队在推荐系统、供应链优化、商业赋能等方向进行攻坚,取得大幅度的业务效果提升,具有丰富的算法落地赋能经验。
点个