OpenAI CLIP模型:24MB实现文本图象匹配,iPhone上可运行(openai clip大小)
摘要:
OpenAI开发的CLIP模型是一种文本图象匹配模型,具有强大的零样本性能。通过对照学习预训练,在图片分类zero-shot上获得了很好的效果。
研究者使用模型蒸馏的方法来紧缩CLIP的尺寸,从350MB到24MB,使其可以在iPhone上运行,为移动装备带来了更多的利用场景。
实验结果表明,向文本向量添加bias比向图象向量添加bias更有效,并且scale值越大,CLIP越强调文本的类似性,这为减小模型尺寸提供了契机。
CLIP模型具有广泛的利用领域,可以用于图象辨认和检索任务,并且通过零样本学习,可以在没有标注样本的情况下进行预测,为无监督学习提供了可能性。
正文:
最近几年来,深度学习在图象辨认和自然语言处理等领域获得了巨大的突破。但是,传统的方法常常需要手动标注大量的样本,而且模型范围较大,没法在移动装备上运行。为了解决这些问题,OpenAI开发了一种新的文本图象匹配模型CLIP(Contrastive Language-Image Pre-training)。
CLIP模型通过对照学习预训练,在图片分类zero-shot上获得了很好的效果。与传统的图象辨认模型区别,CLIP模型使用的是一个统一的结构,能够同时处理文本和图象。这使得CLIP模型在文本图象匹配任务上有着强大的性能。
虽然CLIP模型表现出色,但其原始的尺寸较大,约为350MB,没法在移动装备上运行。为了解决这个问题,研究者使用了模型蒸馏的方法来紧缩CLIP的尺寸。首先,他们通过模型蒸馏将原始的350MB的模型(称为teacher模型)紧缩为48MB的student模型,精度为FP32。然后,在单个P100 GPU上训练了数周后,将48MB的student模型转换成了CoreML格式,并再次得到了24MB的模型,精度为FP16。
通过这类紧缩的方法,CLIP模型的尺寸从350MB减小到了24MB,使得它可以在iPhone等移动装备上运行,为移动装备带来了更多的利用场景。用户可以在手机上进行文本图象匹配任务,无需高端显卡。
在实验中,研究者还发现,对CLIP模型来讲,将bias添加到文本向量比添加到图象向量更加有效,这可以通过调剂scale值来控制模型对文本类似性的强调程度。实验结果显示,scale值越大,CLIP越强调文本的类似性。这为利用CLIP进行知识蒸馏提供了契机,可以进一步减小模型的尺寸。
由于CLIP模型具有强大的文本图象匹配能力,因此它在图象辨认和检索任务中具有广泛的利用领域。通过零样本学习,CLIP模型可以在没有标注样本的情况下进行预测,为无监督学习提供了可能性。
总结:
OpenAI开发的CLIP模型通过模型蒸馏和性能优化,实现了从350MB到24MB的紧缩,使其可以在iPhone上运行。这一成果为移动装备和无监督学习领域带来了新的可能性,将进一步推动文本图象匹配任务的发展。