本文紧张通过实例来体验和展示BLIP的模型效果。

172.人工智能——图像的理解与生成_模子_庞杂 智能写作

BLIP(Bootstrapping Language-Image Pre-training)。
BLIP既可以做内容理解,还可以做文本天生,是一个大一统的多模态预演习框架。

一、图像描述

模型:blip-image-captioning-base(模型大小约1GB)。

图像描述

processor = BlipProcessor.from_pretrained("blip-image-captioning-base")model = BlipForConditionalGeneration.from_pretrained("blip-image-captioning-base")tokenizer = AutoTokenizer.from_pretrained("blip-image-captioning-base") #raw_image=Image.open(img).convert('RGB')#inputs = processor(raw_image, return_tensors="pt")inputs = processor(img, return_tensors="pt")out = model.generate(inputs)result=processor.decode(out[0], skip_special_tokens=True)print(result二、视觉问答

模型:blip-vqa-base(模型大小约1.5GB)

视觉问答

processor = BlipProcessor.from_pretrained("blip-vqa-base")model = BlipForQuestionAnswering.from_pretrained("blip-vqa-base")inputs = processor(img, question, return_tensors="pt")out = model.generate(inputs) result=processor.decode(out[0], skip_special_tokens=True)print(result)

CPU上运行推理韶光约1分钟旁边,基本上还是能够接管。
Image Caption和VQA模型目前还是比较大略,面对繁芜的问题还是不足准确预测。
但是这种图文多模态的模型比较以前单模态的能完成更繁芜、更靠近人类的理解与天生任务。