172.人工智能——图像的理解与生成_模子_庞杂
本文紧张通过实例来体验和展示BLIP的模型效果。
BLIP(Bootstrapping Language-Image Pre-training)。BLIP既可以做内容理解,还可以做文本天生,是一个大一统的多模态预演习框架。
一、图像描述模型:blip-image-captioning-base(模型大小约1GB)。
图像描述
processor = BlipProcessor.from_pretrained("blip-image-captioning-base")model = BlipForConditionalGeneration.from_pretrained("blip-image-captioning-base")tokenizer = AutoTokenizer.from_pretrained("blip-image-captioning-base") #raw_image=Image.open(img).convert('RGB')#inputs = processor(raw_image, return_tensors="pt")inputs = processor(img, return_tensors="pt")out = model.generate(inputs)result=processor.decode(out[0], skip_special_tokens=True)print(result
二、视觉问答
模型:blip-vqa-base(模型大小约1.5GB)
视觉问答
processor = BlipProcessor.from_pretrained("blip-vqa-base")model = BlipForQuestionAnswering.from_pretrained("blip-vqa-base")inputs = processor(img, question, return_tensors="pt")out = model.generate(inputs) result=processor.decode(out[0], skip_special_tokens=True)print(result)
CPU上运行推理韶光约1分钟旁边,基本上还是能够接管。Image Caption和VQA模型目前还是比较大略,面对繁芜的问题还是不足准确预测。但是这种图文多模态的模型比较以前单模态的能完成更繁芜、更靠近人类的理解与天生任务。
本文系作者个人观点,不代表本站立场,转载请注明出处!