172.人工智能——图像的理解与生成_模子_庞杂

2024-12-23 01:14:45 智能写作

本文紧张通过实例来体验和展示BLIP的模型效果。

172.人工智能——图像的理解与生成_模子_庞杂智能写作

BLIP（Bootstrapping Language-Image Pre-training）。
BLIP既可以做内容理解，还可以做文本天生，是一个大一统的多模态预演习框架。

一、图像描述

模型：blip-image-captioning-base（模型大小约1GB）。

图像描述

processor = BlipProcessor.from_pretrained("blip-image-captioning-base")model = BlipForConditionalGeneration.from_pretrained("blip-image-captioning-base")tokenizer = AutoTokenizer.from_pretrained("blip-image-captioning-base") #raw_image=Image.open(img).convert('RGB')#inputs = processor(raw_image, return_tensors="pt")inputs = processor(img, return_tensors="pt")out = model.generate(inputs)result=processor.decode(out[0], skip_special_tokens=True)print(result二、视觉问答

模型：blip-vqa-base（模型大小约1.5GB）

视觉问答

processor = BlipProcessor.from_pretrained("blip-vqa-base")model = BlipForQuestionAnswering.from_pretrained("blip-vqa-base")inputs = processor(img, question, return_tensors="pt")out = model.generate(inputs) result=processor.decode(out[0], skip_special_tokens=True)print(result)

CPU上运行推理韶光约1分钟旁边，基本上还是能够接管。
Image Caption和VQA模型目前还是比较大略，面对繁芜的问题还是不足准确预测。
但是这种图文多模态的模型比较以前单模态的能完成更繁芜、更靠近人类的理解与天生任务。