2026年新手必看:GLM-4V-9B环境配置与简单调用,附完整代码示例

新手必看:GLM-4V-9B环境配置与简单调用,附完整代码示例1 1 硬件要求 GPU 显存 至少 24GB FP16 精度 或 12GB INT4 量化 推荐配置 NVIDIA RTX 4090 或更高性能显卡 多卡注意 全量模型需要两张 GPU 卡并行运行 1 2 软件依赖 确保已安装以下基础环境 pip install torch 2 3 0 transformers 4 40 0 modelscope 1 3 一键部署命令

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



1.1 硬件要求
  • GPU显存:至少24GB(FP16精度)或12GB(INT4量化)
  • 推荐配置:NVIDIA RTX 4090或更高性能显卡
  • 多卡注意:全量模型需要两张GPU卡并行运行
1.2 软件依赖

确保已安装以下基础环境:

pip install torch==2.3.0 transformers==4.40.0 modelscope 
1.3 一键部署命令

通过ModelScope快速获取模型:

GPT plus 代充 只需 145from modelscope import snapshot_download model_dir = snapshot_download(‘ZhipuAI/glm-4v-9b’) 

下载完成后会自动保存在本地缓存目录(约18GB FP16版本)

2.1 模型核心能力
  • 多模态理解:同时处理图像和文本输入
  • 高分辨率支持:原生1120×1120像素输入
  • 中英双语:优化中文场景的OCR和图表理解
2.2 典型应用场景
  • 图像内容描述
  • 视觉问答(VQA)
  • 图表数据解析
  • 多轮图文对话

3.1 初始化模型
from transformers import AutoTokenizer, AutoModelForCausalLM import torch

device = “cuda” # 使用默认GPU设备 tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(

GPT plus 代充 只需 145model_dir, device_map="auto", trust_remote_code=True, torch_dtype=torch.float16 

).eval()

3.2 单轮图像问答示例

准备测试图片demo.jpg,执行:

from PIL import Image

image = Image.open(“./demo.jpg”).convert(“RGB”) response, history = model.chat(

GPT plus 代充 只需 145tokenizer, image=image, query="图片中有什么内容?", history=None 

) print(response)

3.3 多轮对话示例
# 第一轮提问 response, history = model.chat(

GPT plus 代充 只需 145tokenizer, image=image, query="图片中有几个人?", history=None 

)

基于历史继续提问

response, history = model.chat(

tokenizer, query="他们分别在做什么?", history=history 

) print(response)

4.1 显存优化方案
  • 使用INT4量化版本(约9GB显存)
  • 添加torch_dtype=torch.float16参数
  • 对于大图,先resize到1120x1120以下
4.2 常见错误处理
  1. CUDA内存不足
    GPT plus 代充 只需 145# 尝试释放缓存 torch.cuda.empty_cache()

或使用更低精度

model = AutoModelForCausalLM.from_pretrained(

model_dir, torch_dtype=torch.bfloat16 

)

  • 图片加载失败
    GPT plus 代充 只需 145# 确保图片路径正确且为RGB格式 from PIL import Image try:
  • img = Image.open(path).convert("RGB") 

    except Exception as e:

    GPT plus 代充 只需 145print(f"Error loading image: {e}") 

    from modelscope import snapshot_download from transformers import AutoTokenizer, AutoModelForCausalLM from PIL import Image import torch # 1. 下载模型 model_dir = snapshot_download('ZhipuAI/glm-4v-9b') # 2. 初始化 tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_dir, device_map="auto", trust_remote_code=True, torch_dtype=torch.float16 ).eval() # 3. 准备图片 image = Image.open("./demo.jpg").convert("RGB") # 4. 第一轮问答 query1 = "描述图片中的主要物体" response, history = model.chat( tokenizer, image=image, query=query1, history=None ) print(f"Q: {query1} A: {response} ") # 5. 基于上下文的追问 query2 = "这些物体的颜色是什么?" response, history = model.chat( tokenizer, query=query2, history=history ) print(f"Q: {query2} A: {response}") 

    通过本教程,您已经学会了:

    1. GLM-4V-9B多模态模型的基本特性
    2. 快速部署与环境配置方法
    3. 图像问答和多轮对话的实现
    4. 常见问题的解决方案

    建议下一步尝试:

    • 测试不同分辨率图片的识别效果
    • 探索复杂图表解析能力
    • 结合LangChain构建多模态应用

    获取更多AI镜像

    想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

    小讯
    上一篇 2026-03-27 08:51
    下一篇 2026-03-27 08:49

    相关推荐

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
    如需转载请保留出处:https://51itzy.com/kjqy/249480.html