用 transformers 运行大模型

Hugging Face的transformers库是目前最主流的大模型推理框架之一，几行代码就能在本地跑起一个对话模型。本文将使用Qwen/Qwen3.5-0.8B这个小模型作为示例，整个流程分为三步：安装依赖、下载模型、运行推理。

下载依赖

首先安装必要的Python包。transformers负责模型加载与推理，torch是底层计算框架，modelscope则提供国内更快的模型下载通道。

$ pip install transformers torch modelscope

从 modelscope 下载大模型镜像

直接从Hugging Face拉取模型有时会比较慢，这里通过modelscope的snapshot_download下载，并指定到huggingface的缓存目录以便后续加载。

from modelscope import snapshot_download
snapshot_download(model_id='Qwen/Qwen3.5-0.8B', cache_dir='/home/go/.cache/huggingface/hub')

运行大模型

下载完成后，使用transformers加载模型和分词器。AutoModelForCausalLM是因果语言模型的通用入口，能自动匹配Qwen的架构；torch_dtype='auto'会让框架根据模型配置自动选择合适的精度。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = '/home/go/.cache/huggingface/hub/Qwen/Qwen3.5-0.8B'
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype='auto',
    trust_remote_code=True
)

tn = AutoTokenizer.from_pretrained(model_id)

prompt = ('"平静"的英文是什么？')

input_ids = tn.encode(prompt, return_tensors='pt')

generation_output = model.generate(
    input_ids=input_ids,
    max_new_tokens=10000
)

print(tn.decode(generation_output[0]))

就这样，一个最简的大模型本地推理就完成了。当然，这只是一个起点——实际项目中还可以进一步配置temperature、top_p等生成参数，或者用pipeline的API进一步简化调用。