Hugging Face的transformers库是目前最主流的大模型推理框架之一,几行代码就能在本地跑起一个对话模型。本文将使用Qwen/Qwen3.5-0.8B这个小模型作为示例,整个流程分为三步:安装依赖、下载模型、运行推理。
下载依赖
首先安装必要的Python包。transformers负责模型加载与推理,torch是底层计算框架,modelscope则提供国内更快的模型下载通道。
$ pip install transformers torch modelscope
从 modelscope 下载大模型镜像
直接从Hugging Face拉取模型有时会比较慢,这里通过modelscope的snapshot_download下载,并指定到huggingface的缓存目录以便后续加载。
from modelscope import snapshot_download
snapshot_download(model_id='Qwen/Qwen3.5-0.8B', cache_dir='/home/go/.cache/huggingface/hub')
运行大模型
下载完成后,使用transformers加载模型和分词器。AutoModelForCausalLM是因果语言模型的通用入口,能自动匹配Qwen的架构;torch_dtype='auto'会让框架根据模型配置自动选择合适的精度。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = '/home/go/.cache/huggingface/hub/Qwen/Qwen3.5-0.8B'
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype='auto',
trust_remote_code=True
)
tn = AutoTokenizer.from_pretrained(model_id)
prompt = ('"平静"的英文是什么?')
input_ids = tn.encode(prompt, return_tensors='pt')
generation_output = model.generate(
input_ids=input_ids,
max_new_tokens=10000
)
print(tn.decode(generation_output[0]))
就这样,一个最简的大模型本地推理就完成了。当然,这只是一个起点——实际项目中还可以进一步配置temperature、top_p等生成参数,或者用pipeline的API进一步简化调用。