William A

安卓平板部署本地大模型提供视频分析服务

2026年5月19日人工智能

最近在研究如何在本地设备上跑大模型，发现现在移动端硬件已经相当强大。普通的安卓平板完全可以运行小参数量的多模态大模型。这篇文章记录我在安卓平板上部署MiniCPM-V-4.6多模态模型，并通过Flask搭建一个Web服务，实现上传视频即可自动分析内容的过程。整个方案的核心思路是：利用Termux在 …...

Read more →

llama.cpp 和 ffmpeg 搭建本地视频分析服务

2026年5月18日人工智能

上一篇文章介绍了如何用llama.cpp搭建本地模型推理服务，这次顺着往下走：有了多模态模型的推理能力，再配合ffmpeg，就能搭一个完全运行在本地的视频分析服务。不需要任何云 API，视频不用上传到第三方，数据隐私完全由自己掌控。核心思路其实不复杂——视频本质上是一帧帧图片的序列，把关键帧拆出来丢 …...

Read more →

llama.cpp 提供本地模型推理服务

2026年5月6日人工智能

目前很流行的ollama底层依赖的就是llama.cpp。跟ollama相比，llama.cpp更轻量、灵活，这也是我转向llama.cpp的原因之一。另外，llama.cpp使用的gguf格式也能方便获得，要是社区没有提供的话，还可以自己将模型转为gguf格式，但基本常用的模型都已经有gguf，一 …...

Read more →

用 Python 搭一个本地 AI 知识库

2026年4月13日人工智能

本文使用的技术栈为python+qdrant(docker 镜像）+ollama(使用嵌入模型 bge-m3)+deepseek(兼容 openai 接口)。如果连大模型都想用本地部署的，只需要用ollama再下载个deepseek大模型，将配置改成本地即可。预先启动向量数据库及嵌入模型服务。 $ …...

Read more →

大模型使用工具的能力怎么来的

2026年4月9日人工智能

大模型会提供一个叫Tool Calls（也有的叫Function Calls）的功能，看起来很神奇，实际上就是LLM根据对话内容提取出需要使用的工具及其参数，再将其以结构化的形式返回给客户端，客户端通过响应的内容判断是否存在“使用工具”这个操作，如果存在，则从中获取所需使用的“工具名”及“参数”来使 …...

Read more →