1. 详细步骤
1.1 安装
# CUDA/CPU
pip install "xinference[transformers]"
pip install "xinference[vllm]"
pip install "xinference[sglang]"
# Metal(MPS)
pip install "xinference[mlx]"
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
注:可能是 nvcc 版本等个人环境配置原因,llama-cpp-python 在 CUDA 上无法使用(C/C++ 环境上是正常的),Metal 的 llama-cpp-python 正常。如需安装 flashinfer 等依赖见官方安装文档:https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html
1.2 启动
1.2.1 直接启动
简洁命令
xinference-local --host 0.0.0.0 --port 9997
多参数命令
设置模型缓存路径
和模型来源(Hugging Face/Modelscope)
# CUDA/CPU
XINFERENCE_HOME=/path/.xinference XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997
# Metal(MPS)
XINFERENCE_HOME=/path/.xinference XINFERENCE_MODEL_SRC=modelscope PYTORCH_ENABLE_MPS_FALLBACK=1 xinference-local --host 0.0.0.0 --port 9997
1.2.2 集群部署
通过 ifconfig
查看当前服务器IP
1.2.2.1 主服务器启动 Supervisor
# 格式
xinference-supervisor -H 当前服务器IP(主服务器IP) --port 9997
# 示例
xinference-supervisor -H 192.168.31.100 --port 9997
1.2.2.2 其他服务器启动 Worker
# 格式
xinference-worker -e "http://${主服务器IP}:9997" -H 当前服务器IP(子服务器IP)
# 示例
xinference-worker -e "http://192.168.31.100:9997" -H 192.168.31.101
注:按需添加XINFERENCE_HOME
、XINFERENCE_MODEL_SRC
、PYTORCH_ENABLE_MPS_FALLBACK
等环境变量(启动时参数)
1.3 使用
访问 http://主服务器IP:9997/docs
查看接口文档,访问 http://主服务器IP:9997
正常使用
2. 参考资料
2.1 Xinference
2.1.1 部署文档
本地运行 Xinference
集群中部署 Xinference
2.1.2 安装文档
官方页面
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html
Transformers 引擎
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#transformers-backend
vLLM 引擎
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#vllm-backend
Llama.cpp 引擎
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#llama-cpp-backend
MLX 引擎
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#mlx-backend
3. 资源
3.1 Xinference
3.1.1 GitHub
官方页面
https://github.com/xorbitsai/inference
https://github.com/xorbitsai/inference/blob/main/README_zh_CN.md
3.1.2 安装文档
SGLang 引擎
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#sglang-backend
其他平台(在昇腾 NPU 上安装)
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html#other-platforms
https://inference.readthedocs.io/zh-cn/latest/getting_started/installation_npu.html#installation-npu
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
暂无评论内容