背景

跨境电商 LLM 落地有三条典型路径:其一是纯云端 API(调用 GPT-4o Mini 或 Gemini Flash),成本低但数据隐私风险高,且无法针对品类做领域微调;其二是完全自建云端集群(A100/H100),效果好但成本极高,3B 模型月费用轻松破万元;其三是训推一体的本地方案——一块高性能消费级显卡同时承担微调和推理,以月度硬件折旧替代持续云费用。

训推一体并非新概念,但2024年后随着 QLoRA 和 vLLM 的成熟,单卡方案首次具备了生产级可用性。本文以跨境电商的品类描述生成、产品问答、邮件回复三个核心场景为锚点,给出具体的架构选型建议和成本测算。

训推一体的核心矛盾

训练与推理的资源需求天然错配

训练阶段需要大量显存来存储梯度、优化器状态和激活值——QLoRA 3B 模型微调需要约 5–7 GB 显存(峰值),而推理阶段只需要加载量化后的模型权重,4-bit QLoRA 模型推理仅需 2–3 GB。这意味着,如果一块卡在训练完成后不释放资源,就会造成巨大的显存浪费。

训推一体的正确姿势是:训练阶段占用全部可用显存,推理阶段只加载推理服务进程,中间状态通过容器化或进程隔离来切换。最简方案是训练容器退出后,启动推理容器独享整卡资源。

多模型并发推理的瓶颈

跨境电商场景往往需要同时部署多个专业化模型(如产品描述模型 + 客服问答模型 + 邮件生成模型),单卡并发推理的吞吐量成为瓶颈。以 RX 7900 XTX 96 GB 为例,Qwen2.5-3B 4-bit 推理吞吐量约 65 tokens/s,三个模型并发时每模型约 20 tokens/s,对于日均 10 万次调用的中等规模业务勉强够用,但会触及天花板。

解法之一是引入模型多租户调度层(如 vLLM 的 tensor parallel 或连续批处理),将单卡资源按时间片分配给多个模型;解法之二是使用更小的专精模型(如 Qwen2.5-0.5B)替代大模型,牺牲部分质量换取并发能力。

实测架构方案

方案 A:单卡 AMD RX 7900 XTX(推荐)

硬件配置:AMD RX 7900 XTX 96 GB + ROCm 6.2 + Ubuntu 24.04 + PyTorch 2.4。一块卡同时承担训练和推理,使用 Docker 容器隔离两个阶段,训练容器退出后自动启动推理服务。

train_inference_docker.sh
#!/bin/bash
# 训练阶段
docker run --rm --device /dev/kfd --device /dev/dri \
  -v /data/models:/models \
  -v /data/dataset:/dataset \
  -e HIP_VISIBLE_DEVICES=0 \
  ghcr.io/flowy-ai/llama-factory:rocm6.2 \
  llamafactory-cli train \
    --stage sft --model_name_or_path Qwen/Qwen2.5-3B-Instruct \
    --quantization_bit 4 --quantization_method nf4 \
    --lora_rank 32 --lora_alpha 64 \
    --dataset ecommerce_sft --template qwen2 \
    --output_dir /models/checkpoints/ecommerce-v1 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --bf16 true --deepspeed stage2

# 训练完成后,推理服务热启动
docker run -d --name llm-inference --restart unless-stopped \
  --device /dev/kfd --device /dev/dri \
  -v /data/models:/models \
  -p 8000:8000 \
  -e HIP_VISIBLE_DEVICES=0 \
  ghcr.io/flowy-ai/vllm:rocm6.2 \
  python -m vllm.entrypoints.openai.api_server \
    --model /models/checkpoints/ecommerce-v1 \
    --served-model-name qwen2.5-3b-ec \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.88

方案 B:双卡 RX 7900 XTX + tensor parallel

若日均调用量超过 50 万次,单卡并发会成为瓶颈,此时应考虑双卡推理(或训练 + 推理分离)。双卡 tensor parallel 将模型层间切分,两张卡各自承担部分计算,通过 NVLink 类高速互联(AMD Infinity Fabric)减少卡间通信开销。实测双卡并行推理 Qwen2.5-3B 4-bit,吞吐量约 110–125 tokens/s,比单卡提升约 80%。

dual_gpu_inference.py
from vllm import LLM, SamplingParams

# 双卡推理配置(需设置 CUDA_VISIBLE_DEVICES 或 HIP_VISIBLE_DEVICES)
llm = LLM(
    model="/data/models/checkpoints/ecommerce-v1",
    tensor_parallel_size=2,          # 两卡并行
    gpu_memory_utilization=0.85,    # 每卡留 15% 余量防 OOM
    max_model_len=4096,
    trust_remote_code=True,
)

sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=256,
    stop=["<|im_end|>", "Human:"],
)

outputs = llm.generate(
    ["请为这款无线蓝牙耳机写一段英文产品描述:"] * 8,  # batch=8 并发
    sampling_params,
)
for output in outputs:
    print(output.outputs[0].text)

方案 C:云端方案成本对比

月成本对比(基于2026年6月市场价格)
方案                    | 硬件/云成本/月 | 适用规模      | 数据隐私
-------------------------|--------------|-------------|----------
A: 单卡 RX 7900 XTX      | ~$800 (折旧) | 0–20万调用/天 | ✅ 本地
B: 双卡 RX 7900 XTX      | ~$1600(折旧) | 20–80万调用/天| ✅ 本地
C: AWS sagemaker (g5.2xl)| ~$1200       | 任意规模      | ⚠️ 云端
D: 纯 API (GPT-4o Mini)  | ~$50–500     | 0–50万调用/天 | ❌ 数据出境
E: 混合 (微调+云端兜底)  | ~$300+$200   | 任意规模      | ⚠️ 部分本地
ROI 临界点:当业务日均调用量超过 30 万次时,纯云端 API 的月成本将超过自建单卡硬件折旧。此时训推一体本地方案的累计成本优势开始显现,且数据隐私收益(商品数据不出境)在跨境电商场景下是合规刚需。

结论

跨境电商 LLM 落地的训推一体架构,本质上是用一次性硬件投入换取持续的数据隐私和单位成本优势。核心结论:

1. 0–20 万次/天调用量:单卡 RX 7900 XTX + ROCm 6.2 + vLLM 推理 + LLaMA-Factory 微调,月成本约 $800 折旧(12 个月摊销),性价比最高,是目前中小型跨境卖家的最优解。
2. 20–80 万次/天调用量:双卡 tensor parallel 或训推分离(训练用卡A,推理用卡B),月成本约 $1600 折旧,吞吐量可支撑中等规模业务。
3. 80 万次/天以上:考虑混合架构——核心品类模型训推一体本地部署,长尾品类用云端 API 兜底,兼顾成本与灵活性。
4. 硬件选型建议:AMD RX 7900 XTX 96 GB 是目前消费级性价比最优选(对比 RTX 4090 24 GB),96 GB 统一内存在训推一体场景下容错率更高,batch size 可设置更大。

训推一体不是银弹——它适合有技术能力维护 ROCm 环境的团队。对于只想快速跑起来的卖家,初期用 API 验证场景可行性,再逐步迁移到本地方案,是更务实的路径。