ApexGearNode | AI 知识库

背景

跨境电商 LLM 落地有三条典型路径：其一是纯云端 API（调用 GPT-4o Mini 或 Gemini Flash），成本低但数据隐私风险高，且无法针对品类做领域微调；其二是完全自建云端集群（A100/H100），效果好但成本极高，3B 模型月费用轻松破万元；其三是训推一体的本地方案——一块高性能消费级显卡同时承担微调和推理，以月度硬件折旧替代持续云费用。

训推一体并非新概念，但2024年后随着 QLoRA 和 vLLM 的成熟，单卡方案首次具备了生产级可用性。本文以跨境电商的品类描述生成、产品问答、邮件回复三个核心场景为锚点，给出具体的架构选型建议和成本测算。

训推一体的核心矛盾

训练与推理的资源需求天然错配

训练阶段需要大量显存来存储梯度、优化器状态和激活值——QLoRA 3B 模型微调需要约 5–7 GB 显存（峰值），而推理阶段只需要加载量化后的模型权重，4-bit QLoRA 模型推理仅需 2–3 GB。这意味着，如果一块卡在训练完成后不释放资源，就会造成巨大的显存浪费。

训推一体的正确姿势是：训练阶段占用全部可用显存，推理阶段只加载推理服务进程，中间状态通过容器化或进程隔离来切换。最简方案是训练容器退出后，启动推理容器独享整卡资源。

多模型并发推理的瓶颈

跨境电商场景往往需要同时部署多个专业化模型（如产品描述模型 + 客服问答模型 + 邮件生成模型），单卡并发推理的吞吐量成为瓶颈。以 RX 7900 XTX 96 GB 为例，Qwen2.5-3B 4-bit 推理吞吐量约 65 tokens/s，三个模型并发时每模型约 20 tokens/s，对于日均 10 万次调用的中等规模业务勉强够用，但会触及天花板。

解法之一是引入模型多租户调度层（如 vLLM 的 tensor parallel 或连续批处理），将单卡资源按时间片分配给多个模型；解法之二是使用更小的专精模型（如 Qwen2.5-0.5B）替代大模型，牺牲部分质量换取并发能力。

实测架构方案

方案 A：单卡 AMD RX 7900 XTX（推荐）

硬件配置：AMD RX 7900 XTX 96 GB + ROCm 6.2 + Ubuntu 24.04 + PyTorch 2.4。一块卡同时承担训练和推理，使用 Docker 容器隔离两个阶段，训练容器退出后自动启动推理服务。

train_inference_docker.sh

#!/bin/bash
# 训练阶段
docker run --rm --device /dev/kfd --device /dev/dri \
  -v /data/models:/models \
  -v /data/dataset:/dataset \
  -e HIP_VISIBLE_DEVICES=0 \
  ghcr.io/flowy-ai/llama-factory:rocm6.2 \
  llamafactory-cli train \
    --stage sft --model_name_or_path Qwen/Qwen2.5-3B-Instruct \
    --quantization_bit 4 --quantization_method nf4 \
    --lora_rank 32 --lora_alpha 64 \
    --dataset ecommerce_sft --template qwen2 \
    --output_dir /models/checkpoints/ecommerce-v1 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --bf16 true --deepspeed stage2

# 训练完成后，推理服务热启动
docker run -d --name llm-inference --restart unless-stopped \
  --device /dev/kfd --device /dev/dri \
  -v /data/models:/models \
  -p 8000:8000 \
  -e HIP_VISIBLE_DEVICES=0 \
  ghcr.io/flowy-ai/vllm:rocm6.2 \
  python -m vllm.entrypoints.openai.api_server \
    --model /models/checkpoints/ecommerce-v1 \
    --served-model-name qwen2.5-3b-ec \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.88

方案 B：双卡 RX 7900 XTX + tensor parallel

若日均调用量超过 50 万次，单卡并发会成为瓶颈，此时应考虑双卡推理（或训练 + 推理分离）。双卡 tensor parallel 将模型层间切分，两张卡各自承担部分计算，通过 NVLink 类高速互联（AMD Infinity Fabric）减少卡间通信开销。实测双卡并行推理 Qwen2.5-3B 4-bit，吞吐量约 110–125 tokens/s，比单卡提升约 80%。

dual_gpu_inference.py

from vllm import LLM, SamplingParams

# 双卡推理配置（需设置 CUDA_VISIBLE_DEVICES 或 HIP_VISIBLE_DEVICES）
llm = LLM(
    model="/data/models/checkpoints/ecommerce-v1",
    tensor_parallel_size=2,          # 两卡并行
    gpu_memory_utilization=0.85,    # 每卡留 15% 余量防 OOM
    max_model_len=4096,
    trust_remote_code=True,
)

sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=256,
    stop=["<|im_end|>", "Human:"],
)

outputs = llm.generate(
    ["请为这款无线蓝牙耳机写一段英文产品描述："] * 8,  # batch=8 并发
    sampling_params,
)
for output in outputs:
    print(output.outputs[0].text)

方案 C：云端方案成本对比

月成本对比（基于2026年6月市场价格）

方案                    | 硬件/云成本/月 | 适用规模      | 数据隐私
-------------------------|--------------|-------------|----------
A: 单卡 RX 7900 XTX      | ~$800 (折旧) | 0–20万调用/天 | ✅ 本地
B: 双卡 RX 7900 XTX      | ~$1600(折旧) | 20–80万调用/天| ✅ 本地
C: AWS sagemaker (g5.2xl)| ~$1200       | 任意规模      | ⚠️ 云端
D: 纯 API (GPT-4o Mini)  | ~$50–500     | 0–50万调用/天 | ❌ 数据出境
E: 混合 (微调+云端兜底)  | ~$300+$200   | 任意规模      | ⚠️ 部分本地

ROI 临界点：当业务日均调用量超过 30 万次时，纯云端 API 的月成本将超过自建单卡硬件折旧。此时训推一体本地方案的累计成本优势开始显现，且数据隐私收益（商品数据不出境）在跨境电商场景下是合规刚需。

结论

跨境电商 LLM 落地的训推一体架构，本质上是用一次性硬件投入换取持续的数据隐私和单位成本优势。核心结论：

1. 0–20 万次/天调用量：单卡 RX 7900 XTX + ROCm 6.2 + vLLM 推理 + LLaMA-Factory 微调，月成本约 $800 折旧（12 个月摊销），性价比最高，是目前中小型跨境卖家的最优解。
2. 20–80 万次/天调用量：双卡 tensor parallel 或训推分离（训练用卡A，推理用卡B），月成本约 $1600 折旧，吞吐量可支撑中等规模业务。
3. 80 万次/天以上：考虑混合架构——核心品类模型训推一体本地部署，长尾品类用云端 API 兜底，兼顾成本与灵活性。
4. 硬件选型建议：AMD RX 7900 XTX 96 GB 是目前消费级性价比最优选（对比 RTX 4090 24 GB），96 GB 统一内存在训推一体场景下容错率更高，batch size 可设置更大。

训推一体不是银弹——它适合有技术能力维护 ROCm 环境的团队。对于只想快速跑起来的卖家，初期用 API 验证场景可行性，再逐步迁移到本地方案，是更务实的路径。