/ pathways / research

极客研究

RESEARCH · 6 ARTICLES

深入源码、模型架构、训练流程、硬件优化。面向有工程背景的用户,每篇都有硬核实测数据和对标生产环境的结论。AMD ROCm / QLoRA / 训推一体 / ComfyUI 全覆盖。

实测硬件环境

Mac M2 Max
16G 统一内存
MLX 推理节点
AMD AI Max+ 395
128G 统一内存 / 96G GPU
训练主力
RTX 5060 Ti 16G
16G 显存
辅助训练
HF-01工程级22 min

QLoRA 4-bit 量化:从原理到 AMD 显卡实战

用 LLaMA-Factory 在 AMD AI Max+ 395(128G 统一内存,RDNA 3.5)上跑 QLoRA 微调 Qwen2.5-3B。完整流程:数据集构建 → Prompt 模板 → 训练参数 → 效果评估。附 loss曲线和下游任务准确率对比。

QLoRAAMD ROCmLLaMA-FactoryQwen2.5-3B量化训练
HF-02工程级18 min

AWQ vs GGUF vs GPTQ:三种量化方案横向测评

在 Ryzen AI Max+ 395 + Radeon 8060S 上实测三种量化方案的性能/精度权衡。Qwen2.5-7B 为例,AWQ 精度损失最小但速度最慢,GGUF 在 CPU+GPU混合推理下兼容性最好,GPTQ 速度最快但需要 CUDA。

AWQGGUFGPTQ量化评测AMD ROCm
HF-03架构16 min

训推一体架构:跨境电商 LLM 落地的最优路径

为什么选择 Linux Ubuntu 24.04 + ROCm + LLaMA-Factory。硬件选型、框架对比和成本核算。结论:AMD 128G 统一内存是中小团队训推一体的最优解。

ROCmLLaMA-Factory训推一体成本优化硬件选型
HF-04工程级20 min

国产算力优化:AMD 显卡跑大模型是现实的吗

深度分析 AMD RDNA 3.5 架构在 LLM 推理上的真实表现。96G 统一内存实际可用量测试、Flash Attention 2 支持情况、MIOpen vs cuBLAS 性能差距、Wan2.1 VAE 兼容性问题。

AMDRDNA 3.5统一内存Flash AttentionMIOpen
HF-05工程级15 min

从0训练小模型:MiniMind 项目复盘

复盘 jingyaogong/minimind 全流程(51k stars):从 0 训练 64M 参数 LLM,成本 $3 + 2 小时,预训练/SFT/DPO/PPO/GRPO 全链路。分析如何在你们的场景里复用其训练框架。

MiniMind预训练SFTDPOLLM从0训练
HF-06工程级19 min

ComfyUI 图生视频工作流深度优化

在 AMD 机器上跑 ComfyUI 图生视频的完整调优记录。Realistic_Vision / JuggernautXL / LTXV / CogVideoX 实测出图质量对比。Flux2 CLIP 问题分析,视频模型 I2V 黑帧根因排查。

ComfyUI图生视频AMD模型调优I2V
HF-07进阶16 min

Qwen3.6 27B 从 20 到 184 tokens/s:单卡 4090 推理优化实战

量化 + MTP + D-Flash 三层优化叠加,RTX 4090 单卡从 20 tokens/s 一路飙到 184 tokens/s。附完整测试数据与生产级多并发方案。

AWQGGUFMTPD-FlashSpeculative Decoding多并发
HF-08入门18 min

Oracle Cloud Always Free 永久免费 VPS:2026 最新注册避坑完整攻略

中国大陆用户注册甲骨文云保姆级教程。5 项必做准备、注册流程详解、账户升级、免费 AMD VPS 创建与 SSH 连接。附常见失败原因分析。

Oracle CloudAlways FreeVPS免费云服务器ARMx86
HF-09工程级14 min

8G 显存逆天跑 35B:CPU Overload 模式 + Qwen3.6 多模态部署实战

仅凭一张 RTX 3070 8GB 显卡,利用 llama.cpp 的 CPU Overload 混合推理模式,即可流畅运行 Qwen3.6-35B 多模态大模型。核心原理、环境变量、量化选型与多模态测试一次性说清楚。

llama.cppCPU OverloadQwen3.6-35BMoE8G 显存多模态
HF-10入门级12 min

NVIDIA 显卡全系编年史:从 GeForce 256 到 RTX 50 系

基于抖音 @哈气黄豆 视频整理:从 1999 年 GeForce 256 一战封神、收购 3DFX,到 GTX/RTX 消费级分代、Quadro 改名 RTX A,再到 RTX 核心三大件与 DLSS 1→4 进化路径。一篇看懂 NVIDIA 显卡命名体系与 AI 算力来源。

NVIDIAGeForceGTXRTXRTX A 系列Tensor CoreDLSSGPU 命名规则
HF-11入门级12 min

GPT 是如何工作的:预测下一个词

从完形填空、统计语言模型到 Transformer,深度拆解 GPT 核心工作原理。清华漫士科普风,小白友好的"预测下一个词"完整解读。

语言大模型Next Token Prediction统计语言模型TransformerN-gram
HF-12入门级15 min

从 LLM 到 Agent Skill:一期视频打通底层逻辑

Token / Context Window / Prompt / System Prompt 四大核心概念 + Agent 任务规划全流程。小白友好,一次搞懂为什么 LLM 能变成 Agent。

LLMAgentSkillContext WindowSystem PromptTransformer
HF-13工程级14 min

别再用 Ollama 了!OpenClaw 秒级响应方案(vLLM + 本地模型)

手把手教你用 vLLM + 本地模型免费部署 OpenClaw,避开 Ollama 性能瓶颈。附安全授权边界、工具调用避坑指南。

OpenClawvLLM本地部署免费替代安全授权工具调用
HF-14工程级11 min

100 hours of Hermes Agent lessons in 23 minutes

23 分钟浓缩 100 小时 Hermes Agent 实战经验。Nous Hermes 系列模型在 Roleplay 与 Agent 任务中的能力边界与最佳实践。

HermesNous ResearchAgentRoleplay能力边界最佳实践
HF-15入门级13 min

赋予本地 LLM 灵魂:如何编写完美的上下文文件

不写代码也能给 LLM 注入灵魂。系统提示词 + 身份卡文件 + 向量数据库 RAG 记忆机制,让 AI 从"问答机器"变成"专属私人助理"。

LLM SoulSystem Prompt身份卡RAG向量数据库长期记忆
HF-16工程级20 min

social-analyzer 深度研究:跨 999 站点的开源 OSINT 身份聚合器

基于 GitHub qeeqbox/social-analyzer 23k stars 真实代码拆解 4 层级联检测 + fast-scan/slow-scan 双引擎 + 用户名排列组合关联算法 + tesseract.js OCR 兜底机制。

OSINTsocial-analyzerNode.jsSeleniumOCRusername-correlqeeqboxAGPL-3.0
HF-17工程级15 min

Claude Code 深度研究:Anthropic 官方 CLI 智能体工具

本篇文章基于 github 源信息(anthropics/claude-code | ⭐132,086 | 🍴21,388 | Python | None)由 video-to-article skill v2 端到端生成。

Claude Code 深度研究:Anthropic 官方 githubvideo-to-article-skill2026-06-13