/ pathways / research

极客研究

RESEARCH · 21 ARTICLES

深入源码、模型架构、训练流程、硬件优化。面向有工程背景的用户,每篇都有硬核实测数据和对标生产环境的结论。AMD ROCm / QLoRA / 训推一体 / ComfyUI 全覆盖。

实测硬件环境

Mac M2 Max

16G 统一内存

MLX 推理节点

AMD AI Max+ 395

128G 统一内存 / 96G GPU

训练主力

RTX 5060 Ti 16G

16G 显存

辅助训练

HF-01工程级22 min

QLoRA 4-bit 量化:从原理到 AMD 显卡实战

用 LLaMA-Factory 在 AMD AI Max+ 395(128G 统一内存,RDNA 3.5)上跑 QLoRA 微调 Qwen2.5-3B。完整流程:数据集构建 → Prompt 模板 → 训练参数 → 效果评估。附 loss曲线和下游任务准确率对比。

QLoRAAMD ROCmLLaMA-FactoryQwen2.5-3B量化训练

HF-02工程级18 min

AWQ vs GGUF vs GPTQ:三种量化方案横向测评

在 Ryzen AI Max+ 395 + Radeon 8060S 上实测三种量化方案的性能/精度权衡。Qwen2.5-7B 为例,AWQ 精度损失最小但速度最慢,GGUF 在 CPU+GPU混合推理下兼容性最好,GPTQ 速度最快但需要 CUDA。

AWQGGUFGPTQ量化评测AMD ROCm

HF-03架构16 min

训推一体架构:跨境电商 LLM 落地的最优路径

为什么选择 Linux Ubuntu 24.04 + ROCm + LLaMA-Factory。硬件选型、框架对比和成本核算。结论:AMD 128G 统一内存是中小团队训推一体的最优解。

ROCmLLaMA-Factory训推一体成本优化硬件选型

HF-04工程级20 min

国产算力优化:AMD 显卡跑大模型是现实的吗

深度分析 AMD RDNA 3.5 架构在 LLM 推理上的真实表现。96G 统一内存实际可用量测试、Flash Attention 2 支持情况、MIOpen vs cuBLAS 性能差距、Wan2.1 VAE 兼容性问题。

AMDRDNA 3.5统一内存Flash AttentionMIOpen

HF-05工程级15 min

从0训练小模型:MiniMind 项目复盘

复盘 jingyaogong/minimind 全流程(51k stars):从 0 训练 64M 参数 LLM,成本 $3 + 2 小时,预训练/SFT/DPO/PPO/GRPO 全链路。分析如何在你们的场景里复用其训练框架。

MiniMind预训练SFTDPOLLM从0训练

HF-06工程级19 min

ComfyUI 图生视频工作流深度优化

在 AMD 机器上跑 ComfyUI 图生视频的完整调优记录。Realistic_Vision / JuggernautXL / LTXV / CogVideoX 实测出图质量对比。Flux2 CLIP 问题分析,视频模型 I2V 黑帧根因排查。

ComfyUI图生视频AMD模型调优I2V

HF-07进阶16 min

Qwen3.6 27B 从 20 到 184 tokens/s:单卡 4090 推理优化实战

量化 + MTP + D-Flash 三层优化叠加,RTX 4090 单卡从 20 tokens/s 一路飙到 184 tokens/s。附完整测试数据与生产级多并发方案。

AWQGGUFMTPD-FlashSpeculative Decoding多并发

HF-08入门18 min

Oracle Cloud Always Free 永久免费 VPS:2026 最新注册避坑完整攻略

中国大陆用户注册甲骨文云保姆级教程。5 项必做准备、注册流程详解、账户升级、免费 AMD VPS 创建与 SSH 连接。附常见失败原因分析。

Oracle CloudAlways FreeVPS免费云服务器ARMx86

HF-09工程级14 min

8G 显存逆天跑 35B:CPU Overload 模式 + Qwen3.6 多模态部署实战

仅凭一张 RTX 3070 8GB 显卡,利用 llama.cpp 的 CPU Overload 混合推理模式,即可流畅运行 Qwen3.6-35B 多模态大模型。核心原理、环境变量、量化选型与多模态测试一次性说清楚。

llama.cppCPU OverloadQwen3.6-35BMoE8G 显存多模态

HF-10入门级12 min

NVIDIA 显卡全系编年史:从 GeForce 256 到 RTX 50 系

基于抖音 @哈气黄豆视频整理:从 1999 年 GeForce 256 一战封神、收购 3DFX,到 GTX/RTX 消费级分代、Quadro 改名 RTX A,再到 RTX 核心三大件与 DLSS 1→4 进化路径。一篇看懂 NVIDIA 显卡命名体系与 AI 算力来源。

NVIDIAGeForceGTXRTXRTX A 系列Tensor CoreDLSSGPU 命名规则

HF-11入门级12 min

GPT 是如何工作的:预测下一个词

从完形填空、统计语言模型到 Transformer,深度拆解 GPT 核心工作原理。清华漫士科普风,小白友好的"预测下一个词"完整解读。

语言大模型Next Token Prediction统计语言模型TransformerN-gram

HF-12入门级15 min

从 LLM 到 Agent Skill:一期视频打通底层逻辑

Token / Context Window / Prompt / System Prompt 四大核心概念 + Agent 任务规划全流程。小白友好,一次搞懂为什么 LLM 能变成 Agent。

LLMAgentSkillContext WindowSystem PromptTransformer

HF-13工程级14 min

别再用 Ollama 了!OpenClaw 秒级响应方案(vLLM + 本地模型)

手把手教你用 vLLM + 本地模型免费部署 OpenClaw,避开 Ollama 性能瓶颈。附安全授权边界、工具调用避坑指南。

OpenClawvLLM本地部署免费替代安全授权工具调用

HF-14工程级11 min

100 hours of Hermes Agent lessons in 23 minutes

23 分钟浓缩 100 小时 Hermes Agent 实战经验。Nous Hermes 系列模型在 Roleplay 与 Agent 任务中的能力边界与最佳实践。

HermesNous ResearchAgentRoleplay能力边界最佳实践

HF-15入门级13 min

赋予本地 LLM 灵魂:如何编写完美的上下文文件

不写代码也能给 LLM 注入灵魂。系统提示词 + 身份卡文件 + 向量数据库 RAG 记忆机制,让 AI 从"问答机器"变成"专属私人助理"。

LLM SoulSystem Prompt身份卡RAG向量数据库长期记忆

HF-16工程级20 min

social-analyzer 深度研究:跨 999 站点的开源 OSINT 身份聚合器

基于 GitHub qeeqbox/social-analyzer 23k stars 真实代码拆解 4 层级联检测 + fast-scan/slow-scan 双引擎 + 用户名排列组合关联算法 + tesseract.js OCR 兜底机制。

OSINTsocial-analyzerNode.jsSeleniumOCRusername-correlqeeqboxAGPL-3.0

HF-17工程级15 min

Claude Code 深度研究:Anthropic 官方 CLI 智能体工具

本篇文章基于 github 源信息(anthropics/claude-code | ⭐132,086 | 🍴21,388 | Python | None)由 video-to-article skill v2 端到端生成。

Claude Code 深度研究:Anthropic 官方 githubvideo-to-article-skill2026-06-13

HF-18架构15 min

Loop Engineering 循环工程:让 Agent 突破上下文窗口的工程范式

从手动写提示词到设计自动化循环,让 AI Agent 真正能在长周期项目中自主协作的工程方法论。

Loop EngineeringPrompt EngineeringContext WindowSub Agents外部记忆AI 研发部门

HF-19入门级11 min

学遍 Agent、RAG、MCP,依旧找不到 AI 相关工作

基于抖音 @AI 大模型果果姐视频整理。一个学了 Agent、RAG、MCP 的 AI 学习者的真实困境--技术栈学了一堆,简历发了几十份,依然没有 AI 相关 offer。问题到底出在哪?是市场不友好,还是学习路径本身就是坑?

AI 求职AgentRAGMCP学习路径AI 就业市场

HF-20入门级8 min

美的 Agent 实习面:基础题也考工程落地

基于抖音 @小哲讲面经视频整理。美的 AI Agent 实习面试10道基础题,表面问概念实际考工程落地能力。覆盖 Agent 定义、RAG 流程、幻觉缓解、LangChain 选型、Function Calling、多轮对话、记忆机制、ReAct 原理、重排优化、文本相似度计算。

AI AgentRAGFunction CallingReAct面试美的

HF-21工程级14 min

RAG Query 改写：决定检索效果的最后一公里

为什么 Query 改写是 RAG 系统的核心环节？三种技术方案从规则到 LLM 逐层拆解，附多路召回、跨轮补全、标准化表达等实战技巧与面试核心认知。

RAGQuery Rewrite多路召回语义检索上下文理解向量数据库

HF-22架构13 min

五类 Agent，对号入座：按自主程度分层的选型指南

市面 Agent 产品名繁多，按"自主程度"分五层更实用：对话辅助（ChatGPT）→ 任务执行（Manus/Claude Code）→ 流程编排（Coze/Dify）→ 系统集成（LangGraph/AutoGen）→ 多体协作。附按场景选 Agent 类型的速查表。

Agent 分类自主程度工具调用流程编排多 Agent企业落地