/ pathways / foundation
知识扫盲
FOUNDATION · 8 ARTICLES
从大模型原理到注意力机制,从 Token 到向量 Embedding。每篇都经过交叉验证,有数学推导、有代码示例、有可量化的结论。不接受模糊的"大概理解"。
大模型是怎么"思考"的:Token 到 Logit 的完整流程
输入文本 → Tokenize → Embedding → Transformer Block × N → Softmax → Logit → Sampling。拆解每个环节的本质,直击"AI幻觉"和"上下文长度"的根源。
Attention 机制:Q/K/V 矩阵运算的直观理解
Self-Attention 让模型"看到"句子中每个词和其他词的关系。Q/K/V 矩阵不是玄学,是一次矩阵乘加和重加权的过程。配合代码从零实现注意力层。
向量 Embedding:让文字进入向量空间
Embedding 把 token 变成一串数字,语义相近的词在向量空间里距离也近。Embedding Model怎么训练的?为什么 BERT 和 GPT 的 Embedding 不能混用?
Prompt Engineering:不是玄学,是有框架的
Few-shot、Chain-of-Thought、System Prompt、Role Prompt——什么场景用什么,为什么有效,什么时候完全失效。附可以直接抄的 Prompt 模板。
什么时候该微调,什么时候不该
微调可以注入领域知识,但成本高、周期长、容易遗忘原有能力。什么信号说明该微调了?LoRA / QLoRA / Full Fine-tune 怎么选?附跨境电商场景判断标准。
RAG 检索增强生成:原理、局限与优化路径
RAG = 向量检索 + LLM 生成,不是银弹。Chunk size 决定召回精度,Top-K 决定上下文长度,Hybrid Search 融合关键词和向量。附3 种主流向量数据库横向测评。
Token 计费与上下文长度:被忽视的成本杀手
GPT-4o128K 上下文看着很大,但超过 32K 以后成本急剧上升。Tokenize、中文编码效率、窗口利用率——3个数字算清楚你的真实推理成本。
模型评估:不只是 BLEU 和 ROUGE
LLM 输出是开放的,传统的评估指标全部失效。LLM-as-Judge、自动化评估框架、G-eval、RAG 系统怎么做端到端评估?附 Eval SOP模板。