# 分布式数据库补充材料梳理与高频重点

本文件先不涉及网站，只用于重新梳理新增材料和老师主 PPT。结论以老师 PPT 为最高优先级，试卷、简答、论述和扫描手写题用来反推高频题型。

## 1. 已梳理资料状态

| 资料 | 状态 | 判断 |
|---|---|---|
| `分布式数据库PPT2026-发学生/` 8 个 `.ppt` | 已抽取并逐章检索 | 最重要资料。覆盖 Ch01 到 Ch10-12，是复习主线。 |
| `分布式数据库-老师上课提到的重点.docx` | 已读 | 很短，但直接点名 Ch01、Ch05、查询、并发、恢复、分片正确性。 |
| `分布式试卷version2.0.pdf` | 已读 | 很像老师押题清单，论述题权重高，必须重点看。 |
| `数据库（简答）.pdf` | 已读 | 直接列出半连接、锁/时标、可串行化、2PL、2PC/3PC、Paxos/Raft。 |
| `分布式数据库考题-论述.pdf` | 已读 | 31 页，覆盖 DATAID-D、分片、查询优化、时标、乐观并发、2PC/3PC 终结和恢复、直接连接算法。 |
| `分布式数据库系统及其应用-复习.doc` | 已读 | 偏传统题库，适合补填空、名词解释、简答。 |
| `2_分布式数据库.pdf` | 图片型 PDF，已转缩略图并查看关键页 | 是老师手写练习和知识点，重点是分片、查询、半连接、并发、2PC/3PC、Raft。 |
| `扫描件_1Given relation EMP .pdf` | 图片型 PDF，已转缩略图并查看关键页 | 与 `2_分布式数据库.pdf` 高度重叠，主要是同一套练习的不同扫描版。 |

## 2. 主 PPT 章节地图

| 章节 | 核心内容 | 考试优先级 |
|---|---|---|
| Ch01 Introduction | DDBS 定义、DDBS promises、透明性、分布式管理的动机 | 高 |
| Ch02 Database Models | C/S 体系结构、E-R、层次/网状模型 | 中 |
| Ch03 Relational Model | 关系模型、关系代数、函数依赖、闭包、规范化、BCNF/3NF/4NF | 中高 |
| Ch04 Architecture | ANSI/SPARC、DDBMS 架构、全局目录、透明性扩展 | 高 |
| Ch05 Design | 分布设计、分片类型、分片正确性、水平/导出水平/垂直分片、BEA、分配 | 极高 |
| Ch06 Semantic | 视图、安全、完整性控制 | 中低 |
| Ch07-09 Query | 查询处理四层、查询分解、局部化、查询优化、半连接、SDD-1 | 极高 |
| Ch10-12 Transaction | 事务、可串行化、2PL、时标、死锁、2PC、3PC、网络分区投票 | 极高 |

## 3. 重新判定的考试优先级

### 第一优先级，必须会

1. 查询处理与查询优化  
   包括查询分解四步、SQL 到关系代数、查询树、选择/投影下推、片段替换、无用片段消除、半连接和 SDD-1。

2. 分片设计  
   包括完整性、可重构性、不相交性，水平分片 minterm，导出水平分片，垂直分片 AA/CA/BEA。

3. 并发控制和可串行化  
   包括事务 ACID、冲突操作、调度、冲突等价、可串行化、serialization graph、2PL、严格 2PL、保守 2PL、时间戳排序。

4. 可靠性协议  
   包括提交协议、终结协议、恢复协议，2PC/3PC 的过程、状态图、阻塞点、3PC 为什么减少阻塞。

### 第二优先级，开卷论述要会写

1. Ch02/Ch04 架构题  
   C/S 二层、三层、多层；ANSI/SPARC 三层模式；DDBS 和 MDBS 扩展；全局目录和透明性。补充试卷把 C/S 标到 Ch02，把 ANSI/SPARC 标到 Ch04。

2. DATAID-D  
   比集中式数据库设计多出“分布要求分析”和“分布设计”，分布设计又包括分片设计、非冗余分配、冗余分配、局部模式重构。

3. Ch03 关系模型补充  
   属性闭包、函数依赖、规范化过程。`分布式试卷version2.0.pdf` 明确出现 `{ACE}+` 这类题。

4. Paxos/Raft  
   不一定深算，但简答里出现。会写 Paxos 两阶段、Raft 选主和日志复制即可。

### 第三优先级，有余力再背

1. Ch06 语义数据控制、安全、完整性控制。
2. Hadoop/Spark/HBase 这类开放论述。试卷出现过，但更像课程报告或扩展题。
3. 传统填空里的加密、客户机/服务器优缺点、数据分布策略细节。

## 4. 高频题型总表

| 题型 | 高频依据 | 必须写出的东西 |
|---|---|---|
| DDBS promises 和透明性 | Ch01、试卷 version2 | 透明管理、可靠/可用、性能、扩展；网络/复制/分片透明性。 |
| C/S 体系结构 | Ch02、试卷 version2 | 二层肥客户/瘦服务器，三层表示/应用/数据，多层是三层推广。 |
| ANSI/SPARC 扩展 | Ch04、试卷 version2 | 外模式、概念模式、内模式；DDBS 加全局概念、局部概念、局部内模式。 |
| 分片正确性 | Ch05、老师重点、论述题、扫描题 | completeness、reconstruction、disjointness。 |
| 水平分片 minterm | Ch05、扫描题 3.1/3.2 | 简单谓词、最小项谓词、去矛盾最小项、按选择条件生成片段。 |
| 导出水平分片 | Ch05、论述题 | 由 owner relation 的分片通过半连接/连接条件导出 member relation 的分片。 |
| 垂直分片 BEA | Ch05、试卷 version2、扫描题 3.6 | 先算 AA，再用 BEA 排列得到 CA，最后找分割点，主键要加入每个片段以便重构。 |
| 查询分解和局部化 | Ch07-09、扫描题 7.x | normalize、analyze、simplify、restructure；全局关系替换成重构公式；删除矛盾片段。 |
| 半连接/SDD-1 | Ch07-09、简答、扫描题 8.x | 列候选半连接，算 benefit/cost，迭代更新统计量，选最终 assembly site。 |
| 可串行化判断 | Ch10-12、简答、扫描题 11.x | 找冲突边，画 serialization graph，有环则非冲突可串行化。 |
| 2PL/时标 | Ch10-12、简答、扫描知识点 | 2PL 增长/收缩；严格 2PL；保守 2PL；rts/wts 判断读写是否拒绝。 |
| 2PC/3PC | Ch10-12、简答、论述、扫描知识点 | 2PC 两阶段，READY 阻塞；3PC 加 PRECOMMIT 和超时机制，减少阻塞但不等于绝对一致。 |
| Paxos/Raft | 简答、扫描知识点 | Paxos prepare/accept；Raft leader election 和 log replication。 |

## 5. 资料里需要注意的误导点

1. 半连接公式不要只死背简化版。  
   主 PPT 给出的通式是 `Benefit(R ⋉ S) = (1 - SFSJ(S.A)) * size(R) * TTR`，`Cost(R ⋉ S) = TMSG + TTR * size(πA(S))`。当题目给 `TMSG=0, TTR=1` 时，才简化成 `benefit = (1 - SFSJ) * size(R)`。

2. SDD-1 不是一次性选最大收益就结束。  
   它是迭代过程：先构造 beneficial semijoins 集合，选入执行序列后更新统计量，再重新计算后续 benefit/cost。

3. 3PC 不能简单理解为“超时就提交”。  
   课程 PPT 的状态规则更细：INITIAL 可单方面 abort；READY/PRECOMMIT 要进入终结协议或新协调者逻辑；PRECOMMIT 后更接近 commit。考试回答可以写“3PC 通过 PRECOMMIT 和超时机制减少 2PC 的阻塞，但网络分区时仍可能不一致”。

4. 严格 2PL 的表述要按课程口径。  
   严格 2PL 重点是提交或撤销前不释放写锁，很多实现会在事务结束时释放所有锁；保守 2PL 是事务开始前一次性获得所有需要的锁。

5. Paxos/Raft 不是拜占庭容错。  
   简答材料明确是无恶意节点场景，即节点可能丢消息、不响应、故障，但不会篡改消息。

6. Ch03 不能再完全跳过。  
   新试卷明确考属性闭包和规范化。它不是分布式数据库核心，但会直接拿分。

## 6. 原 7 天计划需要调整的地方

原计划大方向正确，但需要三处上调：

1. Ch02/Ch04 架构和 Ch03 关系模型提前学。  
   试卷 version2 明确出现 C/S、ANSI/SPARC、闭包、规范化，不能只放最后。

2. Day 6 内容太挤。  
   并发控制、2PC/3PC、Paxos/Raft、网络分区投票都出现，建议把并发控制从 Day 5 开始，可靠性从 Day 6 单独强化。

3. Hadoop/Spark/HBase 作为开卷论述备选。  
   不建议投入太多计算题时间，但要准备 1 页可抄的答案骨架。

## 7. 新的复习主线建议

1. 先用 Ch01、Ch02 和 Ch04 建概念地图：DDBS、透明性、C/S、ANSI/SPARC。
2. 再学 Ch05 分片：正确性、水平/导出水平/垂直、BEA。
3. 接着学 Ch07-09 查询：分解、本地化、半连接、SDD-1。
4. 然后学 Ch10-12：可串行化、2PL、时标、死锁、2PC、3PC。
5. 最后补 Ch03：闭包、函数依赖、规范化；再背 Hadoop/Spark/HBase 和 Paxos/Raft。

## 8. 开卷考试材料定位

| 想查什么 | 优先查 |
|---|---|
| 课程原始定义 | 老师主 PPT 对应章节 |
| 分片计算题 | 扫描题 3.1-3.6、Ch05 Design |
| 查询树和局部化 | 扫描题 7.x、Ch07-09 Query |
| 半连接 SDD-1 | Ch07-09 Query 中文练习、扫描题 8.x |
| 可串行化和并发 | 扫描题 11.x、Ch10-12 Transaction、数据库简答 |
| 2PC/3PC 状态图 | 扫描件知识点 6、Ch10-12 Transaction |
| 论述题答案骨架 | `分布式试卷version2.0.pdf`、`分布式数据库考题-论述.pdf` |
| 填空名词解释 | `分布式数据库系统及其应用-复习.doc` |

## 9. 当前结论

这批补充材料说明考试不是单纯考英文教材练习题，而是“计算题 + 论述题 + 简答定义”混合。最高收益路线应改为：

`Ch05 分片` + `Ch07-09 查询` + `Ch10-12 事务可靠性` 是主干，`Ch02/Ch04 架构` 和 `Ch03 关系模型` 是新增必须补的拿分点。Ch06 和大数据扩展放在最后准备答案骨架即可。
