Home / cs-notes / Others / Character Set / Unicode
- 编码平面
    
- U+0000 ~ U+10FFFF
 - 65536 * 17
 - Plane 0 ~ Plane 17
 - BMP
        
- Plane 0
 - Basic Multilingual Plane
 - 基本多语言平面
 - U+0000 ~ U+FFFF
 
 - SP
        
- Supplementary Planes
 - 增补平面
 
 
 - 代理区
    
- Surrogate Area
 - D8~DF
        
- D800–DBFF 属于高代理区(High Surrogate Area)
 - DC00–DFFF 属于低代理区(Low Surrogate Area)
 - 4 * 256 = 1024
 - 1024 * 2 = 2048
 - 1024 * 1024 = 2 ^ 20 = 16 * 2 ^ 16
 
 - 代理对
        
- Surrogate Pair
 
 
 - UTF-16
    
- 代理区
 
 - UTF-32
    
- 直接编解码
 
 - UTF-8
    
- 高位无重叠
        
- 便于搜索、匹配
 
 - 多字节高位固定模版
        
- 首字节
            
- 0xxxxxxx
 - 110xxxxx
 - 1110xxxx
 - 11110xxx
 
 - 跟随字节
            
- 10xxxxxx
 
 
 - 首字节
            
 - 低位由 UTF-16 二进制依次填入
 
 - 高位无重叠