文件类型 | 文件名示例 | 用途 |
---|---|---|
模型权重 | pytorch_model.bin 或 model.safetensors |
包含模型训练后的参数权重 |
配置文件 | config.json |
包含模型架构和超参数配置 |
词汇表文件 | vocab.json , vocab.txt , tokenizer.json |
分词器所需的词汇映射 |
分词器配置 | tokenizer_config.json |
分词器的配置参数 |
特殊标记文件 | special_tokens_map.json |
定义特殊标记(如[CLS], [SEP]等) |
PyTorch 格式
model/
├── pytorch_model.bin # 模型权重
├── config.json # 模型配置
├── tokenizer.json # 分词器
├── tokenizer_config.json # 分词器配置
└── vocab.txt # 词汇表
TensorFlow 格式
model/ ├── model.ckpt.index # 模型权重索引 ├── model.ckpt.data-00000-of-00001 # 模型权重数据 ├── config.json # 模型配置 └── vocab.txt # 词汇表
SafeTensors 格式(推荐)
model/
├── model.safetensors # 安全的模型权重格式
├── config.json # 模型配置
└── tokenizer.json # 分词器