目录
- 1.缓冲区
- 0.缓冲区的刷新策略
- 1.何为缓冲区?
- 2.总结
 
- 2.理解文件系统
- 0.文件元数据
- 1.了解文件系统 --> 理解inode
- 2.软硬链接
 
1.缓冲区
0.缓冲区的刷新策略
- 一般情况 - 立即刷新
- 行刷新(行缓冲)
- 满刷新(全缓冲)
 
- 特殊情况 - 用户强制刷新(fflush)
- 进程退出
 
- 所有的设备,永远都倾向于全缓冲 - 缓冲区满了,才刷新 --> 需要更少的IO次数 --> 更少次的外设访问 --> 提高效率
- 和外部设备IO的时候,数据量的大小不是主要矛盾,和外设预备IO的过程是最耗费时间的
 
- 一般而言 - 行缓冲的设备文件 --> 显示器
- 全缓冲的设备文件 --> 磁盘文件
 
- 缓冲策略 = 一般 + 特殊
1.何为缓冲区?
int main()
{const char *msg0 = "hello printf\n";const char *msg1 = "hello fwrite\n";const char *msg2 = "hello write\n";printf("%s", msg0);fwrite(msg1, strlen(msg0), 1, stdout);write(1, msg2, strlen(msg2));fork();return 0;
}// 运行结果:  
// hello printf
// hello fwrite
// hello write
- 但如果对进程实现输出重定向呢? ./hello > file
运行结果:  
hello write
hello printf
hello fwrite
hello printf
hello fwrite
- 发现printf和fwrite(库函数)都输出了2次,而write只输出了一次(系统调用) - 一般C库函数写入文件时是全缓冲的,而写入显示器是行缓冲 - printf&fwrite库函数会自带缓冲区(进度条例子就可以说明)
 
- 当发生重定向到普通文件时,数据的缓冲方式由行缓冲变成了全缓冲 - 而放在缓冲区中的数据,就不会被立即刷新,甚至fork之后刷新
- 但是进程退出之后,会统一刷新,写入文件当中
 
- fork的时候,父子数据会发生写时拷贝,所以当父进程准备刷新的时候,子进程也就有了同样的一份数据,随即产生两份数据
- write****没有变化,说明没有所谓的缓冲
 
- 一般C库函数写入文件时是全缓冲的,而写入显示器是行缓冲 
2.总结
- printf&fwrite库函数会自带缓冲区,而write系统调用没有带缓冲区 - 这里所说的缓冲区, 都是用户级缓冲区
- 其实为了提升整机性能,OS也会提供相关内核级缓冲区,不过不再我们讨论范围之内
 
- 那这个缓冲区谁提供呢? - printf&fwrite是库函数, write是系统调用,库函数在系统调用的“上层”, 是对系统调用的“封装”
- 但是write没有缓冲区,而printf&fwrite有 –> 该缓冲区是二次加上的,又因为是C,所以由C标准库提供
 
2.理解文件系统
0.文件元数据
- ls -l读取存储在磁盘上的文件信息,然后显示出来
  
模式 | 硬链接数 | 文件所有者 | 组 | 大小 | 最后修改时间 | 文件名
- 这个信息除了通过ls -l来读取,还有一个stat命令能够看到更多信息
  
1.了解文件系统 --> 理解inode
-  可将磁盘抽象成线性的结构 --> 数组 <-- 类比磁带理解 - 若想访问一个扇区,只要知道数组的下标即可
 
-  对磁盘的管理 --> 对该数组的管理 - 将数据存储到磁盘 --> 将数据存储到该数组
- 找到磁盘特定扇区的位置 --> 找到数组特定的位置
 
-  磁盘是典型的块设备,硬盘分区被划分为一个个的block - 磁盘可被分区 --> 对磁盘的管理 --> 对一个小分区的管理 --> 对一个块的管理
- 一个block的大小是由格式化的时候确定的,并且不可以更改
 ![![[Pasted image 20240223221244.png]]](https://img-blog.csdnimg.cn/direct/2b4d26cb380742b4bcab108c18c85b22.png) 
 
-  Linux管理磁盘文件,是将文件内容和文件属性分开管理的 - 文件 = 内容 + 属性
 
-  Block Group:ext2文件系统会根据分区的大小划分为数个Block Group 
-  Super Block:存放文件系统本身的结构信息(文件系统的属性信息),记录的信息主要有: - bolck和inode的总量
- 未使用的block和inode的数量
- 一个block和inode的大小
- 最近一次挂载的时间,最近一次写入数据的时间,最近一次检验磁盘的时间等其他文件系统的相关信息
- Super Block的信息被破坏,可以说整个文件系统结构就被破坏了
 
-  GDT:块组描述符,描述块组属性信息 - 这个块组多大?已经使用了多少?
- 有多少个inode?已经占用了多少个了?还剩多少个?
- 一共有多少个block?使用了多少?
 
-  Block Bitmap:记录着Data Block中哪个数据块已经被占用,哪个数据块没有被占用 - 如:10000+个blocks,10000+比特位,比特位和特定的block一一对应,比特位为1,代表该block被占用,否则表示可用
 
-  inode Bitmap:每个bit表示一个inode是否空闲可用 - 如:10000+个inode,10000+比特位,比特位和特定的inode一一对应,比特位为1,代表该inode被占用,否则表示可用
 
-  inode Table:存放文件属性 - 如:文件大小,所有者,最近修改时间等
- inode是一个大小为128字节的空间,保存的是对应文件的属性
- 该块组内,所有文件的inode空间的集合,需要标识唯一性,每一个inode块,都要有一个inode编号
- 一般而言:一个文件,一个inode,一个inode编号
 
-  Data blocks:存放文件内容 - 多个4KB(扇区*8)大小的集合,保存的都是特性文件的内容
- 为什么不以512字节为单位? – 磁盘的基本单位扇区的大小 --> 512字节 - 太小了,有可能会导致多次IO,进而导致效率的降低
- 如果OS使用和磁盘一样的大小,万一磁盘基本大小变了的话,OS的源代码要不要进行更改?
- 这样做到了 硬件 和 软件(OS) 进行解耦
 
 
-  将属性和数据分开存放的想法看起来很简单,但实际上是如何工作的? 
-  创建一个新文件主要有以下4个操作: 
- 存储属性 - 内核先找到一个空闲的i节点(这里是263466),内核把文件信息记录到其中
 
- 存储数据 - 该文件需要存储在三个磁盘块,内核找到了三个空闲块:300,500,800
- 将内核缓冲区的第一块数据复制到300,下一块复制到500,以此类推
 
- 记录分配情况 - 文件内容按顺序300,500,800存放,内核在inode上的磁盘分布区记录了上述块列表
 
- 添加文件名到目录 - 新的文件名abc,Linux如何在当前的目录中记录这个文件?
- 内核将入口(263466,abc)添加到目录文件,文件名和inode之间的对应关系将文件名和文件的内容及属性连接起来
 
-  注意: - 目录是文件吗? - 是,有自己的inode,有自己的data block
- data block下存的是 文件名:inode 的映射关系
- 文件名、inode互为key值
 
- 明明磁盘还有空间,为什么创建文件失败? - inode****是固定的,data block是固定的
- 可能是inode数量不够了,也可能是data block数量不够了,导致无法分配
 
 
- 目录是文件吗? 
2.软硬链接
-  软硬链接的本质区别:有没有独立的inode 
-  真正找到磁盘上文件的并不是文件名,而是inode - 在Linux中可以让多个文件名对应于同一个inode
 
-  理解硬链接 - 硬链接没有独立的inode --> 硬链接不是一个独立的文件
- 硬链接是通过inode引用另外一个文件 - 创建硬链接,不是真正的创建新文件
 
- 创建硬链接,究竟做了什么? - 在指定的目录下,建立了 文件名 和 指定inode的映射关系 – 仅此而已
 
- 硬链接通过引用计数来判断有多少个文件名和某inode有关联
  
 
-  理解软链接 - 软连接有独立的inode --> 软链接是一个独立的文件
- 软链接是通过名字引用另外一个文件 - 可以理解成为:软连接的文件内容,是指向的文件对应的路径
- 应用:相当于Windows下的快捷方式
 
 
-  设置软硬链接 
| ln target_filename filename | 设置硬链接 | 
|---|---|
| ln -s target_filename filename | 设置软链接 |