3. VFS

3. VFS
上一頁	第 29 章檔案系統	下一頁

Linux支持各種各樣的檔案系統格式，如ext2、ext3、reiserfs、FAT、NTFS、iso9660等等，不同的磁碟分區、光盤或其它存儲設備都有不同的檔案系統格式，然而這些檔案系統都可以mount到某個目錄下，使我們看到一個統一的目錄樹，各種檔案系統上的目錄和檔案我們用ls命令看起來是一樣的，讀寫操作用起來也都是一樣的，這是怎麼做到的呢？Linux內核在各種不同的檔案系統格式之上做了一個抽象層，使得檔案、目錄、讀寫訪問等概唸成為抽象層的概念，因此各種檔案系統看起來用起來都一樣，這個抽象層稱為虛擬檔案系統（VFS，Virtual Filesystem）。上一節我們介紹了一種典型的檔案系統在磁碟上的存儲佈局，這一節我們介紹運行時檔案系統在內核中的表示。

3.1. 內核資料結構

Linux內核的VFS子系統可以圖示如下：

圖 29.8. VFS

在第 28 章 檔案與I/O中講過，每個進程在PCB（Process Control Block）中都保存着一份檔案描述符表，檔案描述符就是這個表的索引，每個表項都有一個指向已打開檔案的指針，現在我們明確一下：已打開的檔案在內核中用file結構體表示，檔案描述符表中的指針指向file結構體。

在file結構體中維護File Status Flag（file結構體的成員f_flags）和當前讀寫位置（file結構體的成員f_pos）。在上圖中，進程1和進程2都打開同一檔案，但是對應不同的file結構體，因此可以有不同的File Status Flag和讀寫位置。file結構體中比較重要的成員還有f_count，表示引用計數（Reference Count），後面我們會講到，dup、fork等系統調用會導致多個檔案描述符指向同一個file結構體，例如有fd1和fd2都引用同一個file結構體，那麼它的引用計數就是2，當close(fd1)時並不會釋放file結構體，而只是把引用計數減到1，如果再close(fd2)，引用計數就會減到0同時釋放file結構體，這才真的關閉了檔案。

每個file結構體都指向一個file_operations結構體，這個結構體的成員都是函數指針，指向實現各種檔案操作的內核函數。比如在用戶程序中read一個檔案描述符，read通過系統調用進入內核，然後找到這個檔案描述符所指向的file結構體，找到file結構體所指向的file_operations結構體，調用它的read成員所指向的內核函數以完成用戶請求。在用戶程序中調用lseek、read、write、ioctl、open等函數，最終都由內核調用file_operations的各成員所指向的內核函數完成用戶請求。file_operations結構體中的release成員用於完成用戶程序的close請求，之所以叫release而不叫close是因為它不一定真的關閉檔案，而是減少引用計數，只有引用計數減到0才關閉檔案。對於同一個檔案系統上打開的常規檔案來說，read、write等檔案操作的步驟和方法應該是一樣的，調用的函數應該是相同的，所以圖中的三個打開檔案的file結構體指向同一個file_operations結構體。如果打開一個字元設備檔案，那麼它的read、write操作肯定和常規檔案不一樣，不是讀寫磁碟的數據塊而是讀寫硬件設備，所以file結構體應該指向不同的file_operations結構體，其中的各種檔案操作函數由該設備的驅動程式實現。

每個file結構體都有一個指向dentry結構體的指針，“dentry”是directory entry（目錄項）的縮寫。我們傳給open、stat等函數的參數的是一個路徑，例如/home/akaedu/a，需要根據路徑找到檔案的inode。為了減少讀盤次數，內核緩存了目錄的樹狀結構，稱為dentry cache，其中每個節點是一個dentry結構體，只要沿著路徑各部分的dentry搜索即可，從根目錄/找到home目錄，然後找到akaedu目錄，然後找到檔案a。dentry cache只保存最近訪問過的目錄項，如果要找的目錄項在cache中沒有，就要從磁碟讀到內存中。

每個dentry結構體都有一個指針指向inode結構體。inode結構體保存着從磁碟inode讀上來的信息。在上圖的例子中，有兩個dentry，分別表示/home/akaedu/a和/home/akaedu/b，它們都指向同一個inode，說明這兩個檔案互為硬連結。inode結構體中保存着從磁碟分區的inode讀上來信息，例如所有者、檔案大小、檔案類型和權限位等。每個inode結構體都有一個指向inode_operations結構體的指針，後者也是一組函數指針指向一些完成檔案目錄操作的內核函數。和file_operations不同，inode_operations所指向的不是針對某一個檔案進行操作的函數，而是影響檔案和目錄佈局的函數，例如添加刪除檔案和目錄、跟蹤符號連結等等，屬於同一檔案系統的各inode結構體可以指向同一個inode_operations結構體。

inode結構體有一個指向super_block結構體的指針。super_block結構體保存着從磁碟分區的超級塊讀上來的信息，例如檔案系統類型、塊大小等。super_block結構體的s_root成員是一個指向dentry的指針，表示這個檔案系統的根目錄被mount到哪裡，在上圖的例子中這個分區被mount到/home目錄下。

file、dentry、inode、super_block這幾個結構體組成了VFS的核心概念。對於ext2檔案系統來說，在磁碟存儲佈局上也有inode和超級塊的概念，所以很容易和VFS中的概念建立對應關係。而另外一些檔案系統格式來自非UNIX系統（例如Windows的FAT32、NTFS），可能沒有inode或超級塊這樣的概念，但為了能mount到Linux系統，也只好在驅動程式中硬湊一下，在Linux下看FAT32和NTFS分區會發現權限位是錯的，所有檔案都是rwxrwxrwx，因為它們本來就沒有inode和權限位的概念，這是硬湊出來的。

3.2. dup和dup2函數

dup和dup2都可用來複制一個現存的檔案描述符，使兩個檔案描述符指向同一個file結構體。如果兩個檔案描述符指向同一個file結構體，File Status Flag和讀寫位置只保存一份在file結構體中，並且file結構體的引用計數是2。如果兩次open同一檔案得到兩個檔案描述符，則每個描述符對應一個不同的file結構體，可以有不同的File Status Flag和讀寫位置。請注意區分這兩種情況。

#include <unistd.h>

int dup(int oldfd);
int dup2(int oldfd, int newfd);

如果調用成功，這兩個函數都返回新分配或指定的檔案描述符，如果出錯則返回-1。dup返回的新檔案描述符一定該進程未使用的最小檔案描述符，這一點和open類似。dup2可以用newfd參數指定新描述符的數值。如果newfd當前已經打開，則先將其關閉再做dup2操作，如果oldfd等於newfd，則dup2直接返回newfd而不用先關閉newfd再複製。

下面這個例子演示了dup和dup2函數的用法，請結合後面的連環畫理解程序的執行過程。

例 29.2. dup和dup2示常式序

#include <unistd.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(void)
{
	int fd, save_fd;
	char msg[] = "This is a test\n";

	fd = open("somefile", O_RDWR|O_CREAT, S_IRUSR|S_IWUSR);
	if(fd<0) {
		perror("open");
		exit(1);
	}
	save_fd = dup(STDOUT_FILENO);
	dup2(fd, STDOUT_FILENO);
	close(fd);
	write(STDOUT_FILENO, msg, strlen(msg));
	dup2(save_fd, STDOUT_FILENO);
	write(STDOUT_FILENO, msg, strlen(msg));
	close(save_fd);
	return 0;
}

圖 29.9. dup/dup2示常式序

重點解釋兩個地方：

第3幅圖，要執行dup2(fd, 1);，檔案描述符1原本指向tty，現在要指向新的檔案somefile，就把原來的關閉了，但是tty這個檔案原本有兩個引用計數，還有檔案描述符save_fd也指向它，所以只是將引用計數減1，並不真的關閉檔案。
第5幅圖，要執行dup2(save_fd, 1);，檔案描述符1原本指向somefile，現在要指向新的檔案tty，就把原來的關閉了，somefile原本只有一個引用計數，所以這次減到0，是真的關閉了。

上一頁	上一級	下一頁
2. ext2檔案系統	起始頁	第 30 章進程