国产av一区二区精品凹凸,成人片黄色大片

1，介紹

我們可以把物理內(nèi)存簡單地看成一個(gè)大的數(shù)組，其中每個(gè)字節(jié)都可以通過物理地址進(jìn)行訪問。

前面的文章《一文搞懂DDR SD RAM 工作原理》介紹過物理內(nèi)存的物理結(jié)構(gòu)，及怎么通過控制器、PHY讀、寫SDRAM芯片獲取、寫入數(shù)據(jù)，讓我們明白物理內(nèi)存在硬件原理方面的實(shí)現(xiàn)是什么樣的。

在《一文搞懂CPU的工作原理》介紹過CPU訪問物理內(nèi)存的全過程，總結(jié)下來就是：

CPU寫物理內(nèi)存的過程：CPU先給出要寫入數(shù)據(jù)的物理地址對(duì)應(yīng)的虛擬地址，通過MMU轉(zhuǎn)化為物理地址，若cache中沒有命中，則將要寫入數(shù)據(jù)的物理地址放到系統(tǒng)總線上。DDR的控制器感受到總線上的地址信號(hào)以及寫控制信號(hào)，將物理地址從總線上讀出來，并等待數(shù)據(jù)的到達(dá)。CPU將數(shù)據(jù)發(fā)送到系統(tǒng)總線上，DDR控制器感受到總線上的數(shù)據(jù)信號(hào)，將數(shù)據(jù)從總線上讀取出來。DDR控制器通過物理地址找到相應(yīng)的存儲(chǔ)模塊，然后將數(shù)據(jù)寫入到物理地址對(duì)應(yīng)的存儲(chǔ)模塊。

CPU讀物理內(nèi)存的過程：CPU給出要讀數(shù)據(jù)的物理地址對(duì)應(yīng)的虛擬地址，通過MMU轉(zhuǎn)化為物理地址，若cache中沒有命中，則將物理地址放到系統(tǒng)總線上。DDR控制器感受到總線上的地址型號(hào)及讀控制信號(hào)，將物理地址從總線上讀取出來，DDR控制器根據(jù)物理地址找到存儲(chǔ)模塊中數(shù)據(jù)的位置，并從SDRAM芯片中取出物理地址對(duì)應(yīng)的數(shù)據(jù)，DDR控制器將數(shù)據(jù)放到總線上，CPU從總線上獲取數(shù)據(jù)，并存放到寄存器上。

之前已經(jīng)講述過CPU讀、寫物理內(nèi)存的過程，本文主要講述linux內(nèi)核是怎么管理物理內(nèi)存，包括物理內(nèi)存涉及的數(shù)據(jù)結(jié)構(gòu)、內(nèi)存模型、內(nèi)存架構(gòu)、物理內(nèi)存的管理流程。

2，數(shù)據(jù)結(jié)構(gòu)

與物理內(nèi)存相關(guān)的數(shù)據(jù)結(jié)構(gòu)有內(nèi)存節(jié)點(diǎn)（pglist_data）、內(nèi)存管理區(qū)（zone）、物理頁面（page）、mem_map數(shù)組、頁表項(xiàng)（PTE）、頁幀號(hào)（PFN）、物理地址（paddress）。

Linux內(nèi)核通過struct page來管理物理內(nèi)存中的一個(gè)頁。內(nèi)核為每個(gè)物理頁定義了一個(gè)索引編號(hào)PFN（Page Frame Number，頁幀號(hào)），這個(gè)PFN與struct page是一一對(duì)應(yīng)的。通過page_to_pfn/pfn_to_page兩個(gè)宏實(shí)現(xiàn)物理頁和struct page之間的相互轉(zhuǎn)換。

3，框架

3.1 內(nèi)存架構(gòu)

在當(dāng)前的計(jì)算機(jī)、嵌入式系統(tǒng)中，以內(nèi)存為研究對(duì)象可以分成兩種架構(gòu)。一種是UMA（Uniform Memory Access，統(tǒng)一內(nèi)存訪問）架構(gòu)，另外一種是NUMA（Non-Uniform Memory Access，非統(tǒng)一內(nèi)存訪問）架構(gòu)。

1） UMA內(nèi)存架構(gòu)

內(nèi)存可以被其他模塊統(tǒng)一尋址，有統(tǒng)一的結(jié)構(gòu)。目前，大部分嵌入式系統(tǒng)及計(jì)算機(jī)系統(tǒng)都采用UMA架構(gòu)。如上圖所示，是一個(gè)UMA架構(gòu)的系統(tǒng)，有兩個(gè)cpu位于同一個(gè)cluster中，cpu分別有自己的L1D、L1I cache及L2 cache。兩個(gè)cpu共享L3 cache，通過系統(tǒng)總線可以訪問物理內(nèi)存DDR，SRAM、SSD等模塊，并且兩個(gè)CPU對(duì)物理內(nèi)存的訪問消耗是一樣的。這種訪問模式的處理器被成為SMP（Aymmetric Multiprocessing，對(duì)稱多處理器）

2） NUMA內(nèi)存架構(gòu)

系統(tǒng)中有多個(gè)內(nèi)存節(jié)點(diǎn)和多個(gè)cpu cluster，CPU訪問本地內(nèi)存節(jié)點(diǎn)的時(shí)間開銷最小，訪問遠(yuǎn)端的內(nèi)存節(jié)點(diǎn)的時(shí)間開銷要大。如上圖所示，是一個(gè)NUMA架構(gòu)的系統(tǒng)，其中cpu0、cpu1在cluster0中，與相應(yīng)的L1I/L1D cache、L2 cache、L3 cache及DDR組成node0節(jié)點(diǎn)。同樣的，CPU2、CPU3在cluster1中，與相應(yīng)的L1I/L1D cache、L2 cache、L3 cache及DDR組成node1節(jié)點(diǎn)。兩個(gè)node節(jié)點(diǎn)，通過UPI（Ultra Path Interconnect，超路徑互聯(lián)）總線連接。CPU0可以通過這個(gè)UPI訪問遠(yuǎn)端node1上的物理內(nèi)存，但是要比本地node0的內(nèi)存訪問慢得多。

3.2 內(nèi)存模型

內(nèi)核是以頁為單位使用struct page數(shù)據(jù)結(jié)構(gòu)來管理物理內(nèi)存的。內(nèi)核通過物理內(nèi)存模型來實(shí)現(xiàn)組織管理這些物理內(nèi)存頁，不同的物理內(nèi)存模型，應(yīng)對(duì)的場景及頁幀號(hào)與物理頁之間的計(jì)算方式也不一樣。

1）平坦內(nèi)存模型：FLATMEM

Linux早期使用的物理內(nèi)存比較小，比如幾十MB，并且這些物理內(nèi)存是一片連續(xù)的存儲(chǔ)空間，這樣物理地址也是連續(xù)的，按固定頁大小劃分出來的物理頁也是連續(xù)的。Linux內(nèi)核會(huì)用一個(gè)mem_map全局?jǐn)?shù)組來組織管理所有的物理頁，其中物理頁是通過struct page來管理，這樣每個(gè)數(shù)組的下標(biāo)便是PFN。這種連續(xù)的物理內(nèi)存便是平坦內(nèi)存模型。

2）非連續(xù)內(nèi)存模型：DISCONTIGMEM

對(duì)于PLATMEM適合管理一整塊連續(xù)的物理內(nèi)存，但是對(duì)于多塊非連續(xù)的物理內(nèi)存，若使用FLATMEM來管理，這時(shí)mem_map全局?jǐn)?shù)組中會(huì)有不連續(xù)內(nèi)存地址區(qū)的內(nèi)存空洞，這會(huì)造成內(nèi)存空間的浪費(fèi)。為了管理這種不連續(xù)的物理內(nèi)存，內(nèi)核引入了DISCONTIGMEM非連續(xù)內(nèi)存模型來管理，以便消除不連續(xù)的內(nèi)存地址空洞對(duì)mem_map全局?jǐn)?shù)組造成的空間浪費(fèi)。

DISCONTIGMEM非連續(xù)內(nèi)存模型的思路是：將物理內(nèi)存從宏觀上劃分成一個(gè)個(gè)節(jié)點(diǎn)node，但是微觀上還是以物理頁為單位，每個(gè)node節(jié)點(diǎn)管理一塊連續(xù)的物理內(nèi)存，這樣這些非連續(xù)的內(nèi)存，會(huì)以連續(xù)的內(nèi)存方式劃分到node節(jié)點(diǎn)中管理起來，這樣便可以避免內(nèi)存空洞造成的空間浪費(fèi)。

3）稀疏內(nèi)存模型：SPARSEMEM

由于物理內(nèi)存在使用的時(shí)候，會(huì)有很多空洞，這樣物理內(nèi)存存在多處不連續(xù)。如果利用上面講的DISCONTIGMEM內(nèi)存模型，會(huì)造成node眾多，這樣開銷就大了。為了能夠更靈活、更高效的、更小的管理連續(xù)物理內(nèi)存。SPARSEMEM系數(shù)內(nèi)存模型就是為了對(duì)粒度更小的連續(xù)內(nèi)存塊進(jìn)行精細(xì)的管理，用于管理連續(xù)內(nèi)存塊的單元被稱為section。在內(nèi)存中用struct mem_section結(jié)構(gòu)體表示SPARSEMEM模型中的section。

由于section被用作管理小粒度的連續(xù)內(nèi)存塊，這些小的連續(xù)物理內(nèi)存在section中也是通過數(shù)組的方式被組織管理，其中mem_section結(jié)構(gòu)體中的section_mem_map指針用于指向section中管理連續(xù)內(nèi)存的page數(shù)組。SPARSEMEM內(nèi)存模型中的mem_section會(huì)存在放在一個(gè)全局的數(shù)組中，并且每個(gè)mem_section都可以在系統(tǒng)運(yùn)行的時(shí)候進(jìn)行內(nèi)存的offline/online，這樣便可以支持內(nèi)存的熱拔插。

4，物理內(nèi)存初始化

4.1 內(nèi)存大小初始化

物理內(nèi)存的大小會(huì)在DTS（Device Tree Source，設(shè)備樹）中描述，如下dts的描述：

memory { device_type = "memory"; reg = <0x000000000 0x80000000 0x00000000 0x40000000>; };

起始地址為0x80000000，大小為0x40000000

內(nèi)存在啟動(dòng)的過程中，會(huì)解析上面的DTS，相應(yīng)的調(diào)用過程如下：

4.2 memblock內(nèi)存分配器

在伙伴系統(tǒng)沒有初始化前，在內(nèi)核中需要一套機(jī)制管理內(nèi)存的申請(qǐng)與釋放。在啟動(dòng)的過程中，會(huì)解析設(shè)備樹中的memory節(jié)點(diǎn)，把所有物理內(nèi)存添加到memblock中。后面會(huì)通過一篇文章講解memblock分配器。這里先把結(jié)構(gòu)體及函數(shù)接口列出來。

4.3 ZONE初始化

在對(duì)頁表初始化后，內(nèi)核就會(huì)對(duì)內(nèi)存進(jìn)行管理。內(nèi)核會(huì)將這些物理內(nèi)存分配成不同的內(nèi)存管理區(qū)（ZONE），分別針對(duì)這些內(nèi)存管理區(qū)進(jìn)行管理。

常見的內(nèi)存管理區(qū)如下：

ZONE_DMA：用于inter X86 ISA設(shè)備的DMA操作，范圍是0~16MB，ARM沒有這個(gè)內(nèi)存管理區(qū)。

ZONE_DMA32：用于最低4GB的內(nèi)存訪問的設(shè)備，如只支持32位的DMA設(shè)備。

ZONE_NORMAL：4GB 以后的物理內(nèi)存，用于線性映射物理內(nèi)存。若系統(tǒng)內(nèi)存小于4GB，則沒有這個(gè)內(nèi)存管理區(qū)。

ZONE_HIGHMEM：用于管理高端內(nèi)存，這些高端內(nèi)存是不能線性映射到內(nèi)核地址空間的。64位Linux是沒有這個(gè)內(nèi)存管理區(qū)的。

其中ZONE是利用struct zone數(shù)據(jù)結(jié)構(gòu)進(jìn)行管理的，zone數(shù)據(jù)結(jié)構(gòu)經(jīng)常會(huì)被訪問，因此為了提升性能，這個(gè)數(shù)據(jù)結(jié)構(gòu)要求以L1高速緩存對(duì)齊。數(shù)據(jù)結(jié)構(gòu)zone中關(guān)鍵的成員如下：

Watermark：每個(gè)zone在系統(tǒng)啟動(dòng)時(shí)會(huì)計(jì)算出3個(gè)水位，分別是WMARK_MIN（最低警戒水位）、WMARK_LOW（低水位）、WMARK_HIGH（高水位），這些在頁面分配器和kswapd頁面回收中會(huì)用到。

Lowemem_reserve：防止頁面分配器過渡使用低端zone的內(nèi)存。

Zone_pgdat：指向內(nèi)存節(jié)點(diǎn)。

Pageset：用于維護(hù)每個(gè)cpu上的一些列頁面，以減少自旋鎖的使用

Zone_start_pfn：zone的起始頁幀號(hào)。

Managed_pages：zone中被伙伴系統(tǒng)管理的頁面數(shù)量。

Spanned_pages：zone中包含的頁面數(shù)量。

Present_pages：zone里實(shí)際管理的頁面數(shù)量。對(duì)于一些架構(gòu)來說，它和spanned_pages數(shù)量一致。

Free_area：伙伴系統(tǒng)核心的數(shù)據(jù)結(jié)構(gòu)，管理空閑也快鏈表的數(shù)組。

Lock：并行訪問時(shí)用于保護(hù)zone的自旋鎖。

Lruvec：LRU鏈表集合。

4.4 伙伴系統(tǒng)

內(nèi)核啟動(dòng)完成后，物理內(nèi)存的頁面就要添加到伙伴系統(tǒng)中來管理了?；锇橄到y(tǒng)（buddy system）是操作系統(tǒng)中常用的動(dòng)態(tài)內(nèi)存管理方法。用戶提出申請(qǐng)時(shí)，分配一個(gè)大小合適的物理內(nèi)存，當(dāng)用戶釋放后，回收相應(yīng)的物理內(nèi)存。后面會(huì)專門寫一篇介紹伙伴系統(tǒng)的文章，這里只做簡單的介紹。

在伙伴系統(tǒng)中，內(nèi)存塊的大小是2的order次冪個(gè)頁幀。Linux中order的最大值是11?；锇橄到y(tǒng)大致的思想是，將所有空閑的物理內(nèi)存頁面分組成11個(gè)內(nèi)存塊的鏈表，每個(gè)內(nèi)存塊的鏈表分別包含1、2、4、8、16、32、…、1024個(gè)連續(xù)的物理頁面。1024個(gè)物理頁面對(duì)應(yīng)著4MB大小的連續(xù)物理內(nèi)存。

由上一節(jié)我們了解到，物理內(nèi)存在linux中分出了幾個(gè)ZONE來管理空閑物理頁塊。ZONE可以根據(jù)內(nèi)核的配置來劃分。每個(gè)ZONE又是利用伙伴系統(tǒng)來管理。ZONE的數(shù)據(jù)結(jié)構(gòu)有一個(gè)free_area數(shù)據(jù)結(jié)構(gòu)，數(shù)據(jù)結(jié)構(gòu)的大小是MAX_ORDER（11）。free_area數(shù)據(jù)結(jié)構(gòu)中包含了MIGRATE_TYPES個(gè)鏈表?？梢岳斫獬蒢ONE根據(jù)order的大小由0~（MAX_ORDER-1）個(gè)free_area，每個(gè)free_area根據(jù)MIGRATE_TYPES類型，由幾個(gè)相應(yīng)的鏈表組成。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴