tf存储原理 - 穆世明博客

闪存的读写单位为页，而页的大小一般为4KB或8KB，但我们的操作系统读写数据是按HDD（硬盘）的扇区尺寸进行的（512Byte（字节）），更麻烦的是闪存擦除以块作单位，而且未擦除就无法写入，这导致操作系统现在使用的文件系统根本无法管理SSD（固态硬盘），需要更换更先进、复杂的文件去解决这个问题，但会增加操作系统负担。而为了不加重操作系统的负担，SSD采用软件的方式把闪存的操作虚拟成磁盘的独立扇区操作，这就是FTL。因为FTL存在于文件系统和物理介质（闪存）之间，操作系统只需跟原来一样操作LBA（逻辑区块地址）即可，LBA（逻辑区块地址）到PBA（物理区块地址）的所有转换工作就全交给FTL负责。

2.关于LBA和PBA：

通俗的讲，LBA就等于我们平常使用的门牌地址（如：中华人民共和国广东省广州市中山四路26号）。而PBA全称为 Physics Block Address，相对于LBA来说，它就如GPS 定位所使用的经纬度（如上面地址的经纬度为：东经:113°16′40.0621″，北纬:23°07′ 37.6129″）。

在HDD上，由于HDD的数据可以直接覆盖，所以LBA和PBA的关系是1:1对应，不会变更，即LBA=PBA。在SSD上，由于SSD使用的存储介质NAND闪存有需要先擦除才能再写入的特性，和读写以页为单位，擦除以块（多个页组成）为单位的特性，导致LBA和 PBA的关系不再是固定不变的。导致LBA和 PBA的关系不再是固定不变的。因此SSD就需要一层叫做FTL的东西来作转换，以配合现有的文件系统。

NAND闪存的擦除/写入关系：

（闪存页大小一般为4KB或8KB，块一般有128至256页，详情请参考具体闪存颗粒数据手册）由于NAND闪存的特性，SSD的主控制器是使用LBA和PBA的映射表来管理闪存的。当有需要更新的数据要写入时，主控会把新数据写入到空白的闪存空间（已擦除状态的）内，然后更新映射表数据，把LBA指向新的PBA。原来的PBA就成了无效数据，这个PBA若要再次写入数据就需先进行擦除的操作。但这里会产生一个问题，闪存颗粒的寿命是按Program/Erase（编程/擦除，由于闪存不能覆盖，写入前必须擦除，所以习惯叫编程，不过为方便大家阅读，后面我们依然叫写入）次数计算的，MLC（多阶存储单元闪存）的寿命一般在1000-10000次，SLC（单阶存储单元闪存）则在10万次左右。（详情请参考具体闪存颗粒数据手册）。

3.FTL算法：

即一种LBA（逻辑区块地址）到PBA（物理区块地址）的映射。当文件系统发送指令要写入或者更新一个特定的逻辑页时，FTL实际上是把数据写入到一个不同的空闲物理页并更新映射表（LBA和PBA的关联数据），并把这个页上包含的“旧数据”标记为“无效”（更新后的数据已经写入新的PBA，旧地址的数据自然就失效了）。正是因为FTL的存在，操作系统才能把SSD当成HDD那样操作，因为FTL转换的性能也就直接影响SSD的性能表现，而且FTL算法也是影响SSD寿命及稳定性的决定因素之一。

假设在page0上写入数据(物理地址n）,接下来写入数据到page1(物理地址n+1)。接着page0数据被更新，但是更新后的数据并不是覆盖上去，FTL会把它写入到地址(n+2)上，然后标记(地址n)为"无效"。经过多次这样的操作后，这个块上就会装满了许多"有效"及"无效"的数据。如果要再次写入到这个块，就需要先擦除整个块的数据，当然就需要先把所有“有效”的数据复制到另外的空白快上再进行擦除。这样的操作就是GC（即垃圾回收）。

4.GC（Garbagecollection）垃圾回收：

所谓GC就是把一个闪存块里的'有效'页数据复制到一个'空白'块里，然后把这个块完全擦除。GC是SSD里的一个非常关键的操作，其效率对性能有决定性影响。闪存块里'有效'页的数量对GC效率有决定性的影响，因数量越少，需要复制的页就越少，花费的时间也越少，效率就高了。

由WL（Wear leveling，磨损平衡）机制可知，WL的执行需要有"空白"块来写入更新后的数据。当可以直接写入数据的备用"空白块"数量低于一个阈值（厂商在主控固件里设置，一般为全盘闪存容量写满后），那么SSD主控就会把包含"无效"数据的块里所有"有效"数据合并起来放到新的"空白"块里，并删除"无效"数据块来增加备用的"空白块"数量。这个操作就是SSD的GC机制。

由于GC会对SSD产生大量负载，因此GC可分闲置GC及被动GC。闲置GC就是让SSD主控在系统闲置时'提前'进行GC操作，产生一定数量的'空白'块，让GC操作不至于明显影响用户使用感受，但缺点是会因此造成额外的WA（写入放大），因为刚GC的'有效'数据可能会因为用户更新而变'无效'。被动GC则是所有SSD一定具备的，SSD主控性能对被动GC效率有决定性影响，因为此时SSD需要同时进行GC及用户要求的数据操作，主控性能不足就会让用户发觉SSD的性能下降。

5.WL（Wear leveling）磨损平衡：

（原文链接：https://blog.csdn.net/guojing3625/article/details/）闪存寿命是以P/E次数来计算的，而WL就是确保闪存内每个块被写入的次数相等的一种机制。若没有这个机制，SSD内的闪存颗粒就无法在同一时间内挂掉，那对用户来说就是灾难。

会出现这种情况的原因在于，用户在LBA空间里的数据更新速度是不同的，有部分是经常需要更新，而有些却长期不需要变更，因此若没有WL，很显然那些经常被更新的数据所在的闪存寿命会首先被消耗完毕，而不怎么需要变更的数据所在的闪存损耗就要小得多。为了避免出现这种状况，便需要WL这个机制来保持SSD内的每个闪存颗粒的磨损程度在相对一致的状态且最后同时报废，但由于颗粒本身也有其个体差异，因此这里说的也只是最理想的状态。

WL技术依赖于LBA和PBA的转换：也就是说，每次主机上应用程序请求相同的逻辑页地址时，闪存控制器动态的映射逻辑页地址到另一个不同的物理页地址，并把这个映射的指向存放在一个特定的“映射表”里。而之前过期的物理页地址就被标记为“无效”并等待随后的擦除操作。这样一来，所有的物理块就能被控制在一个相同磨损范围，并同时“老化”。（需要了解WL的实现机制）

WL算法有动态及静态两种，简单来说动态WL是每次都挑最年轻的闪存块使用，老闪存块尽量不用。静态WL就是把长期没有修改的老数据从年轻的闪存块里搬出来，重新找个最老的闪存块存放，这样年轻的闪存块就能再次被经常使用，概念很简单，只是这么一句话，但实现起来却非常的复杂，特别是静态WL，而且也只有静态WL才算是真正的全盘WL。

浦科特SSD的全区式磨损平衡（Global Wear Leveling）其实就是静态磨损平衡算法之一。

6.NAND flash组成：

NAND Flash相对NOR Flash更可能发生比特翻转，就必须采用错误探测/错误更正(EDC/ECC)算法，同时NAND Flash随着使用会渐渐产生坏块；我们在使用NAND Flash的SD卡上经常使用FAT文件系统，文章（传送门：FAT文件系统与UEFI - 知乎专栏）可得出，文件分配表会被频繁改写，而每块的擦写次数是NAND Flash寿命的决定性因素。如何才能平衡各块的擦写和为可能的坏块寻找替换呢？通常需要有一个特殊的软件层次，实现坏块管理、擦写均衡、ECC、垃圾回收等的功能，这一个软件层次称为 FTL（Flash Translation Layer）。

一个典型的Flash芯片由Package, die, plane, block和page组成，如下图：

Nand Flash存储设备存储延迟低、功耗低、更高的存储密度、抗震型号更好和噪声低。但是，由于Nand Flash的特性影响(读写擦的单位不一致，每个块有P/E次数限制)，Nand Flash不能直接通过简单的接口转换就拿来使用。所以我们需要在Nand Flash上增加一个管理软件FTL(Flash Translation Layer)进行管理，对外就是一个黑盒子，上层应用可以通过逻辑地址来对这个黑盒子进行访问。

当我们有了块“干净”的Flash，我们第一个想干的事就是写些东西上去，无论我们是写一个byte还是很多东西，必须以page为单位，即写一个byte上去也要写一个page。当我们满意的写了东西上去后，如何修改呢？是不是可以再写一次呢？可惜的是，我们的program操作只能把bit 1改成0，而不能从0改成1. 即我们可以把改成，但不能改成。即有点像逻辑and操作(我们可以通过NAND这个名字联想记忆一下)。那么如何把0改回1呢？这就要靠擦除操作了，但是擦除操作只能在block的上面操作，如果我们把整块block上的所有page都读回RAM，改动后再擦除再写回去(也叫read-modify-write)，似乎问题就完美解决了。但是别忘了，我们前文中提到，NAND flash的寿命是由其擦写次数决定的(P/E数 (Program/Erase Count)来衡量的)，频繁的擦除慢慢的会产生坏块。那么我们如何才能平衡整块flash的整体擦写次数呢？这就要我们的FTL登场了。

2.FTL原理：

FTL简单来说就是系统维护了一个逻辑Block地址（LBA，logical block addresses ）和物理Block地址（PBA, physical block addresses）的对应关系, 如图：

有了这层映射关系，我们需要修改时就不需要改动原来的物理块，只需要标记原块为废块，同时找一个没用的新物理块对应到原来的逻辑块上就好了。问题解决了！实际情况比这个稍微复杂些，我们需要解决以下问题：

A． LBA和PBA究竟是对应page还是block？

B．如何做到寿命均衡?

C．废块何时回收？

D．这个逻辑对应表存储到哪里？

LBA/PBA的颗粒度问题

如果我们把LBA和PBA都设置成page大小，这也叫做page-level mapping，这和我们写入颗粒一致，很灵活。但这么小的粒度会带来一个问题：逻辑对应表太大！想象一下，我们有个64GB的Die，每个page只有4KB，我们的对应表需要64*1024*1024 * 4 /4 = 64MB！这个绝对不能接受。那么按照block，也就是block-level mapping呢? 会不会好些呢？至少占用空间好了很多，但是因为写入时不清楚page情况，往往要整块擦除，效能会大大下降。有没有更好的办法呢？实际使用中常用的是log-block mapping,它从我们现代的log文件系统中学到经验，也充分利用了page和block的不同特性。

如何做到寿命均衡（Wear Levelling）

LBA/PBA的映射本身会对寿命均衡产生正面影响。就如我们SD卡上的FAT文件系统，文件分配表会被经常修改，但由于修改的是逻辑块，我们可以让每次物理块不同而避免经常擦写相同的物理块，这本身就保证不会有物理块被经常擦写。但是有一种情况它没有办法处理，即冷的数据块（cold block），它们被写入后没有更改，就一直占据某些物理块，而这些物理块寿命还很长，而别的热的块却在飞速损耗中。这种情况怎么办呢？我们只有在合适的时机帮它们换个位置了，如何选择这个时机很重要，而且这个搬家动作本身也会损耗寿命本身。这些策略也是各个FTL算法的精华了。

垃圾回收

废块需要找时机回收，这就需要垃圾回收（GC，Garbage Collection）机制。现在到处都会碰到GC，各种高级语言都在炫耀自己有GC，不像C++/C那样要手动回收内存。这里的GC是指回收废块，但是时机非常重要，谁都不希望看到一个存盘后，SSD硬盘固件发现没有干净的块可用，开始整盘GC，就像开始了一个没有进度条的磁盘整理，系统被完全卡死了。聪明的固件往往未雨绸缪，在我们不知不觉下在后台悄悄做垃圾回收，不少固件还同时进行Wear Levelling。

LBA/PBA表存储在哪里

这个表随时可以变化，我们把它存储在哪里呢？是不是也找个page存起来呢？事实上，在大部分的NAND Flash里，还有些空闲块，我们叫它OP(Over Provisioning)。如下图:

这些空闲的块可以极大的帮助我们改善NAND flash的性能，它可以：

A．坏块处理。发现坏块，这些后备的可以立刻顶上，因为有映射机制，上层软件完全感受不到。

B．存储LBA/PBA表

C．给GC和Wear Levelling留下极大的腾挪空间。

D . 减少写入放大（Write Amplification）

事实上，现在几乎所有主流SSD等NAND die上都有OP。譬如我们拿到标称容量240GB的SSD，实际空间可能有256GB甚至更高（一般>7.37%），只不过这些多余的空间我们用不到，感受不到，它完全被SSD固件藏做私用而已。
————————————————
版权声明：本文为CSDN博主「JIN金」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u0/article/details/

上一篇： pandas自定义聚合函数

下一篇： linux多线程实验报告

版权声明：
本文来源网络，所有图片文章版权属于原作者，如有侵权，联系删除。

本文网址：https://www.mushiming.com/mjsbk/7999.html

相关文章：