Im Allgemeinen werden sie alle mit SRAM implementiert.
(Die POWER- und zArchitecture-Chips von IBM verwenden DRAM-Speicher für L3. Dies wird als eingebetteter DRAM bezeichnet, da er in derselben Art von Prozesstechnologie wie Logik implementiert ist. Dadurch kann schnelle Logik in denselben Chip wie der DRAM integriert werden. Für POWER4 Chip L3 verwendet eDRAM; POWER7 hat den L3 auf demselben Chip wie die Prozessorkerne.)
Obwohl sie SRAM verwenden, verwenden sie nicht alle das gleiche SRAM-Design. SRAM für L2 und L3 sind hinsichtlich der Größe optimiert (um die Kapazität bei einer begrenzten herstellbaren Chipgröße zu erhöhen oder die Kosten einer bestimmten Kapazität zu senken), während SRAM für L1 eher für die Geschwindigkeit optimiert wird.
Noch wichtiger ist, dass sich die Zugriffszeit auf die physische Größe des Speichers bezieht. Bei einem zweidimensionalen Layout kann man davon ausgehen, dass die Latenz für physische Zugriffe in etwa proportional zur Quadratwurzel der Kapazität ist. (Die nicht einheitliche Cache-Architektur nutzt dies, um einen Teil des Caches mit niedriger Latenz bereitzustellen. Die L3-Slices neuerer Intel-Prozessoren haben einen ähnlichen Effekt; ein Treffer im lokalen Slice hat eine wesentlich geringere Latenz.) Dieser Effekt kann einen DRAM-Cache schneller machen als ein SRAM-Cache bei hohen Kapazitäten, da der DRAM physisch kleiner ist.
Ein weiterer Faktor ist, dass die meisten L2- und L3-Caches den seriellen Zugriff auf Tags und Daten verwenden, wobei die meisten L1-Caches parallel auf Tags und Daten zugreifen. Dies ist eine Energieoptimierung (L2-Missraten sind höher als L1-Missraten, sodass der Datenzugriff mit höherer Wahrscheinlichkeit verschwendet wird; L2-Datenzugriff erfordert im Allgemeinen mehr Energie - bezogen auf die Kapazität -), und L2-Caches weisen normalerweise eine höhere Assoziativität auf was bedeutet, dass mehr Dateneinträge spekulativ gelesen werden müssten). Wenn Sie auf den Tag-Abgleich warten müssen, bevor Sie auf die Daten zugreifen, erhöht sich natürlich die zum Abrufen der Daten erforderliche Zeit. (Der L2-Zugriff beginnt normalerweise auch erst, nachdem ein L1-Fehltreffer bestätigt wurde, sodass die Latenzzeit der L1-Fehlschlagserkennung zur Gesamtzugriffslatenz von L2 addiert wird .)
Außerdem ist der L2-Cache physisch weiter von der Ausführungsmaschine entfernt. Ein Platzieren des L1-Datencaches in der Nähe der Ausführungsengine (damit der häufige Fall des Treffers L1 schnell ist) bedeutet im Allgemeinen, dass L2 weiter entfernt angeordnet werden muss.