雙倍的性能，雙倍的快樂：英偉達RTX 30系顯卡架構解析

白貓 / 2020-09-05 07:43105948

英偉達在北京時間9月2日舉辦新品發(fā)布會，正式發(fā)布了全新的英偉達RTX 30系顯卡，包括RTX 3070、RTX 3080以及RTX 3090，采用了最新的安培架構以及高度定制的三星的8nm制程工藝，在性能上也取得了極大的提升，可以說幾乎橫掃了所有的20系顯卡。

QQ截圖20200905064646.jpg

英偉達官方表示RTX 3080擁有2倍的RTX 2080的性能，而RTX 3070則超過了RTX 2080 Ti，至于最旗艦的RTX 3090更是能夠滿足8K分辨率和60幀的終極目標，而第三代深度學習單元，第二代的RTX光追處理單元又讓新一代顯卡更加出色，那么為什么今年的30系顯卡如此給力，它又有什么黑科技呢？

目前英偉達舉辦了關于30系安培顯卡的技術講解會，詳細地介紹了新一代的安培架構，也介紹了在安培顯卡上所采用的全新的圖形特性。而在本文中我們也將淺顯地介紹安培架構，此外也將為大家?guī)碛ミ_在30系顯卡上所采用的眾多黑科技。

架構的革新：CUDA數(shù)量大幅提升

對于新一代顯卡來說，架構的改進能夠極大地提升顯卡的性能，而光線追蹤游戲的加入又讓英偉達的顯卡在架構上有著革命性的變化，這種變化在20系顯卡中就已經(jīng)初顯端倪，英偉達在20系顯卡中除了傳統(tǒng)的FP32計算單元之外也額外加入了RT計算單元以及Tensor Core計算單元，其中RT計算單元用于光追的計算，而Tensor Core則是降低實際圖形的渲染分辨率，降低GPU的運算壓力，讓光追游戲更加流暢。

而到了30系顯卡，英偉達又對安培架構進行了更新和改良，其中最大的改動便是更改了每個SM單元中的FP32單元。圖靈架構中一個SM單元擁有一個FP32計算單元，此外還包括RT Core，Tensor Core與INT32計算單元。而到了安培架構，英偉達在一個SM單元中除了設立了獨立的FP32計算單元外，還額外讓INT 32與FP32共享一個計算單元，也就是說在安培架構顯卡中，每一個SM單元的構成為獨立的FP32和INT 32與FP32的組合單元與Tensor Core計算單元。

QQ截圖20200905064833.jpg

和圖靈顯卡相比，安培架構單個用于負責FP32計算的單元翻倍，因此消費者看到的是30系顯卡相當夸張的單精度性能以及CUDA數(shù)量。其中RTX 3070擁有5888個CUDA，RTX 3080擁有8704個CUDA，RTX 3090擁有10496個CUDA，讓性能也能得到極大的提升，RTX 3080的單精度浮點可以達到30T之多。和圖靈顯卡相比，安培顯卡除了能夠提供2倍的FP32性能之外，在L1的帶寬速度也提升了2倍，容量提升了33%，而第二代的光追計算單元和第三代Tensor Core能夠擁有2倍的多邊形渲染與稀疏矩陣的性能。

QQ截圖20200905064854.jpg

并且為了能夠與30系顯卡暴增的CUDA相搭配，全新一代的顯卡也采用了美光最新的GDDR6X顯存，全新的GDDR6X顯存采用了四級脈沖幅度調制（PAM4）信令，可在不增加SGRAM功耗的情況下顯著提高性能，讓顯卡擁有更高的顯存帶寬，其中旗艦版的RTX 3090甚至擁有1TB/S的顯存帶寬，從而也能極大程度地提升游戲性能。30系顯卡最高能夠擁有1.9倍的RTX 20系顯卡的能耗比。

三星8nm制程：更多晶體管帶來性能飛躍

從上述架構描述便可以看到，和圖靈顯卡相比，安培顯卡在規(guī)模上得到了極大的提升，這就需要更多的晶體管以及計算單元才可以實現(xiàn)。而圖靈顯卡所采用的12nm FNN工藝已經(jīng)達到了極限，而顯卡的GPU面積又不能無限擴大，因此更換制程工藝成為了提升顯卡晶體管的不二法門了。

QQ截圖20200905064619.jpg

英偉達在Tesla A100計算卡上選擇的是臺積電的7nm制程工藝，不過在安培顯卡上使用的是深度定制的三星的8nm制程工藝，英偉達將其稱之為三星8N。和12nm FNN制程相比，三星8nm工藝可以帶來更高的晶體管密度，從而在相同Die面積下塞入更多的晶體管。英偉達稱面積最大的GA 102可以擁有280億個晶體管，這個數(shù)量是圖靈顯卡的1.5倍，不過與A100計算卡的542億個晶體管相比，還是少了很多，這額外增加的140億個晶體管自然是增加到了Tensor、RT以及FP32計算單元中，從而確保30系顯卡能夠擁有如同怪獸般的規(guī)格與性能。

QQ截圖20200905064917.jpg

很多消費者會疑問，為什么新一代安培顯卡在光追以及深度學習性能上比圖靈顯卡強這么多，在這一次的技術講解會上，英偉達也詳細地為大家介紹了在安培架構下的幀生成時間。

首先是帕斯卡架構，這個架構采用的是傳統(tǒng)的FP32計算單元，沒有光追架構和深度學習架構，在進行傳統(tǒng)游戲的幀生成時間為12ms，但是如果遇到擁有光線追蹤的游戲，那么帕斯卡架構只能依靠SM單元強行運算，極大地降低了游戲的速率，幀生成時間也提升至92ms。

而到了圖靈顯卡，由于對SM單元進行了優(yōu)化，此外也加入了RT單元和Tensor Core單元，因此純SM單元計算光追的幀生成時間為51ms，已經(jīng)比帕斯卡要快得多，而獨立的RT單元讓幀生成時間降低至19ms，而如果加入DLSS，那么幀生成時間則縮減至13ms，已經(jīng)與傳統(tǒng)游戲無異。

QQ截圖20200905064936.jpg

至于安培架構，英偉達對SM單元的光追性能進行了再一次的改良和強化，如今使用安培架構的顯卡純RT運算的幀生成時間為11ms，而加入了DLSS則降低至7.5ms，要是游戲支持第二代的RT以及DLSS，那么幀生成時間甚至可以降低至6.7ms，已經(jīng)是帕斯卡渲染傳統(tǒng)游戲的一半時間，自然在性能上更加出色。

RTX IO：游戲瞬間完成加載

2020年是游戲設備更新?lián)Q代的一年，目前在游戲機領域，包括索尼和微軟都表示通過最先進的技術讓游戲的加載時間成倍降低，其中索尼表示PS5所集成的超高速SSD讓游戲加載時間降低到一個相當喜人的成績。而這一次英偉達也推出了全新的RTX IO技術，通過GPU與SSD之間進行數(shù)據(jù)交換，從而降低游戲的加載時間，提升玩家們的游戲體驗。

QQ截圖20200905064958.jpg

英偉達稱，傳統(tǒng)的數(shù)據(jù)交換是由硬盤中的文件先與CPU和內存進行數(shù)據(jù)交換，隨后CPU將這些數(shù)據(jù)與顯卡進行交換，也就是說以CPU為數(shù)據(jù)中心進行傳輸，這樣子在運行游戲的時候，考驗的是CPU的性能。過去由于硬盤的速度沒有達到一個很高的水平，因此CPU的性能尚且可以應付數(shù)據(jù)流。

而如今隨著SSD的速度越來越大，CPU處理數(shù)據(jù)流的壓力也越來越多，所需要的CPU處理單元也日益增高，尤其是PCIe 4.0的數(shù)據(jù)量，更是讓CPU壓力巨大，自然處理其他方面的單元就少了很多。英偉達以HDD所需的CPU性能為1，如果讓CPU處理基于PCIe 4.0通道傳輸?shù)膲嚎s數(shù)據(jù)流，那么需要24的CPU性能，顯然極其影響CPU發(fā)揮其作用。

QQ截圖20200905065012.jpg

而RTX IO的出現(xiàn)則讓顯卡率先實現(xiàn)與存儲設備的數(shù)據(jù)交換，而顯卡與CPU之間再進行數(shù)據(jù)交換，從而解放CPU的算力，英偉達表示使用RTX IO之后，如果是PCIe 4.0的SSD，那么原本24的性能需求如今只需0.5的相對性能就可以實現(xiàn)相同的功效，極大程度地提升了CPU的使用效率，具體而言就是大幅地提升游戲的加載時間。

英偉達也拿視頻進行了對比，同樣加載實機畫面，HDD的加載速度為4.87秒，而NVMe的加載速度為4.87秒，如果基于RTX IO，那么加載時間僅為1.62秒，可以說基本上實現(xiàn)了游戲的秒加載。

英偉達還表示微軟計劃明年為游戲開發(fā)者推出面向 Windows 的 DirectStorage 開發(fā)者預覽版，屆時擁有NVIDIA RTX顯卡的玩家便可享受到這種技術。

8K DLSS：為8K分辨率而生

英偉達的DLSS已經(jīng)升級至了2.0版本，相比較初代DLSS，DLSS 2.0擁有更高的圖形顯示效率以及畫面素質，在部分場景中畫質甚至超過了傳統(tǒng)的抗鋸齒，獲得了玩家們的好評。而到了30系顯卡中，英偉達表示旗艦卡皇RTX 3090的目標便是8K 60幀，于是DLSS也理應推出了8K DLSS，讓顯卡流暢運行8K游戲不再是夢想。

QQ截圖20200905064530.jpg

在目前的幾個DLSS中，1080P的DLSS原生渲染分辨率為1280*720，1440P的原生渲染分辨率為2560*1440，4K的渲染為1920*1080，而到了8K則提升至2560*1400。考慮到8K所需的渲染能力十分地苛刻，英偉達的AI需要處理高達9倍的像素，從而對于顯卡的AI性能也是一個極大的考驗。

QQ截圖20200905064542.jpg

當然高像素填充率帶來的是圖形畫質的質的飛躍，英偉達放出了8K DLSS，原生4K與原生1080P之間的畫質，顯然8K DLSS能夠擁有更強的畫質，甚至已經(jīng)不是一個時代了，另外英偉達也放出了眾多游戲在8K分辨率下的性能表現(xiàn)。其中《Control》的8K DLSS支持得最為完美，通過8K DLSS，原本僅有十幾幀的速度可以達到57幀，基本上實現(xiàn)了流暢運行。而未來隨著支持DLSS的3A大作日益增多，8K DLSS也將擁有更多的用武之地。

RTX GI：光照更加自然

目前的光線追蹤已經(jīng)能夠讓游戲畫面的光照接近真實世界，但是和真實世界相比，由于性能的限制，有很多的光照特性并沒有體現(xiàn)在游戲之中，因此各大游戲廠商與顯卡廠商通力合作，通過更新的開發(fā)工具來提升光線追蹤的品質，從而讓游戲畫面愈發(fā)接近于真實畫面。

QQ截圖20200905064555.jpg

RTX全局照明（RTXGI）SDK為開發(fā)者提供了在多重反射下的非直射光線可擴展的解決方案，無需預烘焙、不漏光、無需繁重的每幀負載。所有支持DXR API的顯卡均支持RTXGI，RTXGI是現(xiàn)有工具、認知和能力下引入光線追蹤的理想起點。可以說通過更新一代的顯卡開發(fā)工具，開發(fā)者可以更好地進行游戲的開發(fā)，從而實現(xiàn)更加出色的光線追蹤效果。

新一代散熱器：更高風量，更低溫度與噪音

英偉達在新一代顯卡上采用了如此多的黑科技，而消費者最終拿到則是RTX 3090、RTX 3080以及RTX 3070這三款顯卡成品，由于這一代塞入了更多的晶體管，因此顯卡在發(fā)熱和功耗上自然也水漲船高，從而對顯卡的散熱能力提出了挑戰(zhàn)。

QQ截圖20200905064703.jpg

為此，英偉達在三款顯卡上均重新設計了散熱器的規(guī)格，同時PCB版也進行了重新設計，以RTX 3080為例，全新的PCB為V字型異形板，和RTX 2080相比體積大幅減少，同時擁有12Pin的供電與18相的供電，可以說十分地豪華，從而確保顯卡在滿載時候的穩(wěn)定運行。

QQ截圖20200905064718.jpg

而在散熱器的設計上，RTX 3080不計成本地采用了勻熱板的設計，最大程度地提升了GPU的散熱范圍，而且前后雙風扇設計能夠最大程度地排盡GPU所散發(fā)的熱量，確保顯卡的穩(wěn)定運行，并且配合機箱的風道讓散熱效率最大化。

QQ截圖20200905064440.jpg

英偉達以RTX 3080和RTX 2080為例，在相同風速下，RTX 3080的溫度可以降低20攝氏度，而相同溫度下，RTX 3080的噪音又可以降低10分貝。而RTX 3090則和Titan RTX相對度，其余條件相同的前提下，RTX 3090最高獲得30攝氏度的溫度下降以及20分貝的噪音降低，十分地給力。

當然也有用戶擔心由于全新的散熱方式會將熱量散發(fā)至內存以及CPU的風冷，從而影響它們的散熱效果，對于英偉達表示他們經(jīng)過了多次的測試，發(fā)現(xiàn)并沒有特別的影響，玩家完全可以不用擔心自己的內存和CPU受到損壞。

總結：為玩家打造的新一代王牌

9月2日的凌晨，當老黃拿出新一代顯卡的時候，整個DIY行業(yè)歡呼雀躍，畢竟和20系顯卡相比，全新的30系顯卡可以說是真正的革命性的進步，無論是性能還是新特征，RTX 30系顯卡的出現(xiàn)讓玩家紛紛表示過癮，更為重要的是這一次老黃是加量不加價，更是讓玩家們舍得為這些性能出色的顯卡買單。

QQ截圖20200905070509.jpg

隨著光追性能的大幅提升無疑將促進相關游戲的普及，推動游戲行業(yè)的發(fā)展，除了為8K而生的旗艦級顯卡，未來即使入門級顯卡也有可能實現(xiàn)更為優(yōu)秀的光追體驗，越來越多的玩家將有機會體驗到更高的游戲畫質，至于RTX30系列顯卡的實際表現(xiàn)如何？就讓我們拭目以待吧。

點個贊1854

精品视频国产I在线免费视频你懂得I在线成人免费I奇米四色影狠狠爱7777I大荫蒂欧美视频另类xxxxIwww最近高清中文国语在线观看Iav看片在线观看I色播99