-
NVIDIA RTX 2080/RTX 2080 Ti首發(fā)評測:感受12年來GPU最大革命
關鍵字: 游戲顯卡本文來自:驅(qū)動之家
一、前言:NVIDIA革命性跨越 顯卡又熱鬧起來了
作為GPU顯卡行業(yè)的領頭羊,NVIDIA的新產(chǎn)品發(fā)布節(jié)奏多年來一直非常穩(wěn),而且每一代都有極大的創(chuàng)新和提升(完全不知牙膏味兒),產(chǎn)品線布局十分豐富,生態(tài)系統(tǒng)合作也是有著厚實的積累相當完備。
在顯卡的江湖里,NVIDIA雖然說不上呼風喚雨,但始終也都是首屈一指的,GeForce更是幾乎已經(jīng)成了游戲卡的代名詞。
2017年5月,我們迎來了Pascal帕斯卡架構的GeForce GTX 10系列,不過當時恐怕誰都不會想到,帕斯卡家族的命會這么長,而新一代讓我們苦苦等待了這么久。
最近幾代產(chǎn)品,NVIDIA都會選擇當年的3-6月份春天或春夏之交來發(fā)布,一般在3月份的GTC圖形技術大會上首次披露,但今年非常特殊,一直拖到了9月份,比往年晚了幾乎半年。
更令人稱奇的是,NVIDIA這一次保密工作做的極好,直到發(fā)布前,我們都不知道新卡的架構是Volta伏特、Ampere安培還是Turing圖靈,也不知道新卡的命名是GTX 10系列還是GTX 20系列,結(jié)果最終是RTX 20系列。
出現(xiàn)這種局面,最主要的原因是這一代從架構技術到產(chǎn)品體系都發(fā)生了翻天覆地的變化,而研發(fā)全新一代架構、完善全新技術特性,都是需要花費無數(shù)精力、金錢和時間的(想想AMD Zen憋了多久才出來再想想Intel酷睿老本吃了多少年)。
按照NVIDIA的說法,早在10年前就在設計和研發(fā)圖靈架構了(當然當時應該沒這個代號),主要是光線追蹤方面,因為在此之前,光線追蹤只能用于影視渲染,誰也不敢想象它能在游戲里實時呈現(xiàn)。
最終,NVIDIA創(chuàng)造奇跡,為PC游戲帶來了實時光線追蹤(即便是有條件的),也難怪黃仁勛驕傲地宣稱圖靈架構是2006年引入CUDA統(tǒng)一著色核心以來最大的革命。
而另一方面不得不面對的一個現(xiàn)實就是,顯卡市場已經(jīng)沉悶太久了,尤其是在電競火熱朝的形勢下,顯卡卻遲遲沒有跟上。
作為市面上僅有的兩大GPU巨頭之一,AMD近些年全力投入Zen CPU架構,雖然碩果累累,但也導致GPU方面進展緩慢,Polaris北極星架構的RX 400/500系列只能在中低端市場混,Vega織女星架構的RX Vega系列在高端市場又不具備足夠的競爭力。
這種形勢下,對手很容易懈怠,反正沒什么壓力,但幸運的是,NVIDIA并沒有任性擠牙膏,反而奉上了一道更美味的大餐:全新架構、實時光線追蹤、AI人工智能、GDDR6顯存等都讓人激動不已,而且第一次首發(fā)就奉上了三款新卡。
長久的等待終于值了,整個顯卡市場也再次熱鬧紛呈起來。
接下來,我們就會探析一下這個革命性的Turing架構,以及全新的RTX 2080 Ti、RTX 2080兩款高端型號到底表現(xiàn)如何。
二、架構解析之全新內(nèi)核體系
既然是一個全新設計的架構,我們就要好好看一看這個以計算機科學之父、人工智能之父艾倫·麥席森·圖靈(Alan Mathison Turing)命名的Turing圖靈新架構到底有哪些過人之處,不過硬件架構總是伴隨各種高深晦澀的技術名詞、技術原理,即便專業(yè)人士也得好好研究才行,所以這里我們僅從高級層面,介紹一下新架構的大致設計、技術概況,以及能帶來的實際好處。
在以往,NVIDIA為專業(yè)級計算卡、消費級游戲卡設計的都是統(tǒng)一架構,只是具體內(nèi)部模塊布局、技術支持、核心大小不同。好處是可以統(tǒng)一開發(fā),降低成本,壞處是缺乏針對性,技術資源要么浪費要么不夠。
這一次,NVIDIA選擇了分而治之。針對高性能計算、圖形渲染、人工智能、深度學習等專業(yè)應用的是Volta伏特架構,目前只有一個超大核心GV100,是迄今為止GPU歷史上最大的核心,臺積電12nm工藝制造,集成多達210億個晶體管,核心面積達815平方毫米,妥妥的怪物級核彈。
而針對游戲顯卡的就是Turing圖靈架構,也是臺積電12nm(有說法稱最初計劃使用三星10nm),其中最大的核心TU102集成189億個晶體管,核心面積754平方毫米,是僅次于GV100的史上第二大GPU核心。
相比上代Pascal帕斯卡家族的大核心GP102,它的晶體管數(shù)量增加了55%,面積則增大了60%,甚至是次級新核心TU104都超越了GF102,擁有136億個晶體管、545平方毫米面積。
新架構核心之所以如此龐大,除了CUDA核心規(guī)模繼續(xù)增大、升級Shading著色渲染之外,更關鍵的是RT Core光線追蹤核心、Tensor Core人工智能核心的加入,這也是新架構革命性變化的根本支撐。
擁有全新著色性能的SM CUDA核心陣列、支持高達每秒100億條光線計算的RT光線追蹤核心、為實時游戲畫面導入AI人工智能加速的Tensor核心,三者就構成了圖靈架構的三大支柱,各自有不同分工又互相協(xié)作,共同實現(xiàn)新的游戲渲染畫面。
同時,NVIDIA強調(diào)新架構的單個CUDA核心著色渲染性能是帕斯卡架構的1.5倍,第一次可以在4K分辨率、HDR開啟的情況下,提供流暢的游戲體驗,真正開啟4K時代。
按照NVIDIA的說法,RTX 2080就能基本實現(xiàn)4K分辨率下60FPS的游戲幀率,RTX 2080 Ti更是能夠達到70-80FPS。當然具體還要看游戲需求,以及游戲設置,特別是某些高要求的技術特性,光線追蹤打開后別說4K了,就連1080p就比較吃力。
圖靈架構的基本組成單元之一還是CUDA核心與SM流處理器陣列,這也是2006年的G80以來NVIDIA GPU的基石。
事實上,圖靈架構的SM陣列也融合了伏特架構的不少特性,相比帕斯卡架構差別還是挺大的,比如每一組TPC里的SM陣列由一個增至兩個,同時SM內(nèi)部的組成方式也截然不同。
帕斯卡架構每個SM陣列集成128個FP32浮點單元,圖靈架構則改成了2個FP64雙精度浮點單元、64個FP32單精度浮點單元、64個INT32整數(shù)單元、8個Tensor核心、一個RT核心。支持浮點和整數(shù)并發(fā)操作,并有新的執(zhí)行數(shù)據(jù)路徑,類似伏特架構匯總的獨立線程調(diào)度。
按照NVIDIA的統(tǒng)計,每執(zhí)行100個浮點指令,平均會有36個整數(shù)指令,兩種指令可以并發(fā)執(zhí)行。
如此一來,帕斯卡架構的整數(shù)和浮點計算就可以分配得更加均衡,并與新的Tensor、RT核心相配合,更合理、高效地完成各種負載。
整體而言,圖靈核心的CUDA陣列可以每秒執(zhí)行14萬億次FP32浮點操作、14萬億次INT32整數(shù)操作。
緩存架構也徹底變化,由兩個載入/存儲單元牽頭,一級緩存和共享緩存整合在一起,而且容量靈活可變,可以是64KB+32KB,也可以是32KB+64KB,大大降低了延遲,帶寬也翻了一番。
二級緩存容量則從3MB翻倍到6MB。
NVIDIA宣稱,新架構每個CUDA核心的著色渲染性能比上代平均提升50%,部分游戲可達70%左右,VRMark虛擬現(xiàn)實測試成績甚至翻了一番還多。
當然這只是基礎理論上的數(shù)字,實際性能還要看其他部分和整體指標。
圖靈架構還首發(fā)搭配新一代GDDR6顯存,目前業(yè)界最快,等效頻率高達14GHz,搭配352-bit位寬可以帶來616GB/s的驚人帶寬,相比于GTX 1080 Ti在位寬不變的情況下提升了27%,也比用了2048-bit HBM2高帶寬顯存的AMD RX Vega 64高了27%。
而且關鍵是,GDDR6的成本比HBM2低得多。
另外,NVIDIA還對新顯存進行了各種優(yōu)化,信號竄擾降低了40%,更利于運行穩(wěn)定和進一步超頻。
三、架構解析之RT核心、光線追蹤
圖靈架構和RTX 20系列的最大亮點和賣點當然是——游戲?qū)崟r光線追蹤!
從第一顆GPU NVIDIA GeForce 256誕生至今已經(jīng)整整19年,GPU規(guī)模和技術越來越發(fā)達,但是最底層的圖形渲染技術其實幾乎一成不變,始終都是光柵化渲染,通過計算三角形和多邊形來獲得畫面輸出,好處是資源消耗容易控制,壞處就是距離真實畫面相差甚遠,甚至永遠不可能接近。
光線追蹤(Ray Tracing)技術則堪稱圖形界的“圣杯”,簡單地說就是在圖形渲染過程中實時跟蹤物體和環(huán)境的光線,準確進行光線反射和折射、全局照明、物理陰影的繪制,可以帶來近乎百分之百真實的渲染畫面,尤其是光影效果。
光線追蹤技術其實并不新鮮,1969年的時候在IBM工作的Arthur Appel就提出了這種概念,當時叫做Ray Casting,距今已經(jīng)整整半個世紀。
1979年,Turner Whitted研究出了遞歸光線追蹤算法(Recursive RayTracing Algorithm)。
1984年,Carpenter等人發(fā)表了一篇關于分布式光線追蹤的論文《Distributed RayTracing》,影響甚廣。
但是,光線追蹤的算法非常簡單,稍有計算機圖形只是的人都能理解,關鍵在于如何優(yōu)化提高效率,因為它需要的計算量太過龐大,想想要實時計算場景中無數(shù)光線每時每刻的各種傳播,那是多么恐怖,以前的GPU根本無力承擔實時計算。
因此直到2006年迪士尼的《汽車總動員》(Cars),影視行業(yè)才開始使用光線追蹤渲染,如今大多數(shù)的照片級渲染系統(tǒng)多時基于光線追蹤的,但背后都是超大規(guī)模的計算機群在吃撐,一幀畫面往往都要渲染幾個小時。
雖然大家都在努力,但就在一個月前,如果說普通顯卡可以在游戲里實現(xiàn)光線追蹤(盡管是有條件的),相信絕大多數(shù)人都不會相信,但是NVIDIA的圖靈做到了。
NVIDIA在圖靈架構中集成了最多72個RT Core核心,每個SM單元一個,專門用來服務光線追蹤運算,等于一個特殊的專用單元,由硬件加速取代軟件模擬,效率自然要比CUDA這種通用單元高很多,就像GPU做并行計算比CPU強得多。
簡單來說,圖靈架構的光線追蹤運算步驟是這樣的:著色器單元首先發(fā)出光線探測請求,RT Core核心就開始完全接管下邊的工作,并分為兩個過程,其中包圍盒求交評估單元(Box Intersection Evaluators)進行包圍盒的獲取和解碼,并進行求交測試,得到子包圍盒或者三角形。
如果是子包圍盒,就返回重新執(zhí)行,重復剛才的步驟。如果是三角形,那就交給三角形求交評估單元(Triangle Intersection Evaluators),做下一步的求交測試,直到得到最終結(jié)果并輸出給著色器,進行最終渲染。
看懵了對吧?懵了就對了……
整個光線追蹤計算過程中,運用的主要是BVH算法,也就是Bounding Volume Hierarchy Traversal,層次包圍盒遍歷的意思。
比如渲染對象是一只兔子,要幾算一條光線和兔子本身的交互,就把兔子所在空間劃分成N個包圍盒,計算光線和哪一個包圍盒相交,是的話就再把這個包圍盒繼續(xù)劃分成N個更小的包圍盒,再次計算相交,如此反復,一直找到和光線相交的三角形所在的包圍盒,再對這個三角形進行最終的渲染。
BVH算法可以大大減少計算每一條光線最近相交點所需要遍歷的三角形數(shù)量,而且只需要進行一次就能給所有光線使用,大大提高了執(zhí)行效率。
除了硬件方面的工作,軟件方面既有NVIDIA自己的OptiX光線追蹤引擎、GameWorks SDK光線追蹤模塊,也有微軟的DirectX 12 Ray-Tracing(DXR) API、Windows ML中間件,后者會在即將發(fā)布的Windows 10 2018年秋季更新版中正式提供。
性能方面,RTX 2080 Ti在精簡了四個只有68個RT核心的情況下,每秒鐘可以計算超過100億條光線,大約等于100TFlops(每秒1000億次浮點運算)。
而上代GTX 1080 Ti雖然也能執(zhí)行光線追蹤,但因為沒有專用單元和算法,效率只有RTX 2080 Ti的大約十分之一,不足以實時用于游戲。
接下來欣賞欣賞NVIDIA RTX光線追蹤的效果和對比:
↑↑↑官方DEMO
↑↑↑官方DEMO
目前支持NVIDIA光線追蹤技術的游戲有11款(和首發(fā)時相比沒變),分別是:
- 《神力科莎》 (Assetto Corsa Competizione)
- 《原子之心》 (Atomic Heart)
- 《戰(zhàn)地5》 (Battlefield V)
- 《控制》 (Control)
- 《應征入伍》 (Enlisted)
- 《逆水寒》 (Justice
- 《劍網(wǎng)3》 (JX3)
- 《機甲戰(zhàn)士5:雇傭兵》(MechWarrior 5:Mercenaries)
- 《地鐵:離去》
- 《Project DH》
- 《古墓麗影:暗影》(Shadow of the Tomb Raider)
不過,RTX 20系列上市初期,可以玩的光線追蹤游戲暫時還是零,比如《古墓麗影:暗影》首發(fā)不支持得后期打補丁,《戰(zhàn)地5》則跳票了。
四、架構解析之Tensor核心、AI加速
NVIDIA在伏特架構上引入了全新的專用處理模塊Tensor Core,也就是張量計算核心,重點用來支持深度學習、高性能計算(也是晶體管大戶)。
圖靈架構則是在游戲卡上引入Tensor Core,同時針對游戲圖形應用做了大量的調(diào)整優(yōu)化,尤其是浮點精度方面。
Tensor的意思是張量,不同于我們常見的標量(零維)、矢量(一維)、矩陣(三維),擁有三維或者更高維度,簡單地說就是一個數(shù)據(jù)容器,可以包含多個維度的數(shù)據(jù)。
現(xiàn)在火熱的深度學習,就運用了超大規(guī)模的數(shù)據(jù)運算,其中就經(jīng)常會用到矩陣融合乘加(FMA)運算,Tensor核心就是為這種矩陣數(shù)學運算專門服務的。
它可以對兩個4×4 FP16浮點矩陣進行相乘操作,然后將結(jié)果加入到另一個4×4 FP16/FP32浮點矩陣中,最終輸出新的4×4 FP16/FP32矩陣,這叫做混合精度數(shù)學運算,因為輸入矩陣是半精度,結(jié)果則可以達到全精度。
每個時鐘周期內(nèi),圖靈架構的Tensor核心可以執(zhí)行64個FMA運算,從而大大加速矩陣運算,可用于新的神經(jīng)實時圖形渲染、深度學習訓練和推理。
圖靈架構每個SM陣列里有8個Tenor核心,總計576個,完整支持114TFlops FP16浮點運算(每秒114萬億次),同時支持228TOPS INT8、455TOPS INT4整數(shù)運算(每秒228億次、455億次),后者是伏特架構里沒有的。
NVIDIA把看起來高深莫測的Tensor核心放到游戲卡里,顯然不是做專業(yè)運算的,其深度學習能力也是為游戲服務的,結(jié)合新的神經(jīng)圖形框架(Neural Graphics Framework),簡稱NGX,可以在游戲中實現(xiàn)DLSS深度學習超采樣抗鋸齒、AI Super Rez超級分辨率、AI Slow-Mo慢動作、AI InPainting等等。
這些計算繁瑣、資源消耗巨大的操作,在以往也可以實現(xiàn),但會付出很大的代價,效果也不盡如人意,如今有了新的Tensor核心,就可以建立屬于GPU核心自己的DNN深度神經(jīng)網(wǎng)絡,將AI融入游戲。
NVIDIA已經(jīng)向游戲引擎開放NGX API,將其融入其中,實現(xiàn)底層加速。
另外和很多AI應用類似,NVIDIA GeForce Experience軟件的作用也非常重要,它會自動匹配顯卡型號,從云端訓練的AI模型哪里下載相應的NGX軟件包,并定期更新,達到越用越好、甚至是因人而異的效果。
AI Super Rez:有點類似高清視頻中常見的Up Scaling,但是引入了人工智能和深度學習之后,可以實現(xiàn)近乎“無損放大”,原來的畫面分辨率放大2倍、4倍乃至8倍,仍然清晰銳利。
AI Slow-Mo:超級慢動作我們并不陌生,現(xiàn)在不少高端手機都支持240FPS、480FPS乃至是960FPS的慢動作視頻錄制。圖靈架構可以對普通的30FPS視頻進行智能插幀運算,得到240FPS/480FPS的慢動作視頻,也就是說你不需要專門的高幀率攝像頭,就可以獲得很流暢的慢動作視頻。
AI InPainting:可以抹掉畫面中不需要的內(nèi)容,也可以智能補全缺失的內(nèi)容,完全超越PS摳圖的存在。它同樣來自現(xiàn)實中大量真實世界圖片的訓練推理。
其實,慢動作和修圖這兩項在之前就曾有相關報道,顯然NVIDIA在硬件、算法兩個方面都實現(xiàn)了真正的突破。
接下來就是重中之重的DLSS(深度學習超采樣抗鋸齒)。
我們知道,傳統(tǒng)的光柵化圖形渲染畫面會存在各總各樣的鋸齒(狗牙),所以GPU廠商都會在后期處理中加入各種各樣的AA抗鋸齒技術,但傳統(tǒng)抗鋸齒都是由GPU去運算的,效果參差不齊不說,最關鍵的是會消耗大量的GPU資源,開啟之后讓游戲卡得沒法玩再正常不過了。
DLSS深度采樣超采樣抗鋸齒則和傳統(tǒng)抗鋸齒技術走了一條完全不同的路,它是在NVIDIA超級計算機上進行訓練,而不再消耗GPU本身的資源。
針對每一款游戲,NVIDIA會在運算建立對應的訓練神經(jīng)網(wǎng)絡,收集大量的64x超采樣數(shù)據(jù),對像素點進行64次偏移著色合成輸出,理論上可以獲得近乎完美的抗鋸齒平滑效果,同時還會對比和普通渲染畫面之間的差異,調(diào)整網(wǎng)絡權重,反復迭代,最后獲得更合理的抗鋸齒畫面效果,還可以避免傳統(tǒng)TAA時間抗鋸齒的運動模糊等問題。
云端訓練完成后,NVIDIA會通過GFE軟件將成果分發(fā)給玩家,再用到游戲中,而且隨著游戲運行得越多,DLSS學習效果就會越來越優(yōu)化,甚至每個玩家都可以得到屬于自己的不同效果。
當然了,這也意味著NVIDIA需要和每一款游戲或者每一個游戲引擎合作,去進行專門的優(yōu)化,還是相當費時費力的,不過考慮到NVIDIA在游戲行業(yè)廣泛深入的合作關系,這方面倒不必擔心。
尤其是隨著合作優(yōu)化的深入,NVIDIA完全可以建立起屬于自己的技術壁壘,讓對手望塵莫及,進一步帶動大量玩家忠實地跟隨NVIDIA。
以上是2x DLSS與傳統(tǒng)64x SSAA、TAA的效果對比,大家可以仔細觀察一下畫面細節(jié)。
更神奇的是,DLSS因為基本不需要消耗GPU本地資源,因此可以大大釋放GPU性能,讓其專心渲染游戲,提升性能。
比如根據(jù)官方數(shù)據(jù),Epic的《滲透者》(Infiltrator)游戲里,4K分辨率下1080 Ti開啟TAA平均幀率還不到40FPS,2080 Ti開啟DLSS則能達到80FPS,提升了整整一倍!
游戲支持方面也不是啥大事兒,RTX 20系列發(fā)布之初就有16款游戲(PPT上寫錯了),現(xiàn)在產(chǎn)品還沒完全上市就已經(jīng)增加到25款。
首發(fā)名單如下:
- 《方舟:生存進化》 (Ark: Survival Evolved)
- 《原子之心》 (Atomic Heart)
- 《無畏》 (Dauntless)
- 《最終幻想XV》 (Final Fantasy XV)
- 《破碎之地》 (Fractured Lands)
- 《殺手2》 (Hitman 2)
- 《奈恩群島》 (Islands of Nyne)
- 《逆水寒》 (Justice)
- 《劍網(wǎng)3》 (JX3)
- 《機甲戰(zhàn)士5:雇傭兵》 (Mechwarrior 5:Mercenaries)
- 《絕地求生》 (PlayerUnknown’s Battlegrounds)
- 《遺跡:灰燼重生》 (Remnant: From the Ashes)
- 《英雄薩姆4:星球惡棍》 (Serious Sam 4: PlanetBadass)
- 《古墓麗影:暗影》 (Shadow of the Tomb Raider)
- 《鍛造競技場》 (The Forge Arena)
- 《少數(shù)幸運兒》 (We Happy Few)
新增名單如下:
- 《暗黑血統(tǒng)3》(Darksiders 3)
- 《飛向月球:財富》(Deliver Us The Moon: Fortuna)
- 《恐懼群狼》(Fear the Wolves)
- 《地獄之刃:塞娜的獻祭》(Hellblade: Senua"s Sacrifice)
- 《KINETIK》
- 《前哨零》(Outpost Zero)
- 《超殺:行尸走肉》(Overkill"s The Walking Dead)
- 《人渣》(SCUM)
- 《風暴奇兵》(Stormdivers)
這其中有5款游戲同時支持RTX光線追蹤和DLSS抗鋸齒技術,分別是《原子之心》、《逆水寒》、《劍網(wǎng)3》、《機甲戰(zhàn)士5:雇傭兵》、《古墓麗影:暗影》。
五、架構解析之混合渲染、高級渲染
圖靈架構雖然引入了光線追蹤,但以現(xiàn)在的GPU性能和技術算法,顯然不可能把一切渲染都交給光線追蹤,傳統(tǒng)的光柵化渲染依然離不開。
因此,NVIDIA在圖靈架構中使用了混合渲染流水線(Hybrid Rendering Pipeline),針對不同的工作負載,分別使用CUDA核心的光柵化渲染、RT核心的光線追蹤渲染、Tensor核心的計算渲染的一種或多種組合,獲得渲染效率的最大化。
當然,在典型的混合渲染場景中,也不會同時用到三種渲染方式。
如此一來,如何衡量圖靈架構的實際渲染性能,就不能用以前的算法了,而要根據(jù)三種不同渲染方式的使用程度,綜合衡量。
以上就是在一個典型的渲染場景中,圖靈架構各種渲染方式的組合分配,一般而言80%的時間里使用著色器FP32浮點運算、28%的時間使用著色器INT32整數(shù)運算、40%的時間使用RT核心、20%的時間使用Tensor核心FP16浮點運算。
比如RTX 2080 Ti,結(jié)合各個部分的峰值性能,最終的渲染性能就是:
14×80%+14×28%+100×40%+114×20=78T
NVIDIA給這個結(jié)果自定義了一個單位RTX-OPS,可以理解為RTX顯卡每秒鐘能執(zhí)行的操作數(shù),也就是780億次。
與此同時,圖靈架構也引入了多種新的、更高級的Shade著色渲染技術。
比如網(wǎng)格渲染(Mesh Shading):面對復雜、龐大的場景,不再逐一計算每一個物體的所有細節(jié),而是由GPU靈活地計算物體細節(jié)等級(LOD),踢出被遮擋的,削弱低細節(jié)的,再加上傳統(tǒng)曲面細分技術,更高效地生成真正實際需要的三角形,也能大大減輕CPU負擔。
可變率著色(Variable Rate Shading):按照場景中的復雜度不同,分區(qū)域動態(tài)調(diào)整著色速率和資源分配,目的還是減輕GPU負擔、避免不必要的資源浪費,最終有利于提升渲染效率、游戲幀率。
可變速率著色渲染有很多應用場景,比如內(nèi)容適應性著色(CAS)、動作適應性著色(MAS)、注視點選擇性渲染、鏡頭優(yōu)化。就不一一展開了。
多角度渲染(Multi-View Rendering)、紋理空間共享(Texture-Space Sharing)。
六、架構解析之視頻、輸出、虛擬現(xiàn)實
作為顯卡,除了渲染游戲畫面,視頻編解碼、輸出顯示也都是基礎工作,而且這一代NVIDIA還特別強化了對VR虛擬現(xiàn)實的支持。
視頻編解碼方面,圖靈架構已經(jīng)可以支持到VP9、HEVC(H.265) 10/12-bit HDR解碼,同時支持HEVC 8K30fps HDR實時編碼,可節(jié)省最多25%的碼率,H.264格式也能節(jié)省最多15%。
根據(jù)NVIDIA的數(shù)據(jù),圖靈架構顯卡進行視頻直播時,1080p分辨率6K碼率、4K分辨率40K碼率的CPU占用率都只需1%,掉幀率也是1%甚至為零,相比之下帕斯卡就有點慘不忍睹了。
顯示輸出方面,圖靈新卡既有標準的HDMI 2.0b、DisplayPort 1.4接口(同時為DP 1.4a標準做好了準備),分別最高支持4K/60fps、8K/60fps輸出,并首次加入了USB Type-C接口,用于支持VirtualLink VR應用,提供三個HBR3 DisplayPort通道,支持USB 3.1 Gen.2 10Gbps速度,可提供最大27W供電能力。
VirtualLink標準由NVIDIA、Oculus、Valve、AMD/微軟牽頭制定,是一種開放的行業(yè)標準,可以讓VR頭顯擺脫多條線纜的束縛,只需一根高速USB Type-C數(shù)據(jù)線,就可以直連顯卡和VR頭顯。
而現(xiàn)在的VR頭顯,比如說HTC Vive,就需要HDMI、USB、電源三條線。
七、架構解析之三大核心與型號
圖靈家族除了架構本身變化巨大,產(chǎn)品體系也和以往明顯不同,首發(fā)一口氣就是三款型號RTX 2080 Ti、RTX 2080、RTX 2070,而且分別對應三個不同核心TU102、TU104、TUF106,而以往的x80、x70都是共享一個核心。
具體原因不詳,可能是新一代核心太大,x70直接用大核心閹割成本比較高,還不如再造一個省錢的小核心。
這就是最頂級的TU102核心,186億個晶體管、754平方毫米面積確實不是蓋的。
內(nèi)有4608個CUDA核心,分為6組GPC、36組TPC、72組SM陣列(每組SM 64個CUDA核心),同時有72個RT核心、576個Tensor核心、288個紋理單元、96個ROP光柵單元,二級緩存容量6MB,寄存器文件18MB,352-bit位寬。
不過,RTX 2080 Ti并未完全使用整個TU102核心,而是有所精簡,僅提供4352個CUDA核心(68組SM陣列),RT核心則減少為68個,Tensor核心544個。
目前只有Quadro RTX 8000用了完整的TUF102,可能是初期良品率不足,優(yōu)先供給專業(yè)市場,也可能是功耗和發(fā)熱在游戲卡上不好控制,還有可能是留一手……
RTX 2080 Ti的核心頻率基礎為1350MHz,加速頻率FE公版做到了1635MHz,非公版則規(guī)定是1545MHz,當然大家可以隨意超頻。
顯存搭配11GB GDDR6,等效頻率14GHz,帶寬為616GB/s,整卡功耗260W。
TU104核心,136億個晶體管,545平方毫米,比帕斯卡家族的大核心GP102都要大一圈。
它集成了3072個CUDA核心,劃分為6組GPC、24組TPC、48組SM(每組SM還是64個),同時有192個紋理單元、64個ROP單元、384個Tensor核心、48個RT核心,二級緩存容量4MB,寄存器文件12MB,顯存位寬256-bit。
RTX 2080同樣沒有用滿TU104核心,而是精簡了兩組SM,提供2944個CUDA核心、368個Tensor核心、46個RT核心,完整版還是在專業(yè)卡上,Quadro RTX 6000。
RTX 2080核心基礎頻率1515MHz,加速頻率非公版1710MHz,公版直接定在1800MHz,搭配8GB GDDR6顯存,等效頻率14GHz,帶寬448GB/s,功耗225W。
它的渲染性能為60 TRX-OPS,相比于RTX 2080 Ti削弱了23%,光線追蹤性能8 GigaRays/s(每秒80億條光線),削弱了20%。
TU106核心,108億個晶體管,445平方毫米,相比GP102也只是分別差了10%、6%,更可見圖靈家族的龐大。
TU106核心內(nèi)建2304個CUDA核心,分為3組GPC、18組TPC、36組SM陣列(每組繼續(xù)64個),同時有144個紋理單元、64個ROP單元、288個Tensor核心、36個RT核心,二級緩存容量4MB,寄存器文件9MB,顯存位寬還是256-bit。
RTX 2070終于用了完整的TU106核心,核心頻率基礎1410MHz,加速公版1710MHz、非公版1620MHz,繼續(xù)搭配8GB 14GHz GDDR6顯存,功耗185W。
渲染性能45 RTX-OPS,相比于RTX 2080 Ti、RTX 2080分別低了25%、42%,光線追蹤性能6 GigaRays/s(每秒60億條光線),分別低了25%、40%。
圖靈家族三大核心與帕斯卡家族大核心GP102對比。
八、圖賞:16相數(shù)字供電 售價萬元的雙風扇“煤氣灶”
以下是RTX 2080的圖賞。
RTX 2080包裝盒。
公版RTX 2080顯卡的外觀有了巨大的變化,放棄以往的渦輪散熱,轉(zhuǎn)而采用開放式雙風扇設計,加上銀色金屬機身,看起來像極了“煤氣灶”。
一塊巨大的全覆銀色金屬背板,背板厚度達到了3mm,具有良好的散熱效果。
8+6PIN的供電輸入,可以提供350W的輸入功率。
拋棄了傳統(tǒng)的SLI接口,采用了第二代NVIDIA NVLink高速互聯(lián)方案,能提供100GB/s的雙向帶寬,并且大大降低了延遲。
拆開扇熱器后的PCB本體,RTX 2080采用TU104核心,擁有136億晶體管,幾乎2倍于GTX 1080。顯存采用的美光GDDR6 14000MHz,單顆1GB,一共8顆組成256Bit 8GB,顯存帶寬達到了448GB/s。
供電部分采用了8相核心+2相顯存的供電方案,并且大量采用了高端的鉭電容,供電規(guī)模及用料遠遠超過了公版的GTX 1080(6+1相供電)。
散熱器可以完美貼合PCB上每一個發(fā)熱的元件,顯卡不會出現(xiàn)某個部分溫度過高的情況。
以下是RTX 2080 Ti的圖賞。
RTX 2080 Ti包裝盒。
與RTX 2080一樣,RTX 2080 Ti也同樣舍棄了以往的渦輪散熱,轉(zhuǎn)而采用雙風扇設計,看上去就是一個價值一萬元的煤氣灶。
銀色全覆金屬背板,也同樣是和RTX 2080一樣,沒有什么區(qū)別。
雙8Pin供電,最高能提供400W的收入功率。
同樣采用了第二代NVIDIA NVLink高速互聯(lián)方案。
RTX 2080 Ti采用TU102核心,擁有189億晶體管。
顯存采用的美光GDDR6 14000MHz,單顆1GB,一共11顆組成352Bit 11GB,顯存帶寬達到了616GB/s。
供電部分則采用了14+2一共16相供電方案,頂級非公都很難達到這樣的規(guī)模,看來售價萬元的顯卡在用料方面果真是舍得下本錢。
散熱器可以完美貼合PCB上每一個發(fā)熱的元件,顯卡不會出現(xiàn)某個部分溫度過高的情況。
九、測試平臺:5.2GHz的i7-8086K助陣
測試平臺如下:
i7-8086K基于八代酷睿Coffee Lake構架,14++納米工藝制造,核心面積約150平方毫米,擁有六個核心十二線程,睿頻加速達5GHz,這是Intel史上第一顆默認能跑到5GHz頻率的處理器。
為了盡可能的發(fā)揮RTX 2080 Ti強大的性能,我們將此U超頻到了5.2GHz。
主板選用了華碩MAXIMUS X HERO,擁有高達10相超合金數(shù)字供電,超頻能力在Z370主板中屬于頂級水準。BIOS已經(jīng)更新到最新版本。
內(nèi)存使用了影馳HOF II DDR4-4000 8GBx2套裝,測試中開啟XMP保持4000MHz頻率,時序為19-25-25-45 CR2。
機箱采用了酷冷至尊頂級的H500M型號,其前置雙200mm風扇以及大面積的金屬散熱孔 能夠?qū)C箱內(nèi)部熱量快速排出,有效降低電源和硬盤的溫度。
機箱背部的金屬鎧甲將背線打理的井井有條,看上去十分干凈。
我們采用的顯示器是LG 38UC99,其支持的最高分辨率為3840X1600,測試中的4K分辨率就是指的這個。
測試平臺使用的是酷冷至尊MasterWatt Maker1200W鈦金電源。
MasterWatt Maker1200W是目前頂級的雙路電源,轉(zhuǎn)換效率高達93%。雙路12V輸出,每路限流50A即600W的功率。
MasterWatt Maker 1200采用的是全模組設計,不同功能的模組接口都有著不同的外形,以防止玩家誤接。
為了壓制5.2GHz的i7-8086K,散熱器采用了九州風神頂級的船長280一體水冷散熱器。
十、1080P分辨率測試:RTX 2080碾壓帕斯卡全系 處理器開始瓶頸
Turing的核心構架完全不同于以往的產(chǎn)品,從Kepler到Maxwell到再到Pascal,每一個CUDA核心都就是由FP32單元構成。
而Turing每一個CUDA核心除了有一個FP32的單精度浮點單元之外,還有一個INT32的單精度整數(shù)單元。每8個CUDA單元搭配一個TENSOR核心,64個CUDA CORE+8個TENSOR CORE再加上一個RT CORE構成一組SM(其實每一組SM中還有2個FP64雙精度浮點單元,只是下圖并沒有標示出來)。
根據(jù)NVIDIA的說法,INT32可以為每個CUDA核心帶來36%的性能提升,再加上L1緩存帶寬的成本增加以及降低延遲,最終圖靈每個CUDA核心相比帕斯卡能有50%的性能提升。
圖靈是否真如所說還是需要具體的測試來驗證,下面正式進入游戲測試環(huán)節(jié)。
3DMark Time Spy
RTX 2080 Ti的3DMark Time Spy跑分,圖形分數(shù)達到了13597。
RTX 2080 Ti的3DMark Time Spy跑分,圖形分數(shù)達到了10838。
在3DMark Time Spy 測試中,RTX 2080超越了GTX 1080 Ti,領先了20%,相比GTX 1080的7393分則提升了46%之多。
RTX 2080 Ti比GTX 1080 Ti提升了52%。
3DMark Fire Strike Extreme
2013年誕生的3DMark Fire Strike其實已經(jīng)不再適合充當最新顯卡的測試工具,RTX 2080的表現(xiàn)不如GTX 1080 Ti,有500分的差距,但是依然比GTX 1080強了22%。
RTX 2080 Ti相比GTX 1080 Ti有21%的提升。
GTA V
《GTA V》于2015年登陸PC平臺,全平臺的銷量已經(jīng)超過了1億,算是 10年來最成功的單機大作,現(xiàn)在依然人氣不減。
畫質(zhì)手動調(diào)為最高特效,開啟MSAA 2X以及NVIDIA TXAA,分辨率為1920x1080,顯存占用3422M。
1080P分辨率下受制于CPU性能瓶頸,RTX 2080 Ti與RTX 2080幀數(shù)幾乎一樣,比GTX 1080 Ti只有2幀的優(yōu)勢,比起GTX 1080多了14幀。
刺客信條:起源
《刺客信條:起源》是由育碧制作并發(fā)行的《刺客信條》系列歷史上規(guī)模最大的一個。本作采用開放地圖沙盒玩法,游戲幾乎呈現(xiàn)了整個古埃及王國,畫質(zhì)與風景無人能出其右。
測試時開啟極高畫質(zhì),分辨率為1920x1080。
圖靈的2張顯卡都過了100幀,RTX 2080領先GTX 1080 19幀,RTX 2080 Ti比GTX 1080 Ti多了12幀。
孤島驚魂5
《孤島驚魂5》是一款由育碧(Ubisoft)制作的第一人稱射擊游戲。 已于2018年3月正式發(fā)售。
在《孤島驚魂5》中,RTX 2080 Ti領先GTX 1080 Ti 23幀,RTX 2080領先GTX 1080 29幀。
古墓麗影10
畫面設置為1920*1080 FXAA、DX12+默認非常高畫質(zhì)。
RTX 2080 Ti幀數(shù)達到了204,領先GTX 1080 Ti 32幀這是第一次有顯卡能在1080P最高畫質(zhì)下跑出200+的幀數(shù)。RTX 2080領先GTX 1080 33幀。
GTX980Ti在進行此項測試時,若選擇DX12模式,幀數(shù)會爆降30%,因此該卡是以DX11進行的游戲測試。
古墓麗影11
《古墓麗影:暗影》是一款由Eidos Montreal工作室制作的動作冒險游戲, 本作是重啟版《古墓麗影》的系列第三作,已于2018年9月15日正式發(fā)售。該游戲在后續(xù)的補丁中將提供對RTX系列顯卡DLSS與光線追蹤技術的支持。
畫面設置為1920*1080 FXAA、DX12+手動最高畫質(zhì)。
在古墓麗影11中,RTX 2080 Ti跑出了142幀,領先GTX 1080 Ti 37幀。
RTX 2080也有117幀,比GTX 1080多了28幀。
絕地求生
雖然已經(jīng)發(fā)售了一年之久,《絕地求生》依然是目前最火的PC游戲,經(jīng)過藍洞工作室數(shù)次優(yōu)化,現(xiàn)在已經(jīng)能較為完善的支持6核處理器。
由于本游戲沒有提供測試程序,我們選在訓練場中選擇了一塊無人場地,反復進行多次幀率測試,確認每次得到的結(jié)果差距都在2%以內(nèi)。
受制與CPU性能,RTX 2080 Ti與RTX 2080跑出了同樣的幀數(shù),相比GTX 1080 Ti領先了27幀,比起GTX 1080則有45幀的優(yōu)勢。
奇點灰燼
《奇點灰燼》作為一個老牌的PC游戲測試項目,目前已經(jīng)優(yōu)化了8核處理器支持,它對處理器和顯卡的要求都非常高。
測試時選擇Crazy畫質(zhì)、DX12模式、分辨率為1080P
在《奇點灰燼》中,RTX 2080 Ti跑出了107幀,領先GTX 1080 Ti 25幀。
RTX 2080也有98幀,領先GTX 1080 Ti 15幀,領先GTX 1080 29幀。
突出重圍:人類分裂
《殺出重圍:人類分裂》是Square Enix為PS4開發(fā)的次世代FPS類游戲,該游戲是目前所測試游戲中對顯卡性能要求最高的一款。測試時畫質(zhì)
RTX 2080 Ti幀率為93FPS,領先GTX 1080 Ti 25幀。RTX1080則有74幀,領先GTX 1080 Ti 19幀。
生化危機7
《生化危機7》是卡普空制作的生存恐怖類游戲《生化危機》數(shù)字編號系列第八部,有著全新的恐怖求生體驗,玩家的視覺切換為更駭人的虛擬實境“隔離視覺”模式,寫實感提升至一個全新的境界。
游戲的測試方式為從開局下車地點走到教堂門口,記錄20秒幀數(shù)。
《生化危機7》對CPU性能沒有太高要求,在1080P最高畫質(zhì)下,RTX 2080 Ti跑出了了313FPS的高幀率,領先GTX 1080 Ti將近60%。
RTX 2080也有243幀,領先GTX 1080 Ti 44幀,比GTX 1080快了83幀,領先幅度也有51%。
守望先鋒
《守望先鋒》暴雪娛樂第一次涉足FPS領域的作品,2016年曾經(jīng)火爆全球,影響力一度超過了LOL,即便是現(xiàn)在仍然還有相當數(shù)量的玩家活躍在游戲中。
由于游戲沒有提供測試程序,我們選在訓練關卡中從出生地一直向前奔跑,用Fraps記錄20秒幀數(shù)。測試時打開10
《守望先鋒》游戲內(nèi)鎖死了300幀,所以RTX 2080 Ti最多也就能跑到300幀,相比GTX 1080 Ti領先了55幀。
RTX 2080成績?yōu)?66幀,領先GTX 1080 同樣也是55幀。
文明6
《文明6》是由Firaxis Games開發(fā),2K Games負責發(fā)行的策略類游戲,該游戲是游戲設計師席德·梅爾創(chuàng)作的《文明》系列的第6部。
測試時選擇最高畫質(zhì),并將所有材質(zhì)分辨率調(diào)到最高。
《文明6》也是一款幾度需求CPU性能的游戲,除了RX580之外,其他幾款顯卡幀數(shù)都沒有多少區(qū)別,最強的RTX 2080 Ti也就比GTX980Ti快了不到5%。
巫師3
《巫師3》為《巫師》系列游戲作品的第三部,也是杰洛特冒險的終曲。層獲第33屆金搖桿獎最佳劇情、最佳視覺設計、最佳游戲時刻,更獲得IGN 2015年度最佳游戲。
游戲內(nèi)沒有提供測試程序,測試場景選在一處山坡,測試時騎馬直線奔馳,用Fraps記錄20秒幀數(shù)。
在1080P最高畫質(zhì)下,RTX 2080 Ti跑出了136幀,比GTX 1080 Ti快了43幀,領先幅度將近50%。
RTX 2080幀數(shù)為115FPS,領先GTX 1080 32幀。
中土世界:戰(zhàn)爭之影
在最高畫質(zhì)下,同時開啟TAA抗鋸齒,RTX 2080 Ti能跑出160FPS的幀率,領先GTX 1080 Ti 39幀,
十一、2K分辨率測試:新構架威力進一步顯現(xiàn)
本來2K分辨率測試不在計劃之內(nèi),考慮到現(xiàn)在不少玩家都用上2K分辨率顯示器,臨時決定將此分辨率加入測試。
由于文明6過于依賴CPU性能,GTX1070以上的顯卡都沒有跑出差距,在計算性能百分比時并未加入此游戲的數(shù)據(jù)。
在2560x1440分辨率下,RTX 2080 Ti的性能稍稍得以施展,相比GTX 1080領先幅度達到了65%,比GTX 1080 Ti則快了39%。
RTX 2080相比GTX 1080領先幅度達到了34%,比GTX 1080 Ti也快了13%。
麥克斯韋年代的旗艦GTX980Ti與GTX1070的性能進一步拉開,僅能達到后者86%的性能。
AMD這邊的期間顯卡VEGA64稍強與GTX 1080,領先幅度為4%。
十二、4K分辨率測試:高端顯卡的主戰(zhàn)場 圖靈得以一展雄風
對于RTX 2080 Ti這種級別的顯卡而言,只有4K分辨率才能真正榨干它全部的性能,低分辨下進行測試時,由于CPU本身在渲染建模方面無法跑出太高幀率,RTX 2080 Ti的性能難以完全發(fā)揮。
我們采用的顯示器是LG 38UC99,測試的分辨率為3860X1600,與標準的3840X2160的4K分辨率有些許差異。測試時的畫面設置與1080P相同,不再一一贅述。
3DMark Time Spy Extreme
RTX 2080的3DMark Time Spy Extreme跑分,圖形分數(shù)達到了4949。
RTX 2080 Ti的3DMark Time Spy Extreme跑分,圖形分數(shù)達到了6364。
在3DMark Time Spy 測試中RTX 2080跑分比GTX 1080 Ti高了761分,領先幅度為18%,相比GTX 1080的3314分則提升了50%之多。
RTX 2080 Ti比GTX 1080 Ti提升了52%。
3DMark Fire Strike Ultra
3DMark Fire Strike Ultra現(xiàn)在無法反應圖靈的真實性能,此項測試中RTX 2080要落后GTX 1080 Ti大概4%,但在所有其他的游戲測試中,RTX 2080都是大幅度領先GTX 1080 Ti,無一例外。
RTX 2080 Ti在此項測試中的得分為7907,領先GTX 1080 Ti 1446分。
RTX 2080得分則為6225,領先GTX 1080 1035分。
最終幻想15
《最終幻想15》是Square Enix史上最昂貴的游戲開發(fā)項目,歷時10年的開發(fā)周期。本作是《最終幻想》系列中最接近 “水晶的神話”的核心內(nèi)容的一部,向玩家呈現(xiàn)了一個廣大而又開放的世界
RTX 2080 Ti跑出了5579的分數(shù),領先GTX 1080 Ti 1691分,領先幅度為43%。
RTX 2080的分數(shù)為4528,領先GTX 1080 Ti 16%,相比GTX 1080領先幅度有32%。
GTA V
RTX 2080 Ti幀率為85FPS,領先GTX 1080 Ti 20幀。
RTX 2080幀率為73FPS,領先GTX 1080 18幀。
刺客信條:起源
在《刺客信條:起源》測試中,RTX 2080 Ti幀率為75FPS,領先GTX 1080 Ti 幀。
RTX 2080幀率為62FPS,領先GTX 1080 16幀。
孤島驚魂5
在《孤島驚魂5》測試中,RTX 2080 Ti跑出了92FPS的幀率,領先GTX 1080 Ti 24幀。
RTX 2080幀率為72FPS,領先GTX 1080 Ti 16幀。
古墓麗影10
RTX 2080 Ti的幀率為103FPS,領先GTX 1080 Ti 26幀。
RTX 2080幀率為80,領先GTX 1080 17幀。
古墓麗影:暗影
RTX 2080 Ti幀率為69FPS,領先GTX 1080 Ti 21幀。
RTX 2080幀率為55FPS,領先GTX 1080 15幀。
絕地求生
4K分辨率下,RTX 2080 Ti在《絕地求生》中也能跑出111FPS的幀率,領先GTX 1080 Ti 36幀。
RTX 2080的幀率為90,領先GTX 1080 26幀。
奇點灰燼
在《奇點灰燼》的測試中,RTX 2080 Ti跑出了91FPS的幀率,領先GTX 1080 Ti 21幀。
RTX 2080的幀率則為74FPS,領先GTX 1080 14幀。
突出重圍:人類分裂
RTX 2080 Ti的幀率為44FPS,領先GTX 1080 Ti 14幀。這是RTX 2080 Ti唯一沒有達到60FPS的游戲。
RTX 2080的幀率為35FPS,領先GTX 1080 15幀。領先幅度為60%。
生化危機7
在《生化危機7》的測試中,RTX 2080 Ti的幀率為126FPS,領先GTX 1080 Ti 43幀,領先幅度為52%。
RTX 2080的幀率為97FPS,領先GTX 1080 31幀,領先幅度為47%。
守望先鋒
RTX 2080 Ti的幀率為156FPS,領先GTX 1080 Ti 34幀。
RTX 2080的幀率則為122FPS,領先GTX 1080 16幀。
文明6
在4K分辨率下,GTX 1080 Ti以下的顯卡終于扛不住了,各種差距開始拉開,然而RTX 2080與RTX 2080 Ti性能仍未完全發(fā)揮,幀率與1080P分辨率完全一樣。
巫師3
在《巫師3》中,RTX 2080 Ti的幀率為82,領先GTX 1080 Ti 28幀,領先幅度為52%
RTX 2080的幀率為67,領先GTX 1080 20幀,
4K分辨率的測試數(shù)據(jù)匯總?cè)缦拢?
由于文明6過于依賴CPU性能,3DMark Fire Strike Ultra的跑分無法反應圖靈性能,在計算性能百分比時并未加入這2個項目的測試數(shù)據(jù)。
在4K分辨率下,RTX 2080 Ti的性能得以釋放,相比GTX 1080領先了69%,和GTX 1080 Ti相比,有41%的領先幅度。
RTX 2080相比GTX 1080有36%的領先幅度,和GTX 1080 Ti相比,也能領先13%。
VEGA64的表現(xiàn)甚至不如2K分辨率,對GTX 1080的領先優(yōu)勢只剩下3%。
十三、CPU需求測試:4核4線程處理器無法勝任 i7-7700K老當益壯
在7代酷睿年代,很多玩家覺得4核i5與頂級的4核i7處理器相比,在單機游戲上面方面沒有多少差異,為此我們收集了7款主流的CPU逐一測試,方便玩家了解頂級顯卡對CPU性能的需求。
1、測試平臺
因為AMD平臺無法支持4000MHz頻率內(nèi)存條,測試時內(nèi)存統(tǒng)一采用3200MHz頻率
2、1080P分辨率測試
以下是1920x1080分辨率下7款CPU的測試成績匯總:
在1080P分辨率下,各種檔次的處理器跑出來的游戲幀數(shù)差別明顯,特別是沒有超線程功能里處理器嚴重限制了RTX 2080 Ti的性能。在多款游戲中,R5 1300X與i3-8100與頂級處理器之間都有超過50%的差距。
I7-7700K老當益壯,游戲性能與默頻的8086K幾乎完全一樣,如果手上還有7700K的同學,想要購買RTX 2080級別的顯卡,可以不用升級處理器。4核4線程的R3 1300X和I3-8100完全無法發(fā)揮RTX 2080 Ti的性能。超頻到5.2GHz的8086K比默頻時提升了6%的幀數(shù)。
3、4K分辨率測試
以下是3840x1600分辨率下7款CPU的測試成績匯總:
4K分辨率最高特效下,壓力都在顯卡這一邊,除了《奇點灰燼》和《文明6》這2款比較吃CPU的游戲之外,其他游戲游戲的測試中,各款CPU的幀數(shù)差距并沒有很大。
在4K分辨率下,8086K、7700K、2700X、2600在處于同一檔次,6核6線程的I5-8400與前面幾款產(chǎn)品有6%的差距,R3 1300X和I3-8100這2款處理器落后的幅度沒有1080P那么明顯,但也有10%以上的差距。
4、內(nèi)存需求測試:
分別測試2133MHz單通道、2133MHz雙通道、4000MHz雙通道三種狀態(tài)下,RTX 2080 Ti的游戲幀數(shù),內(nèi)存容量16GB。測試數(shù)據(jù)如下:
由上表可以看出,2133MHz單通道已經(jīng)完全不能滿足RTX 2080 Ti的需求,比雙通道時普遍慢了20%左右,特別是在《奇點灰燼》、《古墓麗影10》、《古墓麗影11》和《孤島驚魂5》這幾個游戲中更是大幅度落后。
在使用4000MHz雙通道內(nèi)存后,相比2133MHz雙通道,還能額外增加8%的游戲性能。
這2年內(nèi)存價格居高不下,很多同學在購機時往往選擇單條8GB內(nèi)存。如果想要發(fā)揮高端顯卡的實力,雙通道內(nèi)存是基本要求,必要時可以選擇高頻內(nèi)存條。
十四、超頻測試:核心幾無空間 顯存輕松15GHz
從帕斯卡開始,NVIDIA的BOOST 3.0技術就能在TDP允許的范圍內(nèi)最大限度提升核心頻率,基礎頻率僅有1.5GHz的GTX1070實際游戲中運行頻率經(jīng)常能夠超過2GHz。BOOST 3.O已經(jīng)充分發(fā)揮了顯卡的潛力,導致留給玩家的超頻空間非常之小,一般也就能超過幾十MHz而已了。
到了圖靈時代,超頻會不會有所好轉(zhuǎn)呢?帶著這個疑問,我們對2張圖靈顯卡的超頻能力做了簡要嘗試。
首先是RTX 2080,這張顯卡默認TDP為225W,我們先將它拉到272W。
然后開始嘗試提升核心頻率,悲催的是,經(jīng)過反復測試,在不加電壓的情況下,最高只能將核心頻率增加可憐的65MHz,再加一點點運行游戲時都會無響應。
不過好在美光顯存超頻能力不錯,從14GHz拉到 15GHz都能穩(wěn)定運行,此時顯卡的帶寬達到了480GB/s,與GTX 1080 Ti持平。
超頻之后3DMark Time Spy圖形分數(shù)從默認的10838增加到了11632,增長了800分,提升幅度7.3%,核心頻率最高能到2070MHz,大多數(shù)時候維持在2000MHz上下。
同樣的事情也發(fā)生在RTX 2080 Ti身上,其默認TDP為260W,我們將它拉到301W。然后在調(diào)整核心頻率的時候,也只能增加65MHz,顯存頻率則能從14GHz超至15GHz。
超頻之后的RTX 2080 Ti 3DMark Time Spy圖形分數(shù)從默認的13661增加到了14763,增長了1100分,提升幅度8%。
十五、功耗溫度測試:能耗比提升40%
1、功耗測試
公版RTX 2080 TDP達到了225W較GTX 1080的180W增加了45W,而RTX 2080 Ti的TDP則為260W,比GTX 1080 Ti高出10瓦,讓我看看他們世界的表現(xiàn)如何。
分別測試待機與Furmark烤機功耗,測試所用的電源為酷冷至尊MasterWatt Maker1200W鉑金電源。
圖靈的功耗表現(xiàn)再一次給了我們驚喜,RTX 2080烤機時整機功耗只有305W,僅僅比GTX 1080高出了20W的功耗,卻有著40%的性能提升。與GTX 1080 Ti相比,功耗低了35W,性能則強了15%。
同樣的事情也發(fā)生在RTX 2080 Ti身上,其烤機功耗僅有330W。相比GTX 1080 Ti增加了768個流處理器,核心與顯存頻率都有所增加的情況下,功耗依然降低了10W,而性能則是強了40%以上。
對比AMD最強的VEGA 64,RTX 2080 Ti在性能幾乎翻倍的情況下,TDP只有對手的70%,能耗比差不多有3倍的差距。
2、溫度測試
由于參與對比評測的顯卡都已在倉庫存放許久,可能會出現(xiàn)硅脂干化等情況,因此不對這些顯卡進行溫度測試,我們在這里只測試2張圖靈顯卡的溫度表現(xiàn)。測試時室溫26度、測試軟件為Furmark。
經(jīng)過5分鐘的Furmark烤機測試,RTX 2080的溫度穩(wěn)定在75度。
同樣是5分鐘的Furmark烤機測試,RTX 2080 Ti的溫度則穩(wěn)定在79度。
圖靈的公版顯卡舍棄了原來的渦輪風扇改換成了現(xiàn)在的雙風扇散熱系統(tǒng),溫度也好看了很多。RTX 2080烤機溫度只有75度,比GTX 1080低了8度,RTX 2080 Ti機溫度為79度,比GTX 1080 Ti低了6度。
十六、DLSS測試:鋸齒肉眼幾乎不可見 游戲性能毫無影響
3D游戲畫面在運行時,物體邊緣會產(chǎn)生“狗牙”(鋸齒),分辨率越低,鋸齒越嚴重,嚴重影響觀感。由此產(chǎn)生了許許多多的抗鋸齒技術,例如SSAA、SMAA、FXAA、TAA。以上這些技術要么需要對額外的像素進行渲染,要么需要對額外的幀進行渲染,無論怎樣都需要消耗GPU資源,使游戲的幀率大大降低。有鑒于此,NVIDIA推出了DLSS(Deep Learning Super Sampling)深度學習超級采樣抗鋸齒技術。
不用于以往任何抗鋸齒技術,DLSS使用圖靈核心中的Tensor單元來進行運算,不需要消耗CUDA單元,因此不會對顯卡的性能造成任何損失,不過卻能得到等同于TAA(時間抗鋸齒)的畫質(zhì)。
下面我們以最終幻想15 BenchMark程序來體驗DLSS的效果。
1、畫質(zhì)對比
這是未開啟抗鋸齒的畫質(zhì),幀數(shù)很高,達到了59FPS。但是汽車邊緣的鋸齒感非常明顯,要知道這可是4K分辨率,如果降低到1080P,鋸齒現(xiàn)象會更加嚴重。
上圖是開啟了TAA抗鋸齒的畫面,汽車邊緣的鋸齒肉眼幾乎不可見,但幀率也降低至43FPS。
這是開啟了DLSS抗鋸齒的畫面,汽車的鋸齒也基本上幾乎看不到,但是幀率則維持在較高的57FPS,大大優(yōu)于開啟TAA時的表現(xiàn)。。
2、性能測試
GTX 1080/1080Ti開啟DLSS模式直接報錯,只能運行TAA。
左邊是1080ti,開啟TAA模式測得3001分;右邊是GTX 1080,TAA模式下的分數(shù)為2524分。
這是RTX 2080的測試成績,左邊是開啟了DLSS,分數(shù)為4547,右邊則開啟了TAA模式,分數(shù)3353。
這是RTX 2080 Ti的測試成績,左邊是開啟了DLSS,分數(shù)為5812(很奇怪,超越了沒開AA的分數(shù),測試3次均是如此),右邊則開啟了TAA模式,分數(shù)4219。
測試成績匯總?cè)缦拢?
在NOAA模式下,RTX 2080 Ti比GTX 1080 Ti強42%,RTX 2080比GTX 1080強了32%。開啟TAA后,每張顯卡都要損失25%左右的性能。但是2張圖靈顯卡在開啟DLSS后,性能都沒有下滑,RTX 2080 Ti性能甚至還有提升。
至于圖靈DLSS與帕斯卡TAA性能對比,RTX 2080 Ti相比GTX 1080 Ti領先幅度增加到了93%,而RTX 2080相比GTX 1080領先幅度也提升到了80%。由此看來NVIDIA官方宣傳的RTX 2080 DLSS性能相比GTX 1080 TAA提升一倍也有一定的依據(jù)。
十七、光線追蹤測試:體驗真實世界的光影效果
傳統(tǒng)的光柵化渲染是將一個3D圖形的幾何信息轉(zhuǎn)變?yōu)橐粋€個柵格組成的2D圖像的過程,可以理解為在這個3D圖形的每個點都包含有顏色、深度以及紋理數(shù)據(jù),經(jīng)過一系列計算變換后,將其轉(zhuǎn)換為2D圖像的像素,進而呈現(xiàn)在顯示設備上。
這一過程也就構成了我們愛游戲中所看到的各類陰影效果以及光線投射,在這過程中所有的光影效果都是提前設計好的,如果開發(fā)者設計時不那么嚴謹,就會在不應該有陰影的地方出現(xiàn)陰影。同時即便耗費巨大精力去提前設計好的所有陰影的可能情況,也只能做到無限接近于真實,況且這一點本身也很難做到。于是實時光線追蹤(ray tracing)便成為了玩家與游戲開發(fā)者最終極的選擇與夢想。
傳統(tǒng)的光線追蹤技術是以光源為起點定義光線,進而追蹤由此產(chǎn)生的光線與物體表面以及光線與光線之間交互關系的過程。但該技術目前實現(xiàn)起來非常困難,因為這一技術需要無限多的光線照射在物體表面,通過反射、折射、漫射等途徑進入最終的“攝像機”成像。這一過程需要耗費大量的算力且會有大量光線損失。因此光線追蹤技術自誕生之日起,就有人斷言20年之內(nèi)光線追蹤不可能實現(xiàn)。
然而天才的NVIDIA工程師們解決了這個難題。提出了一種新的Ray tracing理念,即是通過進入“攝像機”的光線,來回溯尋找光源。大部分從光源發(fā)出被折射或者漫反射不被玩家所看到的光線將不會被運算,這種思路將需要實時計算的光線數(shù)量降低了數(shù)十倍,使得實時光線追蹤技術至少提前十年成為現(xiàn)實。
下面我們通過3Dmark Ray Tracing Tech Demo來體驗光線追蹤的奇妙之處。
從上面2張圖可以可以明顯的看到小飛行器飛行時,在飛船上的倒影也是一直在變化方位。小飛機器自身也在發(fā)光,因此它的倒影的明暗度以及形狀也是隨時在發(fā)生著變化。
除此之外,大飛船本身也在緩慢滑行,周圍的環(huán)形燈柱投射在飛船上的倒影也是無時無刻都在變化著。
RTX 2080 Ti集成了68個RT Cores,每秒能處理100億條光線,而GTX 1080 Ti只能靠CUDA來計算光線,每秒能處理11億光線。下面我們通過星球大戰(zhàn)DEMO來演示光線追蹤的性能,這個DEMO可以為展現(xiàn)出一個如果科幻電影般的光影世界。
這是 GTX 1080 Ti的幀率,非??D,僅有3.31FPS
由于星球大戰(zhàn)DEMO鎖定24FPS,RTX 2080與RTX 2080 Ti都只能跑出24幀,即便如此,也達到了GTX 1080 Ti 7倍以上的性能。
十八、總結(jié):NVIDIA完成自我突破 圖靈徹底無敵
毫不夸張的說,圖靈是NVIDIA是十年來最大的一次構架更新,其意義不亞于2006年發(fā)布的世界上第一塊支持DirectX 10 的代號為G80的GeForce 8800 Ultra顯卡。圖靈的改進如此之多,我們此篇評測只是測試了其中一部分特性,之后還會有一篇補充評測。
圖靈第一次將深度學習引入了游戲卡中,目前來說最主要的用途就是DLSS(深度學習超級采樣抗鋸齒),他能提供與TAA抗鋸齒技術幾乎相同的畫質(zhì)(未來會在畫質(zhì)上會超越TAA),但絲毫不會影響到游戲性能,在我們的測試中,RTX 2080 DLSS的性能領先GTX 1080 TAA達到了80%。
而RTX(實時光線追蹤)是一項革命性的技術,NVIDIA花了整整10年時間來開發(fā),才有現(xiàn)在的成果。過去所有的陰影技術無論看上去多么逼真,其實都是虛假的,實時光線追蹤技術能構造出一個完全真實的光影世界。RTX 2080 Ti集成了68個RT核心,RTX-OPS性能十倍于GTX 1080 Ti,在星球大戰(zhàn)DEMO測試中,后者僅能跑出3FPS的幀率,而RTX 2080/2080 Ti能輕松達到24FPS。
Turing還在每個流處理中增加了一個INT32整數(shù)單元,能將流處理器運算效能提升36%,因此在我們的測試中,2944個流處理器的RTX 2080在游戲性能上比3584個流處理器的GTX 1080 Ti還要強了15%以上,而功耗更低。在能耗比這個指標上,圖靈相比帕斯卡至少有30%的提升。
再來說說NVIDIA的老對手AMD。最近幾年AMD的GPU研發(fā)幾近停滯,相比NVIDIA一次又一次的徹底更新內(nèi)核構架,AMD則是一個GCN構架從2011年一直用到現(xiàn)在(VEGA構架也是GCN之上做了一些修修補補)。目前VEGA與圖靈的能耗比差距已經(jīng)達到了3倍之多,這個差距之大,可能即將發(fā)布的7nm的VEGA游戲卡都難以彌補,然后明年又要面對NVIDIA 7nm制程工藝的安培,結(jié)局不用想都很明了!
再說說圖靈的售價,雖說他的性能完全對得起價格,但是售價一萬元的游戲顯卡已經(jīng)遠遠超過的普通玩家的預算以及預期。如果AMD不能推出一款類似于圖靈這樣革命性的GPU構架,未來很長一段時間,獨立顯卡都將是NVIDIA一人的獨角戲。
標簽 游戲- 原標題:NVIDIA RTX 2080/RTX 2080 Ti首發(fā)評測:感受12年來GPU最大革命
- 責任編輯:呂棟
- 最后更新: 2018-09-19 22:39:21
-
上海警方:竊取華住旗下酒店數(shù)據(jù)信息嫌疑人已被抓獲
2018-09-19 20:02 依法治國 -
青春不是減配!小米8青春版亮相 華為P20要哭了
2018-09-19 18:10 手機硬件 -
虛假宣傳對手 法院二次責令泰迪熊移動向小源科技道歉
2018-09-19 17:04 商業(yè) -
阿里成立平頭哥半導體公司,稱兩三年內(nèi)要打造真正量子芯片
2018-09-19 15:08 大公司 -
科技早報|文章《誰在殺死騰訊》被微信提示標題夸大誤導
2018-09-19 11:45 -
美媒:與中國比高鐵,我們簡直第三世界
2018-09-19 10:52 美國一夢 -
萬元新iPhone降價賣,賣家照樣賺錢,為何?
2018-09-19 09:18 蘋果新“品” -
華為輪值CEO胡厚崑:5G落地后會比4G安全一倍
2018-09-18 16:43 IT新浪潮 -
三星在天津投資30億人民幣擴產(chǎn)MLCC
2018-09-18 16:32 大公司 -
SpaceX繞月飛行首單旅客:日本億萬富翁前澤友作
2018-09-18 15:36 航空航天 -
哈啰CEO楊磊談改名:短期看我們像滴滴,長期走的路不同
2018-09-18 15:22 -
臉書加強審查 并設置“人權專員”
2018-09-18 15:06 美國政治 -
中國制造趕德超美的秘密在這!德勤中國智能制造深度報告
2018-09-18 14:30 -
科技早報|二維火:美團涉嫌破壞系統(tǒng)已立案 周一中概股多數(shù)下跌
2018-09-18 09:37 -
我國科技期刊尷尬:一二流投國外,三四流投國內(nèi)
2018-09-18 07:53 科技前沿 -
工業(yè)富聯(lián)再創(chuàng)上市以來新低 距破發(fā)僅一步之遙
2018-09-17 22:33 -
又雙叒叕炸了?三星Note9在美國發(fā)生自燃事件
2018-09-17 16:40 手機硬件 -
攤上事!極驗指控網(wǎng)易云易盾惡意占用LOGO
2018-09-17 16:24 科技前沿 -
亞馬遜內(nèi)部員工賣數(shù)據(jù)刪差評 中國區(qū)情節(jié)最嚴重
2018-09-17 16:17 -
馬云:我們不該擔心機器智能超越人類智慧
2018-09-17 13:05
相關推薦 -
最新聞 Hot
-
“笑死,美國要是不干預,你們都在說俄語或德語了”
-
“中方反制的后果,這才應該讓美國人顫抖…”
-
“菲律賓人怒了…”
-
“核心人物筆記中發(fā)現(xiàn)引誘朝鮮攻擊內(nèi)容”
-
報復烏克蘭?斯洛伐克總理突訪俄羅斯
-
在美國中部再入大氣層,“來自中國”
-
特朗普:幸好馬斯克當不了總統(tǒng),哈哈哈!
-
美國私營監(jiān)獄狂喜:前所未有的機會!
-
沙利文放話:特朗普跟中國談不成“大買賣”
-
普京:俄羅斯上一代政客“摧毀國家”
-
“三戰(zhàn)開打?不要嚇唬人,但…”
-
12年造20公里,這條日本承建的越南地鐵終于投運
-
“全球鉆石價格暴跌,怪中國?”
-
紐約地鐵上一睡覺女子被縱火燒死,“嫌疑人還坐在長椅上注視現(xiàn)場”
-
巴拿馬總統(tǒng)駁斥,特朗普:走著瞧
-
特朗普要將墨販毒集團列為恐怖組織,墨西哥回應
-