Изберете Страница

Изпробва: AMD GCN - Представяме Radeon HD 7970 и HD 7950

Дойде време да представим най-накрая архитектурата AMD GCN (Graphics Core Next) и нейните два най-мощни представители, Radeon HD 7970 и Radeon HD 7950.

Лого на GCN статия

От HD 7950 незабавно отдадохме почит на две от тях, така че имахме и възможността да тестваме CrossFireX и също така извършихме настроени измервания с двете карти. Разбира се, изпратихме и няколко ездачи срещу двете нови оръдия, за да видим до каква степен са се ускорили картите в сравнение с предишното поколение GeForces и Radeons. 


Преди да влезем в участниците и тестовете, ще разгледаме по-отблизо архитектурата на GCN и ще поемем характеристиките на HD 7970 и HD 7950.

 всички кутии за карти 2k

 Графика Core Next

През май 2007 г. AMD представи графичната карта Radeon HD 2900 XT, която вече е изградена върху единна шейдърна архитектура. Както се оказа, дизайнът имаше редица недостатъци, но проблемите бяха почти напълно отстранени по времето на серията Radeon HD 4000, което даде на компанията опора на пазара за настолни графични карти. В този момент се виждаше, че сега са необходими радикални промени. Серията HD 6900 “Cayman” се счита за първата стъпка. Тук предишните 5-пътни суперскаларни процесори (VLIW5) са заменени от 4-пътни процесори (VLIW4) и Cayman е първият чип, който обработва множество независими потоци от инструкции. Другото голямо нововъведение беше въвеждането на два „графични механизма“, които удвоиха капацитета за настройка на триъгълника - увеличавайки мощта на теселиране - и броя на някои елементи (Rasterizer, Hierarchical Z, Tessellator). Той стана обект на нашия тест от следващо ниво днес. Благодарение на архитектурата, наречена Graphics Core Next (GCN), масивите на шейдъра, които работят с инструкциите VLIW, използвани досега, са остарели, заменени от така наречените Compute Units (CUs). GCN беше първият, който дебютира в семейството на Radeon HD 7900 “Tahiti”.

19 m

Интересното е, но не е изненадващо, че графичните процесори на Таити са постигнали изключителна плътност на транзисторите благодарение на 28-нанометровата технология за производство на честотна лента на TSMC - те съдържат 365 милиарда транзистора на 4,3 квадратни милиметра. Една изчислителна единица съдържа четири SIMD и една скаларна единица. Флагманът на AMD Radeon HD 7970 “Tahiti XT” работи с 32 активни CU, приемайки общо 2048 шейдърни процесора (четири 16-пътни SIMD, 64 ALU). Като се има предвид напредъкът на поколенията досега, това на пръв поглед не изглежда изключителна стойност, но за по-добра ефективност и използване бихме искали да заявим, че не си струва случайно да се правят далечни изводи от това технически показател. Теоретично CU може да изпълнява толкова, колкото едно Cayman SIMD устройство. Основен проблем при предишните поколения е зависимостта от данни (последователните инструкции зависят от данните), която е причинила използването да варира значително. Архитектурата на GCN също е стъпка напред в тази област, защото елиминира преди това изпитани зависимости чрез обработка на потока. Предимствата са само в ключовите думи: планиране, отстраняване на грешки, оценка на очакваната производителност и разработка на драйвери също станаха коренно по-прости и по-прозрачни. 

24

36 mНе само CU съдържа четири SIMD единици, но също така има свой собствен планировчик, 340 KB буферно съхранение и клъстер за текстуриране. Това е сумата от векторния регистър 4 × 64 KB, 64 KB споделяне на локални данни, скаларен регистър от 4 KB и кеш от първо ниво с капацитет от 16 KB. Изображението по-горе показва друг компонент, който определено си струва да се спомене, а това е така нареченият „Branch & Message Unit“, който играе роля за по-ефективно управление на програмата.
Разполагайки с информацията досега, нека отново прегледаме ключовите параметри на графичния процесор „Tahiti XT“: 32 CU (2048 процесора за шейдър, 128 SIMD), 128 текстуриращи единици, 512 единици за зареждане и съхранение на 8,2 MB кеш. Така че позицията на момичето веднага беше различна, въпреки че тепърва започвахме да се „събличаме“.

35 mFront-End

По отношение на интерфейса можем да видим значителни разлики в сравнение с архитектурата на NVIDIA GF110. По принцип управлението не се извършва на ниво CU. Тази задача се изпълнява от командния процесор и асинхронния изчислителен механизъм (ACE). Чипът е получил два геометрични мотора, които освен Geometry-Assembler, Vertex-Assembler, побират и теселаторни устройства от девето поколение. Комуникацията с CU се улеснява от Global Data Share (GDS), чрез която тези единици също могат да споделят данни помежду си. Разделът за интерфейс съдържа два растеризатора - можете да видите оформлението по-долу.

37

ROP и интерфейс на паметта
AMD Tahiti съдържа 8 ROP клъстера - в този момент намерихме съвпадение с Cayman чипа. Всеки такъв „масив“ съдържа четири ROP единици и 16 Z семплера. Важно е да се спомене, че на всеки клъстер е даден собствен кеш. Настъпи още една голяма промяна: вече няма директна връзка с контролера на паметта. Преместването има за цел да подобри гъвкавостта и използваемостта, което можем да видим в контекста на Питкерн ... ROP могат да записват в 768 KB L2 кеша, който от своя страна може да се чете от множество единици. Интерфейсът на паметта получава радостно изображение. Шестте 64-битови контролера на паметта имат общ капацитет от 384 бита. Просто бихме добавили дума към това. Накрая! Размерът на видео паметта по подразбиране е 3072 MB, но на теория са възможни и 1536 MB и 6 GB.

Надяваме се нашите читатели да не го приемат с лошо име, но в този момент бихме изразили личното си мнение за бекенда. Връзката между Barts, която се е представила наистина добре, и Cayman чипа, който показва относително скромни резултати, предполага, че „общият проблем“ на AMD чиповете е тесният ROP капацитет. Тук също не е постигнат напредък по Таити, докато страниците могат да бъдат написани с известно преувеличение за други новости в чипа. Ролята на ROPs е особено видна по време на игрите, по време на задачите и приложенията на GPGPU те стават втори цигулари. Също така е сигурно, че тази секция консумира голям брой транзистори, което разбира се се отразява и в размера на чипа.

 

Подобренията на AMD досега до голяма степен са обслужвали нуждите на геймърите. Сега е имало завой от поне 90 градуса и той се е превърнал в силно кръстовище, за да отговори на професионалните нужди, да използва GPU по-широко. Разбира се, това не е проблем, тъй като основно говорим за много грубо ниво на производителност, което със сигурност ще издържи на изпитанията на съвременните игри в продължение на няколко години. Според слуховете, не само AMD, но и NVIDIA лекува ROPs тясно с Kepler.

Разширяването на шината на паметта беше похвална стъпка. Всъщност дизайнерите нямаха голям избор. Часовниците вече не могат да бъдат значително увеличени, но чипът гладува за данни. Според нас само този ход би могъл да увеличи производителността по време на игрите с до 15 процента.

44DirectX 11.1 и PCI Express 3.0
Стандартът PCI-Express 3.0 увеличава скоростта от 16 GB / секунда на 32 GB / секунда, удвоявайки скоростта на трансфер на данни от PCIe 2.0. Производителите на дънни платки веднага „хапят по темата“, но колкото и да искат, превключвателят в момента не предлага значително предимство. PCIe 3.0 е важно оръжие от маркетингова гледна точка, задължителен стандарт за AMD и NVIDIA и друг „капан за пари“ за потребителите.
DirectX 11.1 може да започне своето завладяване със следната операционна система Windows, която съдържа незначителни корекции и оптимизации. Според официалните материали можем да очакваме поддръжка на стерео 3D и по-ефективна растеризация от новия API. За съжаление, може би най-интересният момент, който обсъжда как може да се подобри гъвкавостта и широкото използване на графичния хардуер, не е подробен.

31 m

Архитектурата Graphics-Core-Next изглежда като цяло така. Разбира се, чипът не само обслужва нуждите на играчите, но има и място за професионални задачи. Теоретичното върхово представяне на Таити за изчисления (за изчисления с двойна точност) е 947 GFLOP, четири пъти по-високо за операции с плаваща запетая с една прецизност. В допълнение, спомените имат ECC поддръжка и графичният процесор е добре запознат с API на DirectCompute 11.1, OpenCL 1.2 C ++ AMP.27 Нови функции: Zero-Core
Като цяло, най-добрите хищници на ниво Radeon HD 7900 са свикнали да консумират като тема табу, но на инженерите на AMD липсва находчивост. Идеята е проста, но страхотна, но не нова. Ако оставите компютъра си за дълго време, но по някаква причина не искате да го изключите, може да искате да оставите монитора само в режим на готовност. Благодарение на технологията ZeroCore Power, при изключен дисплей, целият графичен контролер може да бъде обезсилен и не се изисква активно охлаждане в тази форма. Ползите са убедителни: нулев шум, 3 вата консумация на енергия. За мнозина това ще бъде незначителен фактор, но процедурата за четирипосочните системи Crossfire изключва не първичните видеокарти, като значително намалява сметката ви за електроенергия - макар че всеки, който мисли за подобен монтаж, не прави много за справяне с енергийната ефективност.

21a

20

Eyefinity 2.0
Една от интересните функции на новата версия е, че ви позволява да провеждате многоконтролни конференционни разговори с многолентово аудио. Официалното име на процедурата е Discrete Digital Multi-Point (DDM) Audio. Radeon HD 7970 може да бъде свързан едновременно с три дисплея, които могат да приемат осемканален аудио поток. Това може да не представлява интерес конкретно за домашните потребители, но е добър пример за това в колко области може да се използва новото оръдие. Устройството Catalyst също се развива, което улеснява позиционирането на тавата например и ви позволява да компилирате персонализирани резолюции. Струва си да се спомене, че Full HD стерео 3D съдържание може да се гледа и в режим Eyefinity. 

29 m

UVD и VCE
UVD 3.0 вече предлага хардуерно ускорение за DivX / Xvid, MPEG-4 част 2 MVC съдържание, а Video Code Engine (VCE) е практически AMD еквивалент на Intel Quick Sync Video. VCE е самостоятелен хардуер и е предназначен само за ускоряване на прекодирането на H.264 видеоклипове. Двигателят е по-бавен от шейдърните процесори в графичния процесор, но е много по-енергийно ефективен. На разположение на потребителите са два режима. Отначало работи само VCE, което само по себе си е по-бързо от повечето процесори. В този случай няма да изпитаме забавяне, можем да заредим видеокартата или централното устройство без никакви проблеми. Вторият вариант е хибриден режим. Аритметично-логическите единици на VCE и GPU скачат към задачата заедно. Този "брак" очевидно има добър ефект върху скоростта на кодиране, но в този случай не се изненадвайте, ако любимата ви игра превключи в режим "слайдшоу".

32

След като вече сме наясно с теорията и числата, нека се запознаем с трите модела GCN в теста!