NVIDIA GeForce GTX Titan
47

Szef NVIDII ogłasza koniec prawa Moore’a, GPU zastąpią CPU

Prawo Moore'a to określenie faktu, jaki opisał w 1965 roku Gordon Moore, jeden z założycieli Intela. Obserwacja ta dotyczyła faktu, że mniej więcej co roku liczba komponentów w układach scalonych podwajała się. 10 lat później ten sam człowiek wprowadził poprawkę i stwierdził, że przez najbliższą dekadę gęstość upakowania tranzystorów będzie podwajała się co 2 lata, tak samo też będzie rosła ich wydajność. Jak się okazuje zależność ta została zachowana do dzisiaj, stąd przyjęło się określenie "prawo Moore'a".

Podczas niedawnej konferencji GTC (GPU Technology Conference) w Chinach, Jen-Hsun Huang, jeden z założycieli NVIDII i wieloletni CEO tej firmy stwierdził, że to już niedługo GPU (procesory graficzne) zastąpią w wielu zastosowaniach zwykłe procesory (CPU). Nie jest to pewnie nic dziwnego, że szef największej firmy produkującej GPU na świecie stwierdza taki fakt. Warto jednak się nad tym dłużej zastanowić. Koniec prawa Moore’a ogłaszany był już wcześniej kilka razy, ale jak do tej pory za każdym razem Intel zdołał kolejnymi generacji swoich procesów technologicznych zachować tę zależność. Owszem, można odnotować pewne zahamowanie od mniej więcej 2012 roku, czyli od wymiaru 22 nm, ale mimo początkowych trudności udało się przejść na 14 nm. W przyszłym roku możemy spodziewać się układów 10 nm, a w perspektywie są jeszcze możliwości zejścia nawet do 5 nm. Problem tylko w tym, że nawet jeśli firmie Intel udaje się podwoić gęstość tranzystorów w CPU co 2 lata, to nie jest to adekwatne do wzrostu wydajności. Ten jest znacznie mniejszy.

120 lat prawa moora

Koniec prawa Moore’a to fakt

Według Jen-Hsun Huanga, nawet jeśli liczba tranzystorów w CPU wzrasta średnio o 50% rocznie, to ich wydajność w tym samym czasie rośnie o maksymalnie 10%. Problemem jest tutaj sama architektura, która powoli dochodzi do ściany. Jej możliwości się kończą, a wielowątkowość nawet najwydajniejszych procesorów CPU na rynku, nie może się równać z GPU. Te posiadają nawet kilkaset razy więcej jednostek obliczeniowych, które mogą pracować równolegle. Nie trudno też zauważyć, że od kilku lat zegary w procesorach praktycznie stoją w miejscu. To w połączeniu z brakiem przełomowych zmian w architekturze owocuje niewielkim wzrostem wydajności. Tym samym prędzej czy później prawo Moore’a przestanie działać, choć według ostatnich prognoz nie powinno to nastąpić przed 2025 rokiem.

GPU idealne dla AI i sieci neuronowych

CEO NVIDIA powiedział także, że to właśnie układy GPU lepiej nadają się do wszelkiego rodzaju zastosowań związanych z sztuczną inteligencją (AI) oraz sieciami neuronowymi. Te rozwiązania wykorzystywane są między innymi w samochodach Tesli. Nie bez powodu autopilota w Modelach S, X i 3 zasila właśnie układ NVIDIA (GPGPU). Procesor ten odpowiada za przetwarzanie danych z wielu czujników naraz i w połączeniu z oprogramowaniem pozwala na niemal autonomiczną jazdę. To jednak nie jedyne zastosowania, podczas konferencji w Chinach, NVIDIA oficjalnie ogłosiła, że jej rozwiązania do przetwarzania danych zastosowały właśnie największe firmy e-commerce w Państwie Środka. Mowa tutaj o takich gigantach jak Alibaba, Baidu, Tencent, JD.com i iFLYTEK. Nie jest to nic nadzwyczajnego, bo GPU w swoich serwerach wykorzystuje też Google. Co więcej według pana Huanga, technologia NVIDII jest nawet pięciokrotnie tańsza w porównaniu do tradycyjnych procesorów. Właśnie z tego powodu spodziewa się on, że w przyszłości coraz częściej GPU, będzie zastępowało CPU.

Nie martwcie się, CPU nigdzie się nie wybiera

Warto jednak zaznaczyć, że te wszystkie sprawy wspomniane powyżej dotyczą rynku profesjonalnego. CPU w naszych domowych komputerach, laptopach czy tabletach nigdzie się nie wybierają. Z założenia taka jednostka jest znacznie bardziej uniwersalna niż GPU i na ten moment trudno sobie wyobrazić, aby CPU miał zniknąć z PeCeta.

  • cYk

    Nie trudno też zauważyć, że od kilku lat zegary w procesorach praktycznie stoją w miejscu. To w połączeniu z brakiem przełomowych zmian w architekturze owocuje niewielkim wzrostem wydajności.

    Przyczyną był raczej monopol Intela.

    • Maciej Jachnowicz

      A co z tego, że stoją? Taktowanie ma się już nijak do wydajności. Odpal sobie aplikacje jednowątkowe – czy to i3 z trzeciej generacji, czy i7 z siódmej generacji – działanie takie samo. W tej chwili liczy się tylko wielowątkowość co w końcu zrozumiał tez Intel, a zaczął AMD. Tyle, że w za wcześnie. ;) W końcu FX’y sprzed kilku lat oferowały dla przeciętnego konsumenta po 10 rdzeni.
      Nawet w ARM’ach jest to samo. Apple to też zauważyło – dopiero po kilku latach zdecydowało się umieścić dodatkowy rdzeń [iPhone 4S], a kolejne dwa dopiero w ubiegłorocznym iPhone 7. A teraz? Kolejne dwa dodatkowe rdzenie, po ledwie roku, w iPhone 8/X!

    • 4.4-Litre V8

      Żaden FX nie oferował tej 10 rdzeni, jednowątkowo i7 jest wydajniejszy nawet przy tym samym zegarze względem i3 przez większą ilość cache L3. Nie mówiąc już, że różnica wydajności pomiędzy Ivy Bridge a Kaby Lake to jakieś 30-40%.

      Pierwszym układem Apple Ax z większą ilością rdzeni niż 2 był A8X z trzema rdzeniami.

    • Maciej Jachnowicz

      Ok, poprawka – 8 rdzeni, 8 wątków. :)

      I ok, różnica w wydajności jest ale nie przez zegary a ilość tranzystorów, pamięć cache czy inne elementy. Nie taktowanie samego CPU. I zaś weź sobie i5 Sandy/Ivy, a i5 Kaby – w grach różnica jest rzędu 10 klatek. To jest nic. A weź i7 Ivy – zmiecie tą i5 Kaby. Bo więcej wątków.

      Ale A8X był do tabletów, ja mówię o iPhone’ach? :V To tak samo Xeony z 2010 roku miały po 6 rdzeni, 12 MB cache i taktowanie pod 4 GHz…parametry, które będą miały dopiero teraz najnowsze desktopy Core.

    • 4.4-Litre V8

      Różnica Sandy/Ivy vs Kaby 10 klatek to jest minimum, czasami jest to 30 klatek.

      Na PurePC jest test Sandy Bridge z 2017 roku, w większości testów i7 Sandy przegrywa z i5 Kaby pomimo, że i5 to 4/4 a i7 to 4/8. Nawet w uznawanym za wielowątkowy Blenderze. Mało tego, przegrywa w części testów nawet z Haswellem i5.

      A10 stosowany w iPhone 7/7Plus nie jest układem czterordzeniowym – za taki uznaje się układ gdzie wszystkie cztery rdzenie działają jednocześnie. A10 składa się z dwóch wydajnych rdzeni oraz dwóch rdzeni energooszczędnych o wydajności około ~25% tych pierwszych. Działać jednocześnie mogą dwa rdzenie wydajne LUB dwa rdzenie energooszczędne. Jest więc to układ 2+2.

      Pierwszym SoC linii Ax z możliwością pracy więcej niż na dwóch rdzeniach jednocześnie jest A11 – dwa rdzenie wydajne PLUS dwa rdzenie energooszczędne.

    • 4.4-Litre V8

      Poprawka, cztery rdzenie energooszczędne.

    • DonEladio

      Co z tego, tak czy siak różnica miedzy sb, a kl to maks około 50%, wiec żałosny postęp, gdzie to prawo moora, intel łże.

    • Artur Marciniak

      nie widziałem testu, ale wyniki są też bardzo oczywiste, bo aplikacje nie są jeszcze zoptymalizowane pod kątem wielowątkowości. Z gier dotychczas tylko Crysis świetnie to rozegrał.

    • Henrar

      A11 ma 2 wydajne i 4 słabsze rdzenie a nie 2 + 2.

    • kubas246

      Żaden FX nie posiadał 8 rdzeni. Były to procesory o budowie modułowej i topowe modele posiadały 4 moduły / 8 wątków. Równocześnie procesory te miały bardzo niskie IPC, kosmiczny pobór prądu.

      Kwestia budowy modułowej była taka że na jeden moduł przypadły dwie jednostki ALU (do obliczeń stałoprzecinkowych) i jedna FPU (do obliczeń zmiennoprzecinkowych). Więc jeśli wykonywane była obliczenia zmiennoprzecinkowe to tak jakby procesor miał 4 rdzenie a przy obliczeniach stałoprzecinkowych 8. Sama kwestia wykorzystania budowy była mocno problematyczna, dochodziło do tego wspomniane niskie IPC i tak oto dostaliśmy niestety słaby CPU.

    • Kik

      A pan panie wie, że klatki w grach to skala 1/x jest, co przekłada się na to że trzeba się bardzo postarać?

    • Przemysław Rumik

      @maciej_jachnowicz:disqus to nie jest tak, że Intel czy AMD zrozumiały, że lepiej iść w wiele rdzeni niż w podnoszenie częstotliwości.
      Po prostu podnoszenie częstotliwości znaczy tyle, że tranzystor musi szybciej się przełączyć, a że przełączenie zależy od ilości ładunku na bramce to trzeba ten ładunek dostarczyć tam w krótszym czasie, a to znaczy ni mniej ni więcej większy prąd, a większy prąd oznacza gwałtowny wzrost temperatury (moc tracona jeśli dobrze pamiętam rośnie z kwadratem prądu). Do tego układy były coraz mniejsze więc jeszcze większy prąd musiał być. Temperatura zbyt rosła.
      Stąd poszli w drugim kierunku czyli w wiele rdzeni, bo dzięki temu mogą nie podnosić prądu i zwiększać problemów z chłodzeniem, a łączna wydajność rośnie.
      To ma też swoje wady bo kod na wiele rdzeni jest o wiele trudniejszy do napisania, jest też mniej deterministyczny.

    • Maciej Jachnowicz

      Coś tam o tym wszystkim wiem po studiach inżynierskich. ;) Jednak zmniejsza się też proces technologiczny więc temperatura i zużycie też spada. Dlatego Durony i Pentiumy miały w porywach ponad 1 GHz. ;) I dlatego osiągnięcie 5 GHz to żaden wielki wyczyn na nowych CPU chłodzonych powietrzem, gdzie jeszcze kilka lat temu to były rekordy przy chłodzeniu azotem.
      A poszli w kierunku wielowątkowości, bo po prostu też wiele rzeczy robimy jednocześnie. Znów przytoczę przykład smartfona – kiedyś służył tylko do dzwonienia. Później do innych rzeczy, jednak robionych po kolei. W tej chwili? Telefon w kieszeni idąc przez miasto robi setki rzeczy na raz – sprawdza aktualizacje, monitoruje pozycje (GPS, liczy kroki), na bieżąco skanuje sieci WiFi i Bluetooth, nie mówiąc o aplikacjach w tle które bez przerwy coś pobierają i też aktualizują.

    • Przemysław Rumik

      @maciej_jachnowicz:disqus mniejsze szerokości ścieżek oznaczają większe problemy, bo chodzi o to, że masz granicę tego jak mało ładunku musisz użyć do przełączenia bramki. Ta granica wynika wprost z tego, że przełączenie musi być deterministyczne, czyli masz jakiś próg przełączenia przy którym głupie drgania cieplne mogłyby dokonać przełączenia, więc musisz ładować więcej ładunku niż by się wydawało, a że przesyłasz ten ładunek po coraz cieńszym „przewodzie” to musisz więcej tego ładunku pchać przez cieńszy przewód, czyli zwiększasz strumień ładunków a to znaczy zwiększenie prądu i wzrost temperatury.
      Dlatego jeszcze te 15 lat temu CPU dochodziły do 4 GHz, a teraz rzadko przekraczają 3.2 GHz.
      Gdyby dawało się podnosić bezkarnie częstotliwości wszyscy by to robili bo mutlicore z szybszymi rdzeniami byłby lepszy niż multicore z wolniejszymi rdzeniami ;-)

    • gentoo

      Ciekawe jak Rust i C++17 wykorzysta te rdzenie.

    • Artur Marciniak

      Odpal sobie Adobe Premier i zobaczysz czy wielowątkowość wygra z wysokim taktowaniem rdzenia

    • Serpher

      Tyle, że ta wielowątkowość idzie w parze z oprogramowaniem, które może to wykorzystać. Gdyby aplikacje były pisane ze skalowaniem do liczby rdzeni i lepszym harmonogramem zadań, wszystko śmigało by jak rakieta.

    • BloodMan

      Gdyby…
      A tymczasem większość tego nie robi – a te co robią (głównie poważny soft), to wolą GPU…

    • karroryfer

      dokładnie – wszyscy zachwycają się wydajnością nowych A10/11 i jakby zapomnieli że ostatnie wzrosty wydajności to głównie praca wielowątkowa

    • Rogata Dusza

      Mam i3 pierwszej generacji – niewielka jest różnica między nim a I7 najnowszej w podstawowych zadaniach.

    • Niedługo sprawdzimy to na Antyweb, mamy już w testach całą game Ryzenów, leciwego Haswella i niedługo trafi do nas też Coffee Lake, więc będzie okazja żeby porównać kilka rzeczy, np. wydajność przy takim samym taktowaniu.

    • arturho

      A przyczyną monopolu Intela było to że AMD stało w miejscu, jeśli nikt cię nie bije to sam masz się bić? 2 razy zakupiłem produkty AMD, nie spełniły moich oczekiwań i przestałem je kupować, nie interesuje mnie z jakich przyczyn były słabsze, po prostu były i nie będąc Matką Teresą wybierałem jak wielu innych to co było w tym momencie dla mnie lepsze. Zupełnie jak masło, nie kupię gorszego tylko po to by jakąś firmę wspierać.

    • It’s me STIG

      Pare lat temu rozpisywano sie ze juz zaraz zegary nie beda mialy jakis tam marnych 3ghz tylko po 8 – 10….haha

  • DonEladio

    Przecież to są bzdury, prawo Moorea już dawno nie jest aktualne, to tylko marketingowa gadka intela, stosuje się różne kruczki i druczki byle wyszło na papierze, że aktualne, w praktyce już dawno nie, zależność zachowana do dzisiaj?

    Gdzie jest dowód, niech mi ktoś pokaże ten cpu od intela, a potem kolejny i kolejny, który co 2 lata ma wydajnosć +100%, to mrzonki i brednie.

    Gdyby to była prawda to między leciwym już i5 2500k, a najnowszą generacją i5 musiałaby być PRZEPAŚĆ, 8 krotny wzrost wydajności, a według testów w najlepszym wypadku jest 50% po 6 latach.

    • Bo teraz ograniczyli się do podwajania gęstości upakowania tranzystorów i ich efektywności, nie jest to tożsame z wydajnością procesora. Gdyby wszystko szło zgodnie z planem, to wzrost wydajności byłby możliwy, ale za tym musiałby też iść coraz wyższy zegar. Gdzieś mniej więcej do SandyBridge zegar rósł (pomijam całkiem architekturę Pentium 4), a później wszystko siadło.

    • zz

      przeczytaj jeszcze raz początek artykułu, nie ma nic o wzroście wydajności 100%, naprawde inżynier powinien umieć czytać ze zrozumieniem

    • DonEladio

      Początku artykułu nie było jak pisałem komentarz, początek został zmieniony, po za tym z intro „gęstość upakowania tranzystorów będzie podwajała się co 2 lata, tak samo też będzie rosła ich wydajność”

      A jak wydajnosć nie rośnie równie z ilością, to jaki sens ma to prawo. Aczkolwiek to David House z intela stwierdził, że konsekwencją tego jest podwojenie wydajności co 18 miesięcy.

  • uslugifoto.com

    Ten artykuł to absolutna prawda. Dotychczasowy procesor CPU będzie tylko dyrygentem dla orkiestry GPU. Już dziś widać jak liczą programy typu Adobe Premiere czy Cature One Pro wykorzystując OpenCL czy Cuda. Kolejnym przykładem jest też Metal od Apple, jak ostatnio nie przepadam za MacOS tak muszę przyznać że działa to znakomicie. Z resztą Apple w najnowszej wersji MacOS hyba jeszcze bardziej adaptuje kartę graficzną do obsługi systemu.

    Że o kryptowalutach nie wspomnę…

    • androidponutelli

      Ale zdajesz sobie sprawę, że GPU robi tylko za koprocesor wektorowy?

    • uslugifoto.com

      A czytałaś co napisałem?

  • zz

    tesla rezygnuje z nvidi na rzecz intela

    • androidponutelli

      Tak bo intel ma w portfolio dedykowane układy ASIC po zakupie Altera.

  • Demostenes

    Czy jeśli GPU zastąpi CPU, to GPU nie będzie wtedy już CPU?

    • Janusz Krysztofiak

      Nie, GPU z definicji nie zastąpi zupełnie CPU. GPU to dość głupi, wyspecjalizowany układ do hurtowego wykonywania operacji wektorowych. Wartości ubezpieczenia ci nie obliczy, ani ścieżki w grafie, do tego nadal potrzebny będzie CPU, który jest znacznie elastyczniejszy, potrafi działać warunkowo. Chodzi o to, że GPU przejmie w większym stopniu number crunching, a CPU będzie głównie służył do realizacji logiki, do dyrygowania GPU.

  • Piotr Potulski

    W roku 1998, albo 1999 kupowałem procesor z taktowaniem 233 MHz (celeron) w 2001 kupiłem za psie pieniądze Durona 1GHz (cóż to była za moc…). Dla odmiany – 3 lata temu kupiłem i7 4790k, wzrost wydajności pojedynczego rdzenia od tego czasu jest kwestią dyskusyjną, a nawet te optymistyczne szacunki kończą się na wzroście rzędu 20%. Jednym z założeń prawa Moora był wzrost wydajności obliczeniowej procesorów o 100% w ciągu 18 miesięcy – to się skończyło jakieś 10 lat temu. Wszelki wzrost wydajności pojedynczego rdzenia w ostatnich latach to powolne wyszarpywanie pojedynczych procentów wydajności przez zmianę układów peryferyjnych (cache, kontrolery pamięci, ilość linii danych) albo optymalizacje mikrokodu, przewidywania skoków itd. Żadnego wzrostu „czystej mocy obliczeniowej”. W dodatku w przypadku CPU wzrost ilości rdzeni nie przekłada się zbyt dobrze na wzrost mocy obliczeniowej (nie, nie jest to „lenistwo programistów co im się nie chce pisać wielowątkowo”). Podsumowując – prawo Moore’a skończyło się jeszcze w poprzedniej dekadzie.

  • Pixellus

    Obecne na rynku procesory to mimo coraz niższych procesów technologicznych i coraz większego upakowania tranzystorów ciągle licząca już ponad 70 lat architektura von Neumana http://lukaszskalba.komorkomania.pl/30863,ciekawostka-tygodnia-procesor-neurosynaptyczny-2-3
    Obecnie pojawiają się jednak próby odejścia od tego sposobu budowy

    https://en.m.wikipedia.org/wiki/SyNAPSE

  • mily niemiec

    Trzeba pamiętać o instrukcjach itd

  • Nadolny

    związanych z sztuczną

    Czy to teraz już będzie normą, że zarabiać pisaniem będą ludzie, którzy pisać nie potrafią? Nie mam tu na myśli jakiegoś literackiego polotu, ale podstawy typu ortografia, gramatyka czy interpunkcja. Do cholery, nauczcie się pisać, tumany!

  • Danceqwerty

    CPU jest lepsze do wykonywania różnych sekfencji. GPU do podobnych sekfencji. To dlatego używamy dalej CPU w PC.

    Dlatego w tych profesjonalnych zadaniach używa się GPU. Profesjonalne rzeczy są przystosowane do jednego. GPU radzi sobie po prostu lepiej z podobnymi instrukcjami („Pacz 60 klatek na s).

    :)
    Komputery posiadają CPU i GPU, nie CPU i CPU ==> I odwrotnie.

  • mtqsen

    To nie jest koniec, to jest przepoczwarzenie.

  • mtqsen

    „Gordon Moore, jeden z założycieli Intela”
    Cóż.. Domyślam się że intel miał oczywisty interes w podtrzymywaniu tego mitu.

  • androidponutelli

    Wszystko wskazuje na to, że to rola GPU zostanie ograniczona i w wielu zastosowaniach zastąpią je dedykowane koprocesory ASIC. To już się dzieje na polu AI, gdzie powoli GPU zostaje wypierane przez układy tensorowe. To też się dzieje w wypadku innych profesjonalnych zastosowań. Przyszłość w zastosowaniach profesjonalnych wydaje się zdominowana przez zespoły CPU i układów ASIC.
    Ale co ma powiedzieć szef firmy, której sztandarowym produktem są GPU?

    • NVIDIA też ma swoje API TensorRT, więc pewnie tanio skóry nie sprzeda.

  • Cyr4x

    Ani tegoroczne procesory Intela, ani żadne mobilne nie są 2x szybsze od tych z 2015, więc prawo Moor’a już tak do końca nie działa.

  • anemusek

    google ma swoje TPU, które jest 20x wydajniejsze na wat niż najlepsza tesla v100, intel ma swoje myriady po zakupie movidiusa – gpu już praktycznie zostało pozamiatane w dziedzinie sieci neuronowych i nawet Tesla zmieniła partnera z nvidii na intela.
    Takie buńćzuczne przedstawienia to robienie dobrej miny do złej gry gdy zostaje się wyautowanym z rynku.

  • Kamil Ro. Dzióbek

    Wydaje mi się, że prawo Moora działa dalej bo GPU mają dwa razy więcej części (tranzystorów). No, ale ktoś musi zrobić wykres, a mi się nie chce.
    https://en.wikipedia.org/wiki/Transistor_count#GPUs

    „10 lat później ten sam człowiek wprowadził poprawkę i stwierdził, że przez najbliższą dekadę gęstość upakowania tranzystorów będzie podwajała się co 2 lata, tak samo też będzie rosła ich wydajność.”

    Z tego co pamiętam, nie mówił o dwukrotnym wzroście wydajności.