• Google przetwarza 20 tyś terabajtów dziennie!


    Inżynierowie z Google podali do informacji publicznej kilka ciekawych danych na temat tego z jaką ilością danych codziennie ma do czynienia firma w której pracują.

    Google według tych informacji przetwarza 20,000 terabajtów dziennie (czyli 20 petabajtów), informacje jakie tworzą tak ogromną liczbę zawierają indeksy stron www, dane związane z wynikami wyszukiwania i samym wyszukiwaniem oraz oczywiście obsługę i przetwarzanie danych związanych z publikowanymi reklamami.

    Dane przetwarzane są grupowo w jobach nazywanych MapReduce. Średnio jeden job do pracy wykorzystuje około 400 serwerów (dane z września 2007) – koszt sprzętu potrzebnego do przetwarzania takiego joba to szacunkowo około 1 miliona dolarów. Polecam obejrzenie tabelki pokazujące ile takich jobów przetwarzanych jest miesięcznie i w jakim tempie powstają nowe joby.



    Możliwości przetwarzania takiej ilości danych oraz zaplecze techniczne jakie jest do tego potrzebne to jeden z elementów przewagi jaką posiada Google nad konkurentami takimi jak Microsoft czy Yahoo. Warto też myślę pamiętać o tych kosztach czytając zapowiedzi wyszukiwarek które mają stać się konkurentem dla google (lub wręcz pogromcą).

    Ps. Na ile jobów starczyła by ostatnia inwestycja Prokomu w hakia.com dość łatwo jest policzyć.

    Dodaj do:
    • Wykop
    • Facebook
    • Blip
    • Sledzik.pl
    • Flaker
    • Twitter
  • KOMENTARZE

    1. Nessa

      Spokojnie. Kupili samolot pasażerski dla siebie i opłacają lotnisko NASA i udostępniają jeszcze jeta dla naukowców z tej agencji więc milion dolarów na joba nie wydaje się wielką sumą ;)

    2. Michał Sadowski

      Google jak google, ale podobno to Youtube generuje 75% całego ruchu w sieci ;]

    3. Bartosz KITA

      Witam,
      Za naszgo żywota raczej nie będzie konkurencji dla Googla.
      Myślę, że sytuacja będzie odwrotna, to wielkie G będzie stanowiło konurencję dla dotychczasowych liderów różnego oprogramowania. Przykładem jest google apps, o którym dyskutowaliśmy ostatnio (Gmail w Gazeta.pl).

      Pozdrawiam,
      Bartosz KITA.

    4. łukasz bień

      Wystarczy klaster starych komputerów + algorytmy do przetwarzania stron i nie martwiłbym się o pieniądze na budowę wyszukiwarki. Zresztą tak na prawdę wystarczą same sprawdzone algorytmy, dużo firm jest wiele w stanie zapłacić (nawet sama UE pewnie by dofinansowała taki projekt) za możliwość realnego konkurowania z Google.

      Widać naocznie, że przejście z comiesięcznych googledance’ów na przetwarzanie na żywo w 2006 roku znacznie powiększyło ilość wykonywanych operacji MapReduce (a co za tym idzie ilość przetwarzanych danych), do tego dochodzi jeszcze domniemany problem z INT (bodajże), który ich ograniczał (do 4mld stron w indexie) i w 2005 roku (o ile mnie pamięć nie myli), sobie z tym poradzono.

      Pamiętam to jak dziś, wolna amerykanka wtedy była w indexie, nikt się nie przejmował, przez około pół roku ludzie spamowali ile się dało, aż w desperacji Google wycięło linki, które wyglądały jak te z popularnych systemów blogowych.

      Co do Twoich wniosków hazan’ie, nie zgodzę się, że zaplecze techniczne Google to jego przewaga, kupić sprzęt dla MS’a to żaden problem, tu chodzi o realne potrzeby wykorzystania tego sprzętu, a takich nie ma MS ani tym bardziej Yahoo (które działa bardziej lokalnie, coś jak nasz Onet).

      Tak na marginesie można dodać, że ilość maszyn jakie utrzymuje Google szacowano w 2007r. na 400+ tys.

    5. dc1

      hmm to niezbyt wiele jak na 2008 rok… ;)

    6. zacheusz

      trochę dziwne wydaje mi się tłumaczenie (a właściwie jego brak) słowa “job”
      wydaje mi się, że można to przetłumaczyć jako ‘zadanie’
      BTW nie ma co kalkulować mocy obliczeniowej klastra poprzez ilość komputerów
      chyba, że się zaznaczy czy to są PC, jakieś p-series czy też mainframe

    7. ragni

      ilosc serwerow googla i rozwiazania softwarowe to JEST przewaga googla. schmidt traktuje swoje centra danych jako duza bariere wejscia na rynek. oprocz nich tylko 4 firmy na swiecie sa w stanie nawiazac konkurencje: ibm, yahoo, microsoft i amazon. chocby podwyzszenie pojemnosci gmaila do 6gb po czesci jest uwarunkowane podniesieniem poprzeczki dla konkurencji. jesli na swiecie jest tylko 5 osrodkow o takiej skali i takim potencjale to oddalanie sie od pozostalych jest dla googla po prostu budowaniem przewagi konkurencyjnej. to biznesowy elementarz.

      polecam ten tekst: http://www.businessweek.com/magazine/content/07_52/b4064048925836.htm oraz wywiad ze schmidtem: http://www.businessweek.com/magazine/content/07_52/b4064052938160.htm

    8. ms

      “kupić sprzęt dla MS’a to żaden problem”

      ale to będzie inny sprzęt. G sam sobie buduje komputery z podzespolow, moze nawet i sam robi osprzet sieciowy?

    9. łukasz bień

      Rafale, wszystko zależy od skali projektu i potrzeb, jeśli cytujemy tu schmidt’a w sprawie Gmaila, czy tym podobnej usługi to się zgodzę, można to nawet przenieść na nasz rynek na przykładzie NK, sytuacja jest podobna, niewiele ludzi może sobie pozwolić na startup’a z zapleczem w postaci 60-100 serwerów.

      Ale dalej przystaje przy swoim (nie przekonałeś mnie, ani ten artykuł), że to serwery są podstawową barierą, bo z informacji wynikających z tych artykułów bije jeden wniosek – nie masz oprogramowania do wykonywania operacji MapReduce – na nic się nie zda posiadanie całej serwerowni, to proste. Gdyby Yahoo i Google nie stworzyli open source’owego hadoop’a to nie byłoby takich projektów jak Amazon S3 czy Google 101.

      W realiach biznesowych, po prostu starają się być o krok przed innymi, ten projekt jest bardzo nowatorski, zapewne dopiero co powstają jakieś otwarte narzędzia do pracy na takich klastrach ale jest to przyszłość, krok, który można porównać do algorytmu PR’a. To o nich będzie się mówiło, że udostępnili klastry dla śmiertelników nie o MS’ie.

      Może za niedługo powstanie połączenie dwóch typów projektów jak Seti i Amazon S3, gdzie każdy będzie mógł dołączyć swój sprzęt do klastra i zarobić parę groszy, udostępniając swój sprzęt m.in. dla komercyjnych zadań :).

    10. Google - wspaniały i straszny wielki brat • Taki sobie ja - taki sobie Blog

      [...] Dość powiedzieć, że dziennie ta najbardziej znana na świecie wyszukiwarka przetwarza ponad 20 tysięcy terabajtów danych [...]

    Odpowiedz

    Connect with Facebook

  • W POPRZEDNIM TYGODNIU

    Z wizytą w Życiu jak Marzenie
    Nowy wykop.pl i znów trzeba się przyzwyczaić
    Ad4Mass - kolejny konkurent dla AdTaily
    Papilot w Startup School - czyli rozmów Agnieszczaka cd.
    wiem-jem.pl - wszystko może cię zabić
    Polskie Gizmodo
    Team Europe Ventures uruchamia fundusz inwestujący również w Polsce!
    Oszukani przez PARP .pl
    Ruszył Google Apps Marketplace
    Nagrania wszystkich 23 prezentacji z TEDx Warsaw już dostępne
    O rozczarowaniach jakością Macbook Pro
    Google Reader dla blondynek
    Rewolucja w grach czyli OnLive już w czerwcu!
    Webstary to mały pikuś przy wynikach konkursu na blog roku (wiadomości24)!
    Nasza Klasa się rozpędza!
    I co z tym wyszukiwaniem w czasie rzeczywistym?
    Move czyli nowy kontroler do gier na PlayStation
    Dlaczego Apple powinno opatentować imię "Steve"
    Oni wracają czyli A-Team!