Inżynierowie z Google podali do informacji publicznej kilka ciekawych danych na temat tego z jaką ilością danych codziennie ma do czynienia firma w której pracują.

Google według tych informacji przetwarza 20,000 terabajtów dziennie (czyli 20 petabajtów), informacje jakie tworzą tak ogromną liczbę zawierają indeksy stron www, dane związane z wynikami wyszukiwania i samym wyszukiwaniem oraz oczywiście obsługę i przetwarzanie danych związanych z publikowanymi reklamami.

Dane przetwarzane są grupowo w jobach nazywanych MapReduce. Średnio jeden job do pracy wykorzystuje około 400 serwerów (dane z września 2007) – koszt sprzętu potrzebnego do przetwarzania takiego joba to szacunkowo około 1 miliona dolarów. Polecam obejrzenie tabelki pokazujące ile takich jobów przetwarzanych jest miesięcznie i w jakim tempie powstają nowe joby.



Możliwości przetwarzania takiej ilości danych oraz zaplecze techniczne jakie jest do tego potrzebne to jeden z elementów przewagi jaką posiada Google nad konkurentami takimi jak Microsoft czy Yahoo. Warto też myślę pamiętać o tych kosztach czytając zapowiedzi wyszukiwarek które mają stać się konkurentem dla google (lub wręcz pogromcą).

Ps. Na ile jobów starczyła by ostatnia inwestycja Prokomu w hakia.com dość łatwo jest policzyć.

Spodobał Ci się tekst? Poleć znajomym:

iStore

iStore

  • Nessa

    Spokojnie. Kupili samolot pasażerski dla siebie i opłacają lotnisko NASA i udostępniają jeszcze jeta dla naukowców z tej agencji więc milion dolarów na joba nie wydaje się wielką sumą ;)

  • http://www.digerati.pl Michał Sadowski

    Google jak google, ale podobno to Youtube generuje 75% całego ruchu w sieci ;]

  • http://bartoszkita.blogspot.com/ Bartosz KITA

    Witam,
    Za naszgo żywota raczej nie będzie konkurencji dla Googla.
    Myślę, że sytuacja będzie odwrotna, to wielkie G będzie stanowiło konurencję dla dotychczasowych liderów różnego oprogramowania. Przykładem jest google apps, o którym dyskutowaliśmy ostatnio (Gmail w Gazeta.pl).

    Pozdrawiam,
    Bartosz KITA.

  • łukasz bień

    Wystarczy klaster starych komputerów + algorytmy do przetwarzania stron i nie martwiłbym się o pieniądze na budowę wyszukiwarki. Zresztą tak na prawdę wystarczą same sprawdzone algorytmy, dużo firm jest wiele w stanie zapłacić (nawet sama UE pewnie by dofinansowała taki projekt) za możliwość realnego konkurowania z Google.

    Widać naocznie, że przejście z comiesięcznych googledance’ów na przetwarzanie na żywo w 2006 roku znacznie powiększyło ilość wykonywanych operacji MapReduce (a co za tym idzie ilość przetwarzanych danych), do tego dochodzi jeszcze domniemany problem z INT (bodajże), który ich ograniczał (do 4mld stron w indexie) i w 2005 roku (o ile mnie pamięć nie myli), sobie z tym poradzono.

    Pamiętam to jak dziś, wolna amerykanka wtedy była w indexie, nikt się nie przejmował, przez około pół roku ludzie spamowali ile się dało, aż w desperacji Google wycięło linki, które wyglądały jak te z popularnych systemów blogowych.

    Co do Twoich wniosków hazan’ie, nie zgodzę się, że zaplecze techniczne Google to jego przewaga, kupić sprzęt dla MS’a to żaden problem, tu chodzi o realne potrzeby wykorzystania tego sprzętu, a takich nie ma MS ani tym bardziej Yahoo (które działa bardziej lokalnie, coś jak nasz Onet).

    Tak na marginesie można dodać, że ilość maszyn jakie utrzymuje Google szacowano w 2007r. na 400+ tys.

  • dc1

    hmm to niezbyt wiele jak na 2008 rok… ;)

  • http://java.g-adwords.pl zacheusz

    trochę dziwne wydaje mi się tłumaczenie (a właściwie jego brak) słowa „job”
    wydaje mi się, że można to przetłumaczyć jako ‘zadanie’
    BTW nie ma co kalkulować mocy obliczeniowej klastra poprzez ilość komputerów
    chyba, że się zaznaczy czy to są PC, jakieś p-series czy też mainframe

  • Pingback: Google przetwarza 20 tyś terabajtów dziennie! « b.YISK blog

  • ragni

    ilosc serwerow googla i rozwiazania softwarowe to JEST przewaga googla. schmidt traktuje swoje centra danych jako duza bariere wejscia na rynek. oprocz nich tylko 4 firmy na swiecie sa w stanie nawiazac konkurencje: ibm, yahoo, microsoft i amazon. chocby podwyzszenie pojemnosci gmaila do 6gb po czesci jest uwarunkowane podniesieniem poprzeczki dla konkurencji. jesli na swiecie jest tylko 5 osrodkow o takiej skali i takim potencjale to oddalanie sie od pozostalych jest dla googla po prostu budowaniem przewagi konkurencyjnej. to biznesowy elementarz.

    polecam ten tekst: http://www.businessweek.com/magazine/content/07_52/b4064048925836.htm oraz wywiad ze schmidtem: http://www.businessweek.com/magazine/content/07_52/b4064052938160.htm

  • ms

    „kupić sprzęt dla MS’a to żaden problem”

    ale to będzie inny sprzęt. G sam sobie buduje komputery z podzespolow, moze nawet i sam robi osprzet sieciowy?

  • łukasz bień

    Rafale, wszystko zależy od skali projektu i potrzeb, jeśli cytujemy tu schmidt’a w sprawie Gmaila, czy tym podobnej usługi to się zgodzę, można to nawet przenieść na nasz rynek na przykładzie NK, sytuacja jest podobna, niewiele ludzi może sobie pozwolić na startup’a z zapleczem w postaci 60-100 serwerów.

    Ale dalej przystaje przy swoim (nie przekonałeś mnie, ani ten artykuł), że to serwery są podstawową barierą, bo z informacji wynikających z tych artykułów bije jeden wniosek – nie masz oprogramowania do wykonywania operacji MapReduce – na nic się nie zda posiadanie całej serwerowni, to proste. Gdyby Yahoo i Google nie stworzyli open source’owego hadoop’a to nie byłoby takich projektów jak Amazon S3 czy Google 101.

    W realiach biznesowych, po prostu starają się być o krok przed innymi, ten projekt jest bardzo nowatorski, zapewne dopiero co powstają jakieś otwarte narzędzia do pracy na takich klastrach ale jest to przyszłość, krok, który można porównać do algorytmu PR’a. To o nich będzie się mówiło, że udostępnili klastry dla śmiertelników nie o MS’ie.

    Może za niedługo powstanie połączenie dwóch typów projektów jak Seti i Amazon S3, gdzie każdy będzie mógł dołączyć swój sprzęt do klastra i zarobić parę groszy, udostępniając swój sprzęt m.in. dla komercyjnych zadań :).

  • Pingback: Google - wspaniały i straszny wielki brat • Taki sobie ja - taki sobie Blog

  • Pingback: Taki sobie ja – taki sobie Blog » Blog Archive » Google – wspaniały i straszny wielki brat