12

Google przetwarza 20 tyś terabajtów dziennie!

Inżynierowie z Google podali do informacji publicznej kilka ciekawych danych na temat tego z jaką ilością danych codziennie ma do czynienia firma w której pracują. Google według tych informacji przetwarza 20,000 terabajtów dziennie (czyli 20 petabajtów), informacje jakie tworzą tak ogromną liczbę zawierają indeksy stron www, dane związane z wynikami wyszukiwania i samym wyszukiwaniem oraz […]


Inżynierowie z Google podali do informacji publicznej kilka ciekawych danych na temat tego z jaką ilością danych codziennie ma do czynienia firma w której pracują.

Google według tych informacji przetwarza 20,000 terabajtów dziennie (czyli 20 petabajtów), informacje jakie tworzą tak ogromną liczbę zawierają indeksy stron www, dane związane z wynikami wyszukiwania i samym wyszukiwaniem oraz oczywiście obsługę i przetwarzanie danych związanych z publikowanymi reklamami.

Dane przetwarzane są grupowo w jobach nazywanych MapReduce. Średnio jeden job do pracy wykorzystuje około 400 serwerów (dane z września 2007) – koszt sprzętu potrzebnego do przetwarzania takiego joba to szacunkowo około 1 miliona dolarów. Polecam obejrzenie tabelki pokazujące ile takich jobów przetwarzanych jest miesięcznie i w jakim tempie powstają nowe joby.



Możliwości przetwarzania takiej ilości danych oraz zaplecze techniczne jakie jest do tego potrzebne to jeden z elementów przewagi jaką posiada Google nad konkurentami takimi jak Microsoft czy Yahoo. Warto też myślę pamiętać o tych kosztach czytając zapowiedzi wyszukiwarek które mają stać się konkurentem dla google (lub wręcz pogromcą).

Ps. Na ile jobów starczyła by ostatnia inwestycja Prokomu w hakia.com dość łatwo jest policzyć.