/ We know how

Big Query — czyli zaawansowana analiza danych z pomocą hurtowni danych od Google

Big Query to zaprojektowana przez Google, zaawansowana i wielochmurowa hurtownia danych, którą stworzono z myślą o elastyczności biznesowej. Co trzeba wiedzieć o Big Query? Wszystkie niezbędne informacje przedstawiamy w poniższym artykule.

 

 

Big Query — czym jest i jak może pomóc w analizie danych?

 

Big Query to skalowalna hurtownia danych (ang. cloud data warehouse) zaprojektowana przez Google, czyli światowego potentata, którego zna chyba każdy internauta. Jakie są obszary zastosowania tego rozwiązania? Trzeba przyznać, że Big Query oferuje wiele możliwości

Big Query umożliwia obsłużenie milionów zapytań (query) oraz prowadzenie zaawansowanej analizy znacznej ilości danych w języku SQL. Znajomość tego języka jest tutaj dość istotna. Jednocześnie podmioty, które korzystają z tego rozwiązania, nie muszą obawiać się o wysokie koszty związane z utrzymaniem zaawansowanej technologicznie infrastruktury czy o skalowanie bądź równoważenie ruchu. Google oferuje wszystkim nowym klientom 300 USD darmowych środków, które można wydać w ramach Big Query. Ponadto wszyscy klienci uzyskują całkowicie za darmo 10 GB przestrzeni dyskowej i nawet 1 TB zapytań miesięcznie.

Do Big Query w szybki sposób można wrzucić bądź pobrać z niej dane z różnych źródeł, a następnie dokładnie je przeanalizować. Płacimy tylko wyłącznie za te dane, które przeanalizujemy i to dopiero po przekroczeniu wspomnianego limitu 1 TB. Aby móc używać Big Query, nie musimy inwestować w drogi sprzęt oraz narzędzia i technologie, zaś konfiguracja jest wyjątkowo prosta.

 

 

Jakie są główne zalety hurtowni danych Big Query?

 

Big Query to jedna z najpopularniejszych hurtowni danych. Jest to uwarunkowane przede wszystkim tym, że oferuje ona całą masę zróżnicowanych funkcjonalności, co doceniają tysiące podmiotów przetwarzających i analizujących dane na całym świecie. 

Najważniejsze zalety hurtowni danych Big Query są następujące:

  • Brak konieczności inwestowania we własny serwer – wszystkie dane są przechowywane w technologii chmurowej.
  • Analiza danych z wykorzystaniem Big Query przebiega szybko i sprawnie. Hurtownia danych Big Query wyróżnia się tym, że pozwala na przeanalizowanie ogromnych ilości danych zdecydowanie szybciej aniżeli tradycyjne systemy bazodanowe. Jeden petabajt jest przetwarzany przez około 3 minuty, zaś jeden terabajt zaledwie kilka sekund. Tak szybki czas działania sprawia, że bez względu na to, ile danych mamy do przeanalizowania, z pewnością uzyskamy wyniki w zawrotnym tempie. Analiza danych realizowana jest w czasie rzeczywistym, a wszystkie zmiany możemy obserwować na bieżąco.
  • Pełna kontrola nad kosztami. W Big Query płacimy wyłącznie wtedy, gdy liczba przeanalizowanych danych przekroczy 1 TB w miesiącu. Taki model rozliczeń daje nam pełną kontrolę nad wysokością wydatków. Jeśli w ogóle nie korzystamy z narzędzia bądź nie przekroczymy wskazanego limitu, nie zapłacimy ani grosza.
  • BigQuery oferuje funkcję uczenia maszynowego (ang. machine learning). Funkcja Big Query ML umożliwia tworzenie oraz rozwijanie możliwości uczenia maszynowego z wykorzystaniem klasycznych zapytań SQL. Dzięki temu narzędziu można sprawdzić, jakie są trendy, co pozwala jeszcze lepiej projektować długoterminową strategię firmy w poszczególnych obszarach.
  • Hurtownia danych Big Query może okazać się nieocenionym wsparciem w każdej branży. Zapotrzebowanie na szybką i efektywną analizę informacji zauważalne jest w wielu branżach – finansach, przemyśle, marketingu czy logistyce, dlatego też każda firma, której zależy na uzyskaniu istotnych przewag konkurencyjnych, powinna zainteresować się możliwościami, jakie daje Big Query.
  • Big Query pozwala na importowanie danych ze zróżnicowanych źródeł. 

 

 

Dlaczego warto wybrać hurtownię Big Query?

 

Z roku na rok coraz więcej podmiotów analizujących znaczne ilości danych stawia na Google Big Query. Jest to spowodowane tym, iż dzięki temu rozwiązaniu nie musimy inwestować w nowoczesny sprzęt, zarządzać infrastrukturą, przeprowadzać konfiguracji czy aktualizacji oprogramowania. Za zapewnienie prawidłowości działania całego narzędzia odpowiadają inżynierowie Google. My możemy wówczas skupić się na prawidłowej analizie i zbieraniu danych.

Aby móc korzystać z możliwości, jakie daje Big Query, nie trzeba wprowadzać większych zmian czy przepisywać kodu źródłowego. Jest to uwarunkowane tym, iż Big Query wspiera  standard ANSI SQL:2011 a także oferuje całkiem za darmo interfejsy programowania ODBC i JDBC.

W Big Query nie musimy się także martwić o tworzenie kopii zapasowych – program samodzielnie  wykonuje kopie zapasowe, które są później przechowywane przez 7 dni. W tym czasie możemy zapoznać się z całą historią zmian i w razie potrzeby przywrócić jedną z poprzednich wersji.

Big Query to także bardzo wysoki poziom bezpieczeństwa – narzędzie słynie z niezawodnych mechanizmów kontroli bezpieczeństwa, zarządzania oraz niezawodności. Wszystkie dane przechowywane w programie są domyślnie szyfrowane. Google podaje na swojej stronie, że gwarantuje 99,99% czasu pracy bez przestojów.

 

 

Ograniczenia hurtowni danych Big Query

 

Hurtownia danych Big Query posiada pewne ograniczenia i limity w zakresie przetwarzania informacji. Najważniejsze z nich są następujące: 

  • Maksymalna liczba eksportowanych bajtów dziennie. Limit wynosi 50 terabajtów dziennie.
  • Maksymalna liczba eksportów dziennie. Limit wynosi do 100 000 eksportów dziennie.
  • Liczba zapytań dziennie. Nie ma ograniczeń co do liczby bajtów, które można przetwarzać w ramach zapytań w danym projekcie.
  • Liczba zapytań dziennie na użytkownika. Nie ma ograniczeń co do liczby bajtów, które w ramach zapytań mogą przetwarzać użytkownicy każdego dnia.
  • Liczba bajtów zapytań przetwarzanych w wielu regionach w danym dniu. Limit wynosi 1 TB.
  • Maksymalna liczba jednoczesnych zapytań interaktywnych. Limit wynosi 100 zapytań.
  • Maksymalna liczba jednoczesnych zapytań wsadowych. Limit wynosi 10 zapytań.
  • Maksymalna liczba kolumn w tabeli, wyniku zapytania lub definicji widoku. Tabela, wynik zapytania lub definicja widoku może mieć maksymalnie 10 000 kolumn.

 

 

Podstawowe funkcjonalności hurtowni danych Big Query

 

Gdy korzystamy z Big Query z poziomu przeglądarki, okno dzieli się na dwie części. Lewa zawiera elementy nawigujące, zaś w drugiej możemy tworzyć i wykonywać zapytania, a następnie wyświetlać wyniki. Nadrzędny poziom organizacji w Big Query to projekt GCP – aktualny projekt widzimy w lewej części okna BQ. Dane w Big Query są organizowane w zbiory. W zbiorze danych widzimy różne tabele.

Każdy użytkownik Big Query uzyskuje dostęp do datasetów domyślnych zaprojektowanych przez Google. Publiczne datasety są dostępne do obejrzenia w lewej części okna w sekcji nazwanej „public datasets”.

Jak wykonać zapytanie SQL w Big Query? To proste. Wystarczy, że klikniemy czerwony przycisk „Compose Query” w lewej części okna – wówczas uruchomi się puste okno tworzenia zapytania. Inny sposób to skorzystanie z przycisku „Query Table”, który znajduje się na ekranie zawierającym szczegółowe informacje na temat danej tabeli.

Ważnym atutem Big Query jest fakt, iż przechowuje on historię zapytań – w przypadku, gdy realizujemy któreś zapytanie po raz kolejny, wyniki są sczytywane. Jednocześnie nie ponosimy w takim przypadku żadnych kosztów związanych z realizacją tego zapytania.