Wszyscy jesteśmy czujnikami: CEO SQream Ami Gal – o tym, jak przetwarzać duże dane

Wszyscy jesteśmy czujnikami: CEO SQream Ami Gal - o tym, jak przetwarzać duże dane
Luka między ilością danych a mocą procesora w procesorach SQream zmniejszyła się w rewolucyjny sposób – z pomocą procesorów graficznych. Gigantyczne wolumeny danych, sięgające nawet 1 PB, bazy danych nowej generacji pozwalają analizować setki razy szybciej i określać trendy na podstawie informacji historycznych. HiTech rozmawiał z CEO SQream Ami Galem na konferencji Big Data, Meet Big Brother organizowanej przez Sistema_VC na temat tego, jak powstał innowacyjny start-up, w którym wykorzystywane są bazy danych firmy i jakie kraje i firmy muszą przemyśleć w przyszłości.


SQream to izraelska firma założona w 2010 roku. Opracowuje bazę danych SQream DB na bazie procesorów graficznych NVIDIA (GPU). Wśród inwestorów firmy znajdują się fundusze: Hanaco Venture Capital, World Trade Ventures i Silvertech Ventures. W 2018 r. Rosyjski fundusz venture Sistema_VC wraz z Alibaba Group i innymi partnerami zainwestował 26,4 miliona USD w firmę

Baza danych SQream DB umożliwia analizę informacji do 20 razy większej objętości, a także 100 razy szybciej niż rozwiązania oparte na mikroprocesory (CPU). Koszt takiego przetworzenia jest o 10% niższy niż zwykle. Firma zarabia, subskrybując usługę. Klientami firmy są: tajski AIS Mobile, indyjski ACL Mobile, izraelski Cellcom i Sheba Medical Center.


Nowa generacja baz danych, która była niemożliwa

– na czym polegał problem z bazami danych podczas tworzenia firmy? [19659003] – Moc obliczeniowa procesorów (procesory) od dawna rozwija się inaczej. Wcześniej moc podwoiła się każdego roku, zgodnie z prawem Moore'a, a teraz wzrastają liniowo i bardzo powoli. Ponadto w ciągu ostatnich dziesięciu lat ilość danych rośnie wykładniczo. Stworzyło to lukę między danymi, które muszą być przetwarzane, a przetwarzaniem konwencjonalnych procesorów. Chcieliśmy tę lukę zamknąć, tworząc bazę danych na GPU. Mogą mieć tysiące rdzeni, a dzięki ich pomocy informacje przetwarzane są znacznie szybciej i taniej. Długie korytarze maszyn związanych z przetwarzaniem muszą należeć do przeszłości.

– Procesory graficzne są przeznaczone do przetwarzania informacji graficznych i wideo. Dlaczego zwróciłeś się do nich i jak zmusili ich do pracy z danymi?

– Próbowałem go z powrotem w latach 90-tych, ale szybkość przetwarzania była niższa niż to konieczne. Kiedy założyliśmy firmę pod koniec 2010 roku, było to prawie niemożliwe. A kiedy powiedziano nam, że to niemożliwe, chcemy rozwiązać ten problem. Rozpoczęły się inwestycje w Dolinie Krzemowej. Pewien profesor matematyki, który przeprowadził due diligence (procedura sporządzania obiektywnego obrazu obiektu inwestycyjnego – HiTek), udowodnił nawet w swojej tezy, że nie można przetwarzać danych z GPU.

[youtube https://www.youtube.com/watch?v=mwpd13urFog&w=590&h=393]

Kilka lat później udowodniliśmy już: w rzeczywistości jest to możliwe i może być skutecznym. Głównym problemem jest nie tyle przetwarzanie żądań na GPU, ile ogromnej ilości danych. Małe zestawy danych są teraz przetwarzane przy użyciu baz danych przechowujących informacje w pamięci RAM. Naszą misją były świetne dane. I było naprawdę ciężko – sześć lat zajęło opracowanie produktu, którego nie byłoby wstydem pokazać. Skuteczność naszej teorii potwierdzają nasi klienci – de facto stworzyliśmy nową generację baz danych.

– Mówisz o potrzebie przetworzenia dużej ilości danych, ale co jest teraz uważane za duże? Nawet w ciągu sześciu lat, w których stworzyłeś produkt, zmieniły się jego rozmiary

– Wszystko się zmienia. Kiedy zaczynaliśmy, pamiętaliśmy liczbę 1 PB. I nadal ma to znaczenie – wciąż jest to ogromna ilość danych. Dawno temu i 500 GB uznawano za duży zbiór danych. Teraz rozważamy małe zbiory danych od 500 GB do 4 TB. Zwykle takie dane nie są dostępne – są doskonale obsługiwane przez bazy danych w pamięci, jest na to wystarczająco dużo pamięci RAM. Większość naszych klientów ma od 20 do 500 TB. Możemy przetwarzać i wizualizować te dane. Gigantyczne wolumeny – to od 500 TB i więcej. I mówimy o danych strukturalnych, a nie o wideo lub obrazach. Bardzo niewielu klientów na świecie ma więcej niż kilka petabajtów. Nasz największy klient to 1 PB.

– Jakie to dane?

– Mamy klienci, którzy badają ludzki genom. I klienci z danymi związanymi z IoT – internet rzeczy – na przykład dane z czujników. Dane pochodzą z inteligentnych samochodów, czujników monitorujących zanieczyszczenie powietrza, klimatyzację i tak dalej. Dane pochodzące z telefonów są również rejestrowane. Niekoniecznie konkretnie dane osobowe, najczęściej – to ogólne dane do budowania trendów. My wszyscy, jak wiecie, są czujniki – i wiele takich danych poprawi nasze życie.

Zdjęcie dzięki uprzejmości serwisu prasowego Sistema_VC

Duże dane, analiza trendów i obraz zdarzeń

– Jaka jest główna różnica między in-memory bazy danych i duże bazy danych?

– Wszystko, co maszyna analizuje w swojej pamięci, nazywa się w pamięci. Dzisiaj sensowne jest używanie takich maszyn do analizy danych do 4 TB. Po tym limicie obliczenia stają się dużo bardziej skomplikowane i droższe

Na przykład firma telekomunikacyjna chce przeanalizować wieże komórek, ponieważ występują problemy. Aby to zrobić, pobierają wszystkie dane z wieży w tej chwili – to około 2 TB – i analizują je. Innym przykładem jest to, że analizują oni, jak poruszają się ich klienci w ciągu ostatnich sześciu miesięcy. Gdzie oni są, o której porze i jak długo. Na przykład chcą dowiedzieć się, gdzie od 18 do 21 godzin większość ludzi ma od 18 do 26 lat. Jest to przydatne w przypadku reklam. A żeby analizować dane przez sześć miesięcy, potrzebują setek terabajtów. Ta sprawa jest dla nas.

Dlatego bazy danych w pamięci są dobre do zrozumienia aktualnej sytuacji w czasie rzeczywistym, a duże dane służą do wyświetlania i zrozumienia trendy. Analiza w czasie rzeczywistym jest również możliwa, ale nie jest to nasza wiedza. Jesteśmy lepsi niż wszyscy, kiedy musimy analizować korki w określonym miejscu. Lub zanieczyszczenie powietrza. Aby to zrobić, analizowane są wszystkie historyczne dane pochodzące z tego miejsca. Pokazujemy duży obraz wydarzeń.


Globalny rynek systemów zarządzania bazami danych (DBMS) to około 50 miliardów dolarów rocznie, lwią część zdobywają uniwersalne rozwiązania, na przykład Oracle. Według analityków Gartnera aktywnymi graczami na rynku baz danych są usługi dbPaaS w zakresie publicznych usług chmurowych. Ich światowy rynek w 2018 roku wyniesie 186,4 miliarda dolarów, a segment dbPaaS osiągnie 10 miliardów dolarów do 2021 roku.


– Gdzie wdrożyłeś swoje systemy?

– Jednym z przykładów są badania nad rakiem. Duży szpital w Izraelu korzysta z naszych baz danych w swoim centrum badawczym. Wykorzystując dane dotyczące ludzkiego DNA i dane historyczne dotyczące leczenia raka, określają najlepszą metodę leczenia dla konkretnej osoby. Oznacza to, że mogą zaoferować pacjentowi kilka terapii, ale nie wiedzą, który z nich jest bardziej skuteczny. Następnie analizują za pomocą danych, jak ludzie z podobnym DNA reagują na różne metody leczenia – i to jest automatycznie porównywane. Jedna z metod będzie statystycznie bardziej użyteczna dla tego pacjenta. I uczą się tego w ciągu kilku minut zamiast dwóch miesięcy, jak to było wcześniej. Ta technika już uratowała życie wielu dzieci. Jest to jeden z przypadków, który bardzo mi się podoba. Oczywiście, nie robimy tego – nie rozumiem niczego w genach ani w raku, jestem po prostu facetem pracującym z danymi. Ale pomagamy lekarzom uzyskiwać wyniki znacznie szybciej.

Kolejnym projektem jest optymalizacja sytuacji w ruchu drogowym w Bangkoku. Wszyscy myślą, że zawsze będą korki. Ale zbierają dużo danych – od świateł drogowych, samochodów i tak dalej. Przy pomocy naszych systemów przeanalizowali wszystkie dane w ciągu około tygodnia i przetestowali wyniki. Była to współpraca między rządem, firmami telekomunikacyjnymi i niektórymi producentami samochodów. Bez nas przeanalizowaliby te dane przez ponad rok

Na świecie istnieje ogromna liczba takich problemów. Staramy się pomóc w podjęciu decyzji, współpracując z ekspertami z różnych dziedzin. Opracowywanie nowych leków może trwać latami z powodu testowania wszystkich możliwych kombinacji i wyników. Za pomocą danych możemy skrócić ten proces do kilku tygodni. Oszczędza nie tylko miliardy dolarów, ale żyje.

Zdjęcie dzięki uprzejmości serwisu prasowego Sistema_VC

"Google ułatwia mi życie"

– Czy masz granice etyczne? Jeśli chodzi o wybór klienta, czy jest ktoś, kto nie chce sprzedać twojego produktu?

– Zwykle rzadko współpracujemy z ministerstwami i służbami bezpieczeństwa wewnętrznego – pracujemy z nimi, ale niewiele. Agresywne projekty i firmy, które manipulują danymi w Internecie, nie odpowiadają nam. Teraz współpracujemy nawet z klientami, którzy zmagają się z fałszywymi wiadomościami. W tym samym czasie nie możemy monitorować wszystkiego, co klienci robią z naszym produktem.

– Czy zgadzasz się, że dzisiaj jest zbyt wiele naszych danych w korporacjach?

– Różne algorytmy, które teraz stosowane w sztucznej inteligencji i uczeniu maszynowym, są używane od lat siedemdziesiątych. A główne zastosowanie tych algorytmów miało na celu skłonienie nas do kupowania większej ilości produktów w supermarketach. Wiele z tego, co działo się wcześniej, to manipulacje, na które nie zwracaliśmy uwagi. Ale to się zmienia.

[youtube https://www.youtube.com/watch?v=8lTHLiHNv2Q&w=590&h=393]

Po pierwsze, w ostatnich latach dane są już wykorzystywane na korzyść ludzkości – lepsze zdrowie, rozwój nowych narkotyków, inteligentne miasta. Nie tylko po to, by zdobyć więcej pieniędzy, ale także by polepszyć nasze życie. I to jest nowy trend – to nie było pięć lat temu. Na całym świecie są projekty, które próbują naprawdę rozwiązać problemy. Wielkie dane wreszcie działają dla nas, a nie tylko przeciwko nam.

Po drugie, pojawiają się nowe prawa i przepisy dotyczące pracy z danymi. Na przykład PKBR w Europie stara się chronić użytkowników. I wiele krajów przyjmuje podobne standardy

Po trzecie, osobiście nie mam nic przeciwko temu, że Google wie coś o mnie: to ułatwia mi życie. System pomaga mi być bardziej skutecznym. Wielu tego nie lubi – i mogą tego uniknąć, przestać korzystać z tych usług. Edukacja w tej dziedzinie jest bardzo ważna – ludzie muszą być wyjaśnione, w jaki sposób mogą zamknąć dostęp do swoich danych.

Jak chronić się przed komputerami kwantowymi

– Co sądzisz o przyszłości danych?

– W ciągu ostatnich dwóch lat, świat zebrał więcej danych niż łączny czas razem wzięty. Ilość danych nadal rośnie wykładniczo. Dzisiaj mamy wiele nierozwiązanych problemów – wciąż nie wiemy o wszystkim, co można zrobić przy pomocy danych. Małe problemy są już rozwiązywane za pomocą dużych danych, ale są bardziej poważne projekty – te same badania dotyczące leczenia raka. I wydaje mi się, że za kilka lat nastąpią jakościowe zmiany w takich badaniach. Rak będzie rozwiązany. Choroba Parkinsona będzie rozwiązanym problemem. A ze względu na ilość danych, które zbieramy, zobaczymy, jak są odpowiedzi na nierozwiązane pytania.

Wiele z tego, co wydaje się dziś niemożliwe, stanie się – dzięki analizie danych. W ciągu następnych dziesięciu lat świat zmieni się radykalnie – z punktu widzenia zdrowia publicznego, korków i tak dalej. Ale pojawią się nowe zagrożenia. Niektóre dane będą publicznie dostępne – i nie jest jasne, kto je wykorzysta do czego

Na przykład komputer kwantowy jest wciąż na bardzo wczesnym etapie, ale za dziesięć lat to na pewno zadziała. I ktoś może kupić komputer kwantowy – lub pewien analog. I używaj go do wszystkiego, do wszystkiego. W tej chwili nie jesteśmy chronieni przed tym. Weź hasła, z których dziś korzystają ludzie. Aby je odszyfrować i złamać, potrzebne są bardzo wydajne systemy. Ale najprawdopodobniej komputer kwantowy szybko pobierze niezbędne hasło. Startupy, a nawet kraje, muszą pomyśleć o tym, jak chronić nas przed komputerami kwantowymi.

Zdjęcie dzięki uprzejmości Sistema_VC press service

– Jakie są plany twojej firmy?

– Z technologicznego punktu widzenia Pracujemy nad nową generacją produktu. Wyobraź sobie superkomputer wielkości połowy smartfona, który może obsługiwać duże dane. Na przykład może być w samochodzie, analizować całą sytuację i pomagać kierowcy lub autopilotowi. Teraz tworzymy oprogramowanie dla takiego urządzenia. To znacznie poprawi podróż samochodem.

Rozwijamy się dość szybko – w ciągu ostatnich sześciu miesięcy liczba naszych pracowników podwoiła się i prawdopodobnie podwoi się ponownie w ciągu najbliższych sześciu miesięcy. Rozwijamy się do Azji i Ameryki Północnej, teraz wchodzimy na rynek Rosji i Europy Wschodniej. Ale jak nam się wydaje, właśnie zaczęliśmy.

Powiązane wiadomości