Co to jest złomowanie: jak Amazon, Walmart i inni detaliści używają botów do walki z konkurencją

Co to jest złomowanie: jak Amazon, Walmart i inni detaliści używają botów do walki z konkurencją
Konkurencja między największymi detalistami doprowadziła do użycia specjalnego rodzaju robotów – skrobaków – do szpiegowania cen i produktów graczy na rynku. Ta sama technologia służy do czyszczenia stron internetowych niezbędnych do dobrego indeksowania w wyszukiwarkach i komercyjnych agregatorach cen. "Hi-tech" dostosował i uzupełnił artykuł WIRED, aby zrozumieć, jak odróżnić dobre boty od złych i jak firmy wykorzystują smartfony do zbierania informacji o swoich konkurentach.

Skrobaki i tajny wyścig zbrojeń internetowych

Detaliści z Amazon i Walmart do Maleńkie startupy chcą wiedzieć, co produkują ich konkurenci. Prawdziwi detaliści wysyłają tzw. Tajnych nabywców do sklepów swoich konkurentów, aby wyciągać wnioski na temat cen.

Ale w Internecie nie ma potrzeby takiego zakupu kontroli. Duzi detaliści sprzedają miliony różnych produktów. Całkowicie niepraktyczne jest zmuszanie pracowników do przeglądania każdego produktu i ręcznego dostosowywania cen. Zamiast tego firmy używają oprogramowania do badania witryn swoich konkurentów i zbierania cen. Proces ten nazywa się złomowaniem (z angielskim "skrobanie" – "High Tech"). Tak więc firmy oparte na informacji o konkurentach dostosowują własne ceny


Scrapper to program, który kopiuje dane z innych źródeł i publikuje je na swojej stronie bez zgody autora, automatycznie lub ręcznie. Skrobaki zwykle używają do tego kanałów RSS.

Zakres stosowania narzędzi złomowania:

  • Twórz listy dostawców, producentów, sprzedawców i innych do użytku komercyjnego. Dane kontaktowe są pobierane z różnych stron
  • Zbiór ukierunkowanych informacji do badań marketingowych
  • Wyszukaj oferty pracy lub pracowników.
  • Monitorowanie i porównywanie cen towarów w różnych sklepach.
  • Ograniczanie zależności od dostępu do Internetu – pobieranie danych z różnych stron dla możliwości czytania w trybie offline.


Według Alexandra Galkina, dyrektora generalnego firmy, aby zoptymalizować ceny detaliczne konkurentów, Amazon i Walmart tworzą całe działy zaangażowane w złomowanie. Inni zwracają się do takich firm, jak Competera. Gromadzą oni dane o cenach z całego Internetu, od detalistów obuwia Nine West po sprzęt przemysłowy Deelat, i wykorzystują algorytmy uczenia maszynowego, aby pomóc swoim klientom zdecydować, ile to kosztuje za różne produkty.

Walmart nie odpowiedział na pytanie ten mechanizm pracy. Amazon nie odpowiedział również na pytania dotyczące wykorzystania złomu. Ale założyciele Diapers.com, zakupionego przez Amazon w 2010 roku, oskarżyli Amazonę o używanie takich botów do automatycznego dostosowywania ich cen. Proces ten opisany jest w książce Brada Stone'a The Everything Store.

[youtube https://www.youtube.com/watch?v=PADKIdSPOsc&w=590&h=393]

Złomowanie może brzmieć groźnie, ale jest częścią pracy online. Google i Bing również wykorzystują złomowanie stron internetowych do indeksowania ich dla swoich wyszukiwarek. Akademiccy i dziennikarze używają oprogramowania do zbierania danych. Niektórzy klienci firmy Competera, w tym Acer-Europa i Panasonic, korzystają z usługi "Brand Intelligence". Tak więc dowiedzą się, którzy sprzedawcy detaliczni pobierają opłaty za swoje produkty, aby upewnić się, że są zgodne z umowami cenowymi.

Dolne maskowanie i polowanie

Złomowanie stawia sprzedawców detalicznych w interesującej i niejednoznacznej pozycji. Chcą zobaczyć, co robią ich konkurenci, ale z drugiej strony chcą uniemożliwić konkurentom śledzenie własnych działań. Ponadto, w przypadku sprzedawców, konieczna jest ochrona własności intelektualnej: zdjęcia i opisy produktów, które można zmienić i ponownie wykorzystać bez zgody innych osób. Według Josha Shaula, wiceprezesa ds. Bezpieczeństwa sieci w Akamai Technologies, wielu używa narzędzi bezpieczeństwa, aby podważyć algorytm złomowania. Jednym ze sposobów jest pokazanie różnych cen dla prawdziwych ludzi i botów. Witryna może wykazywać astronomicznie wysoką lub zerową cenę, aby natychmiast usunąć dane zbierające dane.

[youtube https://www.youtube.com/watch?v=IaFs2iOY__M&w=590&h=393]

Taka superszybka ochrona danych toruje drogę nowym przestępstwom. Luminati pomaga klientom, w tym Competerze, maskować boty, aby uniknąć wykrycia. Jedna z usług przekształca boty w zwykłych użytkowników ze smartfonów.

Usługa Luminati przypomina botnet, sieć komputerów ze złośliwym oprogramowaniem wykorzystywanym przez hakerów do przeprowadzania ataków. Zamiast potajemnie przechwytywać urządzenie, Luminati zachęca właścicieli urządzeń do akceptowania swojego oprogramowania wraz z inną aplikacją. Na przykład użytkownicy pobierający MP3 Cutter od Beka na Androida mają możliwość wyboru wyświetlania reklam lub zezwolenia aplikacji na korzystanie z "niektórych zasobów urządzenia (Wi-Fi i bardzo ograniczone dane komórkowe)". Jeśli zezwolisz aplikacji na korzystanie z zasobów, telefon będzie używany do celów Luminati przez kilka sekund dziennie. Dzieje się tak, gdy nie można wysyłać żądań od botów swoich klientów i płacić programistom aplikacji. W firmie Beka również nie komentuje tej sytuacji

[youtube https://www.youtube.com/watch?v=TLbqlPLNs80&w=590&h=393]

Walka z botami rodzi logiczne pytanie: jak je znaleźć? To skomplikowane. Czasami boty mówią stronom, które odwiedzają, że są botami. Kiedy jakiś program uzyskuje dostęp do serwera WWW, przesyła on małą informację wraz z żądaniem do strony. Konwencjonalne przeglądarki deklarują się – Google Chrome, Microsoft Edge lub inny. Boty używają tego procesu, aby poinformować serwer, że są botami. Ale mogą też kłamać. Jednym ze sposobów wykrywania botów jest pomiar częstotliwości, z jaką odwiedzający odwiedza witrynę. Jeśli użytkownik wysyła setki żądań na minutę, najprawdopodobniej jest to bot. Inną powszechną praktyką jest przeglądanie adresu internetowego protokołu odwiedzającego. Na przykład, jeśli pochodzi z usługi przetwarzania w chmurze, jest to bezpośrednie wskazanie, co wprowadza bot, a nie przeciętny użytkownik Internetu.

Shaul uważa, że metody takie jak maskowanie ruchu bota, śledzenie na adresie internetowym "prawie bezużyteczne". Kapcha może pomóc, ale jest to niewygodne dla prawdziwych użytkowników. Tak więc Akamai używa innych metod. Zamiast po prostu szukać wspólnego zachowania dla wszystkich botów, szuka wspólnych manifestacji prawdziwych ludzi i pozwala tym użytkownikom pójść dalej.

Kiedy naciśniesz przycisk na telefonie, przesuwasz go nieznacznie. Ten ruch jest wykrywany za pomocą akcelerometru i gyro telefonu i wysyłany do serwerów Akamai. Obecność drobnych danych o ruchu telefonu jest kluczem do tego, że użytkownik jest prawdziwą osobą, a jego brak jest wskazówką, że użytkownik może być botem.

[youtube https://www.youtube.com/watch?v=v4dyM_m0j6s&w=590&h=393]

CEO Luminati, Ofer Vilenski mówi, że firma nie oferuje jeszcze rozwiązań tych problemów, ta praktyka. Ale Shaul uważa, że ​​udane polowanie na boty to tylko kwestia czasu. Nadejdzie czas na kolejną rundę wydarzeń. Zacznie się prawdziwy wyścig zbrojeń

Dobre boty i złe roboty

Jednym z największych problemów dla Akamai i innych firm próbujących kontrolować ruch związany z działaniem botów jest konieczność umożliwienia niektórym z nich oczyszczenia witryn. Jeśli witryny blokują boty jako klasę, nie będą pojawiać się w wynikach wyszukiwania. Detaliści zazwyczaj chcą, aby ich ceny i przedmioty pojawiały się na porównywalnych witrynach, takich jak Google Shopping i Pricegrabber. "

" W rzeczywistości jest tak wiele różnych sytuacji, gdy złomowanie jest używane w Internecie na dobre, złe lub coś w środku , Mówi Shaul. "Mamy wielu klientów w Akamai, którzy przybyli do nas, aby pomóc rozwiązać problem napływu botów, a nie ludzi odwiedzających ich witrynę."

Niektóre firmy same uczestniczą w analizie treści (zbieranie informacji o liście słów kluczowych – "High Tech"). Andrew Fogg jest współzałożycielem firmy o nazwie Import.io, która oferuje internetowe narzędzia do czyszczenia danych. Fogg powiedział, że jeden z klientów Import.io jest dużym sprzedawcą z dwoma systemami inwentaryzacji: jeden dla ich operacji magazynowych i jeden dla ich witryny sprzedaży internetowej. Ale okresowo te systemy muszą być zsynchronizowane. Firma przegląda własną stronę internetową, aby znaleźć rozbieżności. Firma może ściślej zintegrować swoje bazy danych, ale czyszczenie jest bardziej ekonomiczne, przynajmniej w krótkim okresie.

Inne skrobaki żyją w szarej strefie. Na przykład Shaul przytacza przykład linii lotniczej. Strony internetowe porównujące ceny biletów lotniczych mogą wysłać zapytanie do firmy, a następnie chcą, aby ich loty były wyświetlane w wynikach wyszukiwania tych witryn. Jednak wiele linii lotniczych polega na zewnętrznych firmach, które zarządzają systemami rezerwacji – takimi jak Amadeus IT i Saber. Podczas przeglądania informacji o locie za pośrednictwem tych firm, linia lotnicza wpłaca prowizję do systemu rezerwacji. Opłaty te są sumowane, jeśli duża liczba botów stale sprawdza informacje o lokalizacji i cenach linii lotniczych.

[youtube https://www.youtube.com/watch?v=fjdsMuxMTkY&w=590&h=393]

Shaul zauważa, że ​​Akamai rozwiązuje ten problem w przypadku niektórych linii lotniczych, pokazując informacje na temat buforowania cen. Dlatego nie zwracają się do firm zewnętrznych za każdym razem, gdy bot sprawdza ich ceny i dostępność. Boty nie otrzymają najnowszych informacji, ale uzyskają wystarczającą ilość nowych danych, unikając opłat w linii lotniczej.

Jest jednak więcej problematycznych odwiedzin. Na przykład rozproszone ataki typu "odmowa usługi" lub ataki DDoS, których celem jest zawalenie witryny. Według analityków, Amazon nie blokuje botów, w tym skrobaczek do cen. Ale firma "daje pierwszeństwo ludziom, gdy konieczne jest zapewnienie im możliwości zakupów, których nasi klienci oczekują od Amazona."

[youtube https://www.youtube.com/watch?v=4BPibf6C35E&w=590&h=393]

Fogg jest przekonany, że Import.io również nie jest poważnie zablokowany. Firma stara się być "dobrym policjantem", nie pozwalając, aby jej oprogramowanie czyściło serwery lub w inny sposób używało dużej ilości zasobów.

Vilenski zauważa, że ​​klienci Luminati mają dobre powody, by udawać, że nie są botami. Niektórzy wydawcy chcą na przykład upewnić się, że reklamodawcy wyświetlają te same reklamy widzom witryny, gdy je wyświetlają.

Jednak wszyscy byli zaskoczeni w 2015 r., Kiedy podobna usługa od jej firmy zależnej Hola VPN została użyta do rozpoczęcia ataku DDoS na stronie 8chan. Wcześniej w tym samym miesiącu rozszerzenie Chrome z Hola VPN zostało oskarżone o kradzież haseł od użytkowników usługi kryptowalutowej MyEtherWallet. W komunikacie przedstawiciele Hola VPN stwierdzili, że konto aplikacji w Google Chrome Store zostało naruszone. Pozwoliło to napastnikom na dodanie złośliwego oprogramowania do swojego rozszerzenia. Vilenski mówi, że firma dokładnie sprawdza swoich klientów, w tym rozmowę wideo i inną weryfikację tożsamości potencjalnego klienta. Odmówił komentarza w sprawie rzekomych złośliwych działań Luminati. Tak czy nie, Vilenski zauważa, że ​​przychody firmy potroiły się w ubiegłym roku.

Powiązane wiadomości