Większość naukowców ukrywa początkowe dane swoich badań nad sztuczną inteligencją

Większość naukowców ukrywa początkowe dane swoich badań nad sztuczną inteligencją

Badania związane z sztuczną inteligencją to nieprzejrzysta i złożona historia napisana przez czasopismo Science. Głównym problemem jest to, że większość badaczy nie publikuje kodu źródłowego swojej pracy i algorytmu szkolenia dla próbki. Prowadzi to do tego, że odtworzenie rezultatów pracy jest prawie niemożliwe, co oznacza, że ​​niemożliwe jest zorganizowanie pełnego porównania lub zorganizowanie pracy w celu poprawy wyników.

Publikacja odnosi się do badań Oddy Erik Gundersen, profesora Norweskiego Uniwersytetu Nauk Przyrodniczych i Technicznych. Studiował 400 prac z zakresu sztucznej inteligencji, prezentowanych na konferencjach w ciągu ostatnich kilku lat. Okazało się, że tylko 6% z nich reprezentowało kod źródłowy. Połowa pracy pochodzi z ograniczonym opisem algorytmu przedstawionego w formacie pseudokodowym. A tylko jedna trzecia naukowców podzieliła się danymi, na temat których przeprowadzono badania.

Gundersen uważa, że ​​jest to duży problem, bliski kryzysowi. Brak możliwości reprodukcji eksperymentów z sztuczną inteligencją innych naukowców stawia pod znakiem zapytania ich wyniki. Oprócz kryzysu zaufania, praktyka ta ogólnie przeszkadza całej dziedzinie nauki maszynowej. Nawiasem mówiąc, wcześniej z kryzysem odtwarzalności, psychologii, medycyny i innych dziedzin nauki wpadł w kolizję. Uważano jednak, że obszar związany z sztuczną inteligencją jest chroniony przed tym, ponieważ zawsze jest kod źródłowy, są dane – wszystko to pozwala odtworzyć eksperymenty w najdrobniejszych szczegółach. Ale w praktyce wszystko jest inne.

Badacze znajdują tysiące powodów, aby nie publikować próbki szkoleniowej i kodu źródłowego, pisze publikacja. Zaczynają od obiektywnego – porozumienia w sprawie nieujawniania lub chęci wyprzedzenia konkurentów – i kończą na "dziecinnych" wymówkach, takich jak "mieliśmy twardy dysk z danymi". A Gundersen i Science rozumieją powody, które uniemożliwiają publikację oryginalnych danych, ale protestują przeciwko temu, co utrudniło rozwój sztucznej inteligencji.

Inni naukowcy, na przykład Peter Henderson z McGill University w Montrealu, zauważają, że w dziedzinie uczenia maszynowego i sztucznej inteligencji dokładne dane początkowe są szczególnie ważne. Mówiąc "dokładny, oznacza dopasowanie do ostatniej postaci w kodzie, zakłada również, że dane do szkolenia algorytmu powinny być prezentowane." Potwierdza swoją opinię na podstawie przykładów, uruchamiając ten sam algorytm z najmniejszymi zmianami w próbce treningowej lub kod, to wciąż ten sam program, ale wyniki są całkowicie przeciwne. Dlatego, Science, Gundersen i jego współpracownicy dochodzą do wniosku, że bez kodu źródłowego pełne porównanie i reakcja na pracę w dziedzinie sztucznej inteligencji innych osób naukowcy są niemożliwi.

Powiązane wiadomości