payback banner ua

Ян Лекун, Facebook: «Прогностичні моделі світу – вирішальне досягнення в ІІ»

Ян Лекун, Facebook: «Прогностичні моделі світу - вирішальне досягнення в ІІ»

Ян Лекун – французький вчений, професор, голова Лабораторії штучного інтелекту Facebook. Він застосовує нейромережі в розпізнаванні символів і комп'ютерному зорі. Вчений упевнений, що в майбутньому машини займуться самонавчанням за допомогою спостереження за світом, як це роблять діти. Ми записали виступ Яна Лекуна на саміті Machine Can See 2018 у Москві, – про те, як створити прогностичні моделі світу, і чому машини досі не навчилися міркувати.

сверточное мережі і репрезентація подій


Історія глибинного навчання – це історія навчання з учителем (supervised learning – «Хайтек»). Вона почалася з моделі порівняльного розпізнавання образів, яка з'явилася в 50-60-х рр. Її принцип роботи зводиться до пошуку асоціацій між вихідними даними і вхідними, завдяки навчанню машини на тисячах або мільйонах прикладів.

За допомогою глибокого навчання ми генеруємо зображення і переводимо мови. Ми асоціюємо слова з промовою, переводимо мова в слова, переводимо зображення в категорії, портрети – в імена, для розпізнавання осіб, ми створюємо підписи до фотографій.

img.bfmtv.com

Одне з основних обмежень навчання з учителем – це вимога великої кількості прикладів. Машинне навчання відрізняє від інших підходів то, що замість необхідності виділення ознак ви створюєте цілу систему – каскад або граф певних операторів. Потім ви навчаєте їх в процесі. Це не працювало, поки у нас не з'явилися потужні машини і відповідні набори даних для навчання.

Узагальнення згортальних мереж для вхідних даних – це уявлення у вигляді функції на графі. Насправді згорткові мережі (спеціальна архітектура штучних нейронних мереж, запропонована Яном Лекуном в 1988 році для розпізнавання зображень – «Хайтек») були натхненні біологією, так само як літаки – птахами.

cdn-images-1.medium.com [19659006] Основна ідея – використання сверточное мережі дозволяє системі досить ефективно навчитися репрезентації подій. Ми використовували згорткові мережі не тільки для розпізнавання окремого об'єкта, але і для складного об'єкта або їх сукупності. У нас є спосіб навчити мережу знаходити складний об'єкт на зображенні, розпізнати об'єкти і імпліцитно сегментувати їх. Система спонтанно відокремлює один від одного об'єкти або об'єкти на задньому плані.

Від іграшкових роботів до безпілотним автомобілям

Моїм першим проектом з нейронними мережами в 2002-03 рр. був іграшковий робот з самоврядуванням за допомогою невеликої доріжки відеоконтролю. Ідея дуже проста: ви берете сверточное мережу, подаєте на неї зображення від двох камер, спрямованих вперед. Спочатку роботом управляє людина, а потім мережа навчається. Вона передбачає поведінку водія на основі цієї пари зображень. Приблизно після 12 хвилин навчання система управляє собою. Цей невеликий проект фінансувався компанією DARPA.

В основі більшого проекту – LAGR – лежало використання сверточное мережі для семантичної сегментації. По суті, це маркування кожного пікселя на зображенні категорією об'єкта, до якого він належить. У разі LAGR є тільки три категорії: прохідна категорія (traversable category, що позначає місця на зображенні, де робот може пройти – «Хайтек»), червона категорія, що позначає перешкоди, і фіолетова категорія, яка призводить до перешкод. Ми сканували за допомогою сверточное мережі все зображення і відзначали кожен піксель як доступний або як перешкоду.

cs.nyu.edu

Автоматично збирати дані для навчання без необхідності ручного позначення можна завдяки системі стереобачення. У робота є кілька камер, тому ми можемо за допомогою тріангуляції і стереореконструкціі дізнатися, чи належить піксель об'єкту, який стирчить над землею або знаходиться на ній. Якщо взяти прохідність (traversability – «Хайтек»), отриману за допомогою семантичної сегментізаціі, і помістити її на карту з роботом в центрі, то робот спланує траєкторію для досягнення мети. Карта більш точна поблизу робота, ніж удалині від нього.

cdn-images-1.medium.com

Наша система зі сверточное мережею дала компаніям MobilEye і NVIDIA ідею використовувати технологію семантичної сегментізаціі для безпілотних автомобілів. Ми побудували нашу систему в 2009-10 рр. Вперше вона була опублікована на конференції ICML в 2011 році. Ми реалізували сверточное мережу на FPGA (field-programmable gate array, програмована користувачем вентильная матриця – «Хайтек»), яка є видом чіпа. Він допомагає з налаштуванням комп'ютера за допомогою ПО шляхом активації перемикачів. Ми запустили алгоритм на 20-ти кадрах в секунду, з рекордною на той час точністю.

Вже в 2015 році деякі моделі Tesla використовували систему MobilEye. Це система комп'ютерного зору, що використовує згорткові мережі, щоб уникати перешкод і тримати автомобіль на дорозі під час дощу.

Facebook пророкує хештеги по фотографіях

За останні 2 роки навчання дуже глибокої мережі, де кожен шар навчений в невеликому ступені і трохи змінює репрезентацію, стало можливим. Ми спостерігаємо збільшення кількості шарів, які використовуються системами. Зокрема, з появою архітектури в стилі ResNet, де використовуються сполуки, перестрибувати через періоди шарів (skipping connections – «Хайтек»). Вони дозволяють системі грамотно деградувати, якщо один з шарів вмирає.

В Facebook навчили сверточное мережу пророкувати не мітки, а хештеги. Дослідницька група ProVision на чолі з Манохар Палурі взяла 3,5 млрд зображень з Instagram, щоб навчити мережу. Хештеги дуже ненадійні фрагменти інформації, люди позначають ними всілякі речі. Вони взяли кілька тисяч найпоширеніших хештегов і навчили сверточное мережу передбачати хештег. Потім вони прибрали останній шар і перенавчитися класифікатор на топі репрезентацій, навчених за цим методом за допомогою ImageNet. Це дає найвищу точність – 84%, що є рекордом. Є величезна перевага у використанні великої кількості даних з дуже слабкими мітками для навчання хороших репрезентацій.

В Facebook Рос Гіршік і його колеги з Берклі навчили мережу не тільки визначати людей, а й індивідуально відзначати контур кожного предмета. Йдеться про Mask R-CNN (Mask Region Based Convolution Neural Network – «Хайтек»). Застосовуючи цю мережу до зображення, вони витягували щільні ознаки (dense features – «Хайтек»), а потім за допомогою декількох верхніх шарів, можна не тільки розпізнати об'єкти, але і намалювати обмежувальні прямокутники, контури для кожного об'єкта. Навіть предмети на задньому плані – все сегментований. Це «святий грааль» комп'ютерного зору, який тепер можна досягти.

Сьогодні сверточное мережу можна запустити на мобільних пристроях. В останні роки проведена велика робота над оптимізацією застосування сверточное мережі на менш потужних комп'ютерах. На них вона навчається за допомогою графічних процесорів. Наприклад, людська поза і об'єкти визначаються за допомогою Mask R-CNN в реальному часі на смартфоні. Мережа використовує фреймворк Caffe2Go, який є швидким і ефективним бекенд.

DensePose – концептуально проста і велика сверточное мережу, яка визначає в реальному часі позу безлічі людських тіл на зображенні. Робить це вона за допомогою єдиного графічного процесора. DensePose – розробка дослідницької групи з Парижа на чолі з Яссонасом Коккінос і Наталією Неверово.

«Краще навчити одну мережу для безлічі завдань, ніж багато мереж кожного завдання»

Різні гілки комп'ютерного зору об'єднуються навколо використання глибокого навчання. Зокрема, порівняльне розпізнавання образів, розпізнавання почерку, розпізнавання мови, переклад мов об'єднуються навколо використання згортальних мереж або інших видів мереж, на кшталт зворотних нейромереж, attention based networks, реляційних мереж і ін.

Facebook використовує для перекладу мов сверточное нейросеть, схожу по архітектурі на використовувану в комп'ютерному зорі. Це дуже цікавий феномен – ми бачимо конвергенцію всіх цих методів. Ми навчаємо мережі і одночасно виконуємо різні завдання. Перемикання між різними завданнями підвищить продуктивність для кожної з них, навчаючи мережу для чого-небудь ще. Це називається передачею навчання (transfer learning – «Хайтек»). Краще навчити одну мережу робити кілька речей, ніж багато спеціалізованих мереж для кожного завдання.

www.computerra.ru

Техніки, розроблені для комп'ютерного зору, можна адаптувати до таких областей як біологія, геноміка, хімія, соціальні мережі та ін . Зображення як функція дає значення пікселів на звичайному рівні пікселів. Але якщо отримати дані у вигляді графа, наприклад, 3d-сітка людського тіла або молекула, не можна просто застосувати згорткові мережі. Існують різні техніки для цього. Зокрема, про них говорять Алекс і Майкл Бронштейн. Вони розглядають різні техніки застосування нейронних мереж і згортальних мереж для нестандартних даних у вигляді графа.

«Ми не можемо навчати машини так само ефективно, як люди вчать самі себе»

Системи використовують навчання з підкріпленням, граючи проти самих себе, і показують дивовижні результати. Системи вже грають в DOOM, навчання грі в StarCraft поки знаходиться в процесі, ще недостатньо добре працює. Системи грають в го і шахи. Навіть перемагають людей з великою перевагою. Але це вимагає занадто багато випробувань.

Щоб машина навчилася грати в ігри Atari на рівні людини, буде потрібно близько 50 млн кадрів, приблизно 230 годин гри. Людина досягає такої продуктивності всього лише через кілька хвилин. Ми можемо навчати машини, але ми не можемо це робити так само ефективно як люди або тварини вчать себе самі. Якщо ви хочете навчити автомобілі самоврядуванню, системі доведеться зірватися зі скелі 50 тисяч разів, перш ніж вона зрозуміє, як цього не робити

«ПО 2.0 – багатообіцяюча концепція»

Якщо у нейронних мереж буде архітектура, подібна комп'ютерної, і вони зможуть виконувати прості маніпуляції. Глибоке навчання добре справляється зі сприйняттям, але не з логічним мисленням. Facebook і Deepmind кілька років тому проводили роботу над збільшенням нейромереж за рахунок пам'яті. За допомогою мереж пам'яті (memory networks – «Хайтек»), навчальних нейронних машин, що диференціюються нейронних комп'ютерів та ін. Програма, створена Facebook, відповідає на складні питання про об'єкти на зображенні. Наприклад, чи є на ньому матовий куб, того ж розміру, що і червоний металевий об'єкт.

дифференцируемого програмування – це, коли процес у фоновому режимі визначає, як диференціювати вихідні дані програми за допомогою спектра параметрів, що настроюються. Архітектура нейронної мережі не прописується. Питання пропускається через LSTM (Long short-term memory, різновид архітектури рекурентних нейронних мереж – «Хайтек»), рекуррентная мережа являє питання у вигляді вектора, який репрезентує зміст речення. Потім цей вектор проходить ще через одну LSTM, яка генерує опис обчислювального графа операторів, здатного відповісти на питання. Після створення графа, запускається кілька шарів сверточное мережі, пропускаються результати через цей граф, а потім за допомогою класифікатора виходить градієнт зворотного поширення для всієї системи.

ПО 2.0 – багатообіцяюча концепція, згідно з якою ідея дифференцируемого програмування призведе до нового способу написання програмного забезпечення . У ньому програма, яку ви пишете, що не визначена повністю. Вона являє собою послідовність операцій, які не детермінованих остаточно. Ви завершуєте програму, навчаючи її на кількох прикладах, для отримання правильної відповіді. Але це не дозволить отримати нам ІІ, поки ми не зрозуміємо, як досягти навчання без вчителя (unsupervised learning).

Здоровий глузд і машини

Ключове завдання навчити машини навчання на основі спостереження за світом. Емануель Дюпо з Парижа провів експеримент, щоб зрозуміти: на якому етапі діти навчаються певним концепціям. Наприклад, відділення анімованих об'єктів від неанімірованние, розуміння того, що об'єкти можуть бути стабільними, а можуть падати, що є гравітація, інерція і ін. Так і машинам потрібна можливість накопичувати фонові знання про світ, щоб у них з'явився «здоровий глузд». [19659004] Здоровий глузд – це здатність заповнювати прогалини. І самоконтрольованого навчання дасть це машинам. У самоконтрольованого навчанні машину просять передбачити все на підставі всього іншого. Передбачити майбутнє виходячи з минулого, передбачити минуле виходячи з цього, передбачити ліву сторону обличчя виходячи з правої. І оскільки ви просите машину передбачати більшу кількість речей, вона буде вчити більше речей і дізнаватися більше закономірностей.

Ми хочемо побудувати автономні системи ШІ, що прогнозують, що станеться в світі. Дуже корисно мати можливість заздалегідь передбачати наслідки своїх дій. Це дозволяє нам навчатися без небезпеки. Наприклад, при навчанні безпілотного автомобіля самоврядуванню. Він прогнозує, що буде, якщо зірватися зі скелі. Відбудеться щось погане. Для цього йому необхідні прогностичні моделі світу, що фіксують світові закономірності – це вирішальне досягнення в ІІ.

www.deeplearningitalia.com

Адам Лерер, Сем Гросс і Роб Фергус з Facebook 3 роки тому провели експеримент з прогнозування простий інтуїтивної фізики. Проблема з використанням стандартного навчання з учителем для навчання такої системи полягає в тому, що вона дає розпливчасті прогнози. Нам необхідний предиктор (прогностична функція з прихованою змінної – «Хайтек»). На підставі глибокого навчання значення цієї прихованої змінної предиктор пророкує різні прогнози, які відносяться до певного набору, позначеному червоною стрічкою. Cost функція (функція витрат – «Хайтек») говорить ПРЕДИКТОРИ, чи знаходиться прогноз на червоній стрічці або поза нею. Друга нейросеть говорить нам: чи перебуваємо ми на цій червоній стрічці чи ні, і як модифікувати прогноз, щоб він наблизився до червоній стрічці. У цьому полягає ідея змагального навчання (adversarial training – «Хайтек»).

Nvidia навчили одну з змагальних мереж генерувати зображення підроблених знаменитостей з високою роздільною здатністю. Зображення 1000 × 1000 пікселів, дуже реалістичні і хороші, з усіма деталями. І це штучно створені особи неіснуючих людей, неіснуючих знаменитостей. Дуже вражаюче.

Прогностичні моделі навчають відеопрогнозам – сверточное мережу визначає, що саме станеться на відео, подивившись кілька кадрів. Якщо використовувати змагальне навчання, виходять дуже хороші прогнози. Це важливо, наприклад, при водінні автомобіля. Ви хотіли б знати, чи буде автомобіль спереду продовжувати поворот наліво, або чи буде пішохід йти далі. Прогноз в такому питанні має вирішальне значення.

Редакція «Хайтек» дякує саміт Machine Can See, організований VisionLabs за підтримки «Сбербанк» і Sistema_VC, за допомогу в підготовці матеріалу.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту і натисніть Ctrl + Enter .

Новина представлена новинним порталом npvua.com

Схожі новини

Будьте в курсі останніх новин.

Підписуйтесь на наші сторінки в соц. мережах і на канал в Telegram.

Дякуємо!

Тепер редактори знають.