|
Отправлено: 17.05.17 09:11. Заголовок: Intel Nervana-2017 (16 мая КРАСНЫЙ ОКТЯБРЬ DIGITAL OCTOBER)
Вчера, благодаря любезности моего младшего коллеги из РН Exploration попал на означенное мероприятие Оказалось довольно любопытно и в некоторых моментах полезно Исписал полблокнота и теперь жаль писать о меньшем, хотя что-то мог и недопонять и ненароком переврать и не всё смотрится интересным. Итак, впечатления с самого начала ОРГАНИЗАЦИЯ МЕРОПРИЯТИЯ Происходило всё на территории бывшей фабрики КРАСНЫЙ ОКТЯБРЬ (возле моcта, близ известного всем храма-новодела) и "Дома на Набеережной" По адресу Берсеньевская 6-3 существует офис называемый October-Digital Зайдя внутрь пристроился к сгрудившемся у двери людям После звонка нас впустили в полуподвальное помещение с лифтом Дождались лифта, его перегрузили и он окончательно перестал работать Никакой разметки на стенах не было, но пошел дружно за всеми на 4-й этаж Конечно, моя запись о регистрации в 19-20 никуда не попала, но мне руками выписали пропуск для беджа (хоть тут соломку подстелили) Зал примерно на 300 мест с тремя экранами (крайние повторяют изображение с основного) Перед входом в зал две стойки для кофе-брейк и ленча Кофе в баке и наверное бывает и хуже но смахивало на эрзац Да и горячо – пришлось прямо в стаканчике нести в зал, где и потягивать потихоньку Примерно к 300 м людям все и подтянулось (из-за плотной рассадки) несколько человек даже стояло После пятнадцати минут ожидания с момента обещанного официального открытия объявили о задержке ещё на пять минут якобы для оформления задержавшихся пяти человек Прождали еще пятнадцать минут, озираясь и ища знакомых УЧАСТНИКИ Было время оценить аудиторию Любопытен состав Я наверное впервые нашел то место, в котором собирается выпавшая почти отовсюду часть тусовки Основной контингент – 23-45, хотя примерно по 5-7% и за этим диапазоном Примерно по 10 человек седых и лысых (примерно пять сочетают оба маркера, а вот с волосатой и без седины головой явно не по возрасту не наблюдал) Был, правда, парень с радужным оттенком обеленных волос но всего один) Женщин примерно человек 15 Внешне явных хипстеров-ботаников также человек 10 А вот с бородой обнаружил всего 5-рых В принципе ощущалось деление аудитории на уже встроенных в чем-то типа госструктур и кустарей одиночек (с познаниями в практике работы с нейронными сетями) ДОКЛАДЫ После открытия объявили программу (один доклад – Усковой из Когнитивных технологий – наследники разработки CuneiForm от Арлазарова сняли). Директор подразделения программных продуктов Intel Ральф де Вигни сказал пару слов Представленный им аудитории некто Амир (Ральф объявил, что он не откажется от шоколада, поскольку очень его любит) выступил с докладом Впечатление, что мужчина из Ирана (а там наверное почти каждый пятый балуется с нейронными сетями), защитил диссертацию по самообучению в NN – надо поискать в сети) и сейчас руководит отделом разработки AI (под чем он ровно NN в первую очередь и понимает). По его словам еженедельно встречается с разработчиками из Google и Facebook. В принципе этот Амир Хосровшахи совершает турне от Интел по их центрам в странах Европы (в частности прилетел из Франции) В зале был переводчик (который коротко суммировал сказанное) Основной вброшенный в массы лозунг приятно пощекотывал промежуточную между сознанием и подсознанием область и звучал почти убедительно: “ПОВЫШЕНИЕ ТОЧНОСТИ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ МОЖЕТ ПРИНЕСТИ ЗНАЧИТЕЛЬНЫЕ ДОХОДЫ!” Было вычленено несколько областей, в которых это перспективно =БЕЗОПАСНОСТЬ =АВТОНОМНОЕ ОТ ЧЕЛОВЕКА ВОЖДЕНИЕ (люди в проекте автомобиля сидят в креслах друг против друга, cпиной к направлению движения) Отмечалось, что к 2020 году такой автомобиль будет создавать примерно по 5террабайт информации в день и потребует несколько эксофлопс ----------- В конце 2017-го года инженеры и ученые Китайской Народной Республики представят прототип нового самого мощного в мире суперкомпьютера. Предполагается, что производительность вычислительного комплекса составит один эксафлопс. Соответствующую новость распространило информационное агентство Синьхуа, ссылающееся на заявление Чжана Тина — главного инженера Национального исследовательского департамента параллельной вычислительной техники и технологий Китая. Заявленная мощность будущего китайского рекордсмена среди суперкомпьютеров — один эксафлопс — это тысяча петафлопс, то есть, миллиард миллиардов операций с плавающей точкой, осуществляемых каждую секунду. ----------- =МЕДИЦИНА (раннее обнаружение онкологии) =БИРЖИ (тут выяснялось, что Амир в 90-е работал на российских биржах и вряд-ли с особым успехом) Видимо речь шла о высокочастотной торговле роботами =СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ =ЕСТЕСТВЕННЫЙ ЯЗЫК =РАСПОЗНАВАНИЕ РЕЧИ =АВТОМАТИЗИРОВАННЫЕ КОМБАЙНЫ (когда и как локально поливать, удобрять и собирать) =НЕФТЬ и ГАЗ (тут нечленораздельно несколько слов про выделение трещин по сейсмик -разломов для проектирования бурения?) В силу всего вышесказанного Амир предсказывает будущее в клотором необходимо =большие объемы материалов обучения (пентабайты и выше) =высокая производительность (порядка 5 эксофлопов) =методы машинного обучения =облачные вычисления для хранения данных Амир считает, что сейчас будущее за DeepLearning (они дают скачок от 80-90% распознавания к 97%) , но они переносят проблему в область формирования больших объёмов обучения (миллионы размеченных образов) Перспективная задача – частичная алгоритмизация этой деятельности И тут видны возможности разного рода В том числе обычное ускорение вычислений Проблемы в препроцессинге Преобразованиях Совершенствование тренинга (когда он идет на суперкомпьютере не сутками, а месяцами – это чересчур) Гиперпараметрическом поиске Далее шли разговоры о железе и платформах в котором я даже не пытался разбираться Мораль в том, что XEON и его версии обеспечивают серьезное распараллеливание Следующий докладчик был Алексей Мягков (он замещал объявленного Ивана Кузьмина) Докладчик представлял фирму разработчика среды OpenCV (на слух) Сейчас они снова вошли в Intel Любопытный доклад включал описание пакета для разработчиков и опыта работы с ним для задач безопасности (отслеживание с камер) Отмечалось, что хорошо работает гибридная схема (сочетание глубоких NN для сегментации изображений и классических NN), Глубокая сеть может ловить даже частично перекрываемые изображения, а обычная – распознавать номера на автомобилях Приводился игрушечный пример (разработка другой фирмы) – игра компьютера в DOOM При ‘том рассматривалась задача обучения на одних эпизодах и игры в других Отмечались большие трудности в разработке материала обучения (глубокие сети требуют уже порядка 10^5 и выше образов и в подборе топологии сети) Докладчик отметил несколько иногда существенных элементов - квантификация (иногда помогает) -учет или игнорирование теней -задание весов -прунинг (устранение незначимых элементов с переобучением) Доклад был блестящий по содержанию и форме и выглядел честным Интересный момент был в общих вкусовых замечаниях 1) Чем принципиально отличается DeepLearning от классических NN – ничем кроме более хитрой топологии и большего объёма и сети и материала обучения! 2) Не стоит применять DeepLearning там где без него проще обойтись 3) Интел готов предоставить размеченные тесты, но доводить их под Ваши задачи не будет, Бесплатный ланч невозможен. Стоимость размеченных для обучения данных (одного теста) порядка миллиона долларов 4) Тем не менее, допуск в зоопарк публичных тестов вполне демократичен, Но в передней волне (порядка 10^3 публикаций в месяц конкуренция огромна и секретность естественна) 5) По мере работы с сетями люди тренируются угадывать топологию сети Примерно 3-х лет уже хватает, чтобы примерно угадывать 6) Переход от модели к зашумленной реальности может быть критичен Человек распознает многие вещи и при шуме Сеть в этом случае часто менее устойчива, Так если добавить немного шума человек по прежнему узнает на фото попугая, а DeepLearning может увидеть чемодан По окончанию Был задан любопытный вопрос (с его автором, человеком примерно моего возраста или немного старше я потом поговорил) о роли математики в конструировании NN. Докладчик признал её нулевой Следующий доклад (снова про машинное зрение и безопасность был от Игоря Фаломкина) – AxxonSoft Фирма основана в 2003 году (20 сотрудников) В 2016 году (300 сотрудников) и 40 офисов по миру и 1500 партнеров только в России Обслуживают 2.5 миллиона видеоканалов по всему миру. Вся разработка идет в России Доклад был любопытным, поскольку связывал в голове увиденное в сериале Homeland про ЦРУ и отечественные технологии работы с лицами и автомобилями по обзорам с телекамер Как выяснялось сейчас в одной только Москве 130 000 телекамер и выдают они кучу информации (которую накладно долго держать даже после сжатия и громоздко интерпретировать) Средний торговый центр это примерно 500 телекамер Получив данные разработчики попытались из них что-то выискивать Один из примеров – беглый просмотр данных по нескольким ключам (место, участник или предмет, диапазон времени) Делалась несертифицированная пожарными попытка отслеживания дыма и возгорания =Важное IMHO замечание докладчика из тусовочного фольклора (в России врать любят не все) В Израиле военные потребовали узнавать танк От них потребовали миллион фото Обучили сеть В реальных условиях она не работает Оказывается, все снимки танка делали в одном мете (чуть ли не на постаменте) В реальности фон начал мешать Доклад Елены Федотовой про Women BigData Крупные западные корпорации на основе идей толерантности и разнообразия решили проследить роль женщин в программировании и анализе данных Выяснили следующее В России 72 млн работающих Среди них 1% программистов Среди них 15% женщин Почему так мало 1) До 4-го класса девочки знают математику лучше мальчиков Потом процент падаеьт Следующее резкое падение при выборе института Следующее резкое падение после беременности Важную роль играет эффект самозванства Мужчины претендуют на знание, если они в теме 3-х вопросов из 10 Женщины только в случае если знают 10 из 10 Любопытно, но дальше дослушивать не стал В перерыве (45 минут) успел поговорить с задававшим вопрос про роль математики Обменялись визитками По мнению этого математика (подозреваю, что его книгу про комитеты в задачах распознавания я читал) в зале собрались люди пытающиеся легко срубить деньги на новой возможности, Проблемы и суть их не волнуют Собрать пенки и пойти дальше Обсудили и тему непрозрачности результатов получаемых при прогнозе по нейронным сетям Я вспомнило свою карточку, на которой ноль денег и отчет по которой регулярно идет мне на почту История напоминает известный фантастический расcказ о казни не заплатившего 0 . 00 Якобы в Европе пытаются запретить автоматическое вождение без шофера и использование систем без объяснений. Если основной мотив это борьба с безработицей – понять можно После перерыва был еще один доклад Амира, в основном с повтором ранее сказанного и связью этого с разработками Intel на разных уровнях Но несколько моментов показались интересными Автор вспомнил GoogleAlphaGo и Siri Упомянул, что тренировка сети глубокого обучения для лиц требует примерно 60 миллионов параметров Привел пример того как реккурентные сверточные сети обучились играть в Arkanoid Сказал что обучение 10-ти слойной сети занимает 6 суток и требует примерно 15 экзафлопс Обучение системы распознавания речи для Baidu DS2 заняло 12 000 часов И вообще, заметил, что тренировка DeepLearning это Dark Art Отдельно отмечалась важность прозрачности прогнозов (в первую очередь для финансовых систем) Не менее важна задача разметки Так в Google, чтобы выделять собаку понадобилось разметить миллион изображений собак и сейчас сотни специалистов Google заняты только разметкой... Надо сказать, что тут живо вспомнился ЧЕЛОВЕК ПО ПЛАТОНУ (кажется Азимова из его робототехнической серии) Тем не менее, Амир считает, что в будущем ГРУБАЯ СИЛА сменится более интеллектуальными разработками Уж не к изыскам ли в духе Ивахненко они двинутся? Почти все дальнейшие доклады были о инструментарии INTEL и его возможностях и средах Отдельный интерес представлял сопроцессор для параллельных вычислений (я живо вспомнил ПС-3000 или как он там?) Но тут стоимость удовольствия порядка $200 Библиотеки Intel видят имеющееся железо Intel и настраиваются на его наиболее полноценное использование при решении параллельных задач Отдельная тема – доклад проректора Казанского Университета Нургалиева Невольно вспоминалось: "Остапа с утра ничего не ел и его понесло” Докладчик предлагал использовать все спутниковые данные, упоминал, что нефть у всех под ногами, что сейсмика не нужна, поскольку все можно отловить по магнитке и сопротивлению и линеаментам, которые дышат вместе с Луной и кучу прочего вздора говорил Но окончательно меня взбесило огульное заявление, что большая часть каротажек ‘то подделка и по ним ничего не скажешь, а надо просто регистрировать оклик на его шаги проезд произвольных грузовиков по улицам (“нужно просто оптоволоконный кабель протянуть и слушать всё что происходит”) На вопрос какой-то дамы об оцифровке Нургалиев спокойно заявил, что цифровая запиcь идет с 1985 года, а других данных просто нет Ложь громоздилась на ложь и с устрашающей скоростью Пришлось напомнить и про цифровую запись (включая F001-F007)и про то когда начали делать оцифровку и спросить: “ как отражаются звуки его шагов на глубине в 3000 метров?" А заодно поинтересоваться стилем его призывов, к шалеющей от идей Нью Васюков аудитории. Но докладчика и это не смутило Сменил тему и сказал как они тремя разными способами (а знаит – правльно!) обнаружили где надо ставить скважину. Упомянул, что они работают с ГазпромНефтью и с Колумбией На вопрос ПС Куляпина о проверке предсказаний докладчик заявил о 100 точности На вопрос о том, что анонсированная доклачиком связь данных магнитометрии с месторождениями известна и обычно объясняется связью с выступами фундамента Нургалиев начал говорить про тему геохимических барьеров и восстановительной среды “ Легкость необыкновенная в мыслях” (с) Гоголь Пришлось еще раз напомнить о том, что пирит и железо в гидротермах и на геохимических барьерах имеют разную природу В ответ на это получил: “ Нечего тут мешать! Я - специалист” Пришлось ответить, что я профессионал “Откуда?” -"Из ПАНГЕИ" "А! Из ПАГЕИ! Ваш директор с интересом слушал мой доклад в Анапе” -"Ну да! Про нефть в геосинклиналях. Он мне рассказал" На этом тема закрылась Но у меня создалось впечатление, что послушав такие выступления неискушенному человеку легко решить, что все геофизики жулики и идиоты В заключение были ОТВЕТЫ НА ВОПРОСЫ и общение Любопытный вопрос был про размытые множества Амир заявил, что в двух университетах США занимаются вероятностной логикой, но это далеко от практики Тема размытых множеств по его оценке закрыта Мне удалось спросить про переобучение, состоятельность оценок и почему про это не было ни полслова Из ответов понял, что попал в больное место Ничего большего, что есть тема валидации и проблема OverFitting известна я не услышал Дальше пошли вопросы про ядра и стоимости, а поскольку общаться мне не с кем и я отправился домой
|