Андрей Гаврилов: От Pandas к Spark. Адаптация моделей машинного обучения к работе в распределенной среде.
От Pandas к Spark. Адаптация моделей машинного обучения к работе в распределенной среде.
В настоящее время в области работы с данными преобладают два направления: Data Science и Big Data, где первое по большей части посвящено анализу информации, содержащейся в данных, а второе - проблемам обработки больших объемов этих данных. Общая область применения решений делает закономерным рост объёма задач, находящихся на пересечении двух указанных направлений. Другими словами, всё чаще перед инженерами стоит задача операционализации ML моделей, что зачастую заключается в адаптации их к работе в распределённой среде.
В докладе представлены подходы к решению задачи замены реализаций алгоритмов машинного обучения на распределённые аналоги, в частности, модели для анализа семантики естественных языков Word2vec (Gensim) на аналог из библиотеки распределённого машинного обучения MLlib (PySpark). Проводится сравнительный анализ результатов процедуры сингулярного разложения для реализаций из PySpark MLlib и Scikit-learn (TruncatedSVD). Рассматриваются вопросы распределённого (в HDInsight cluster) обучения нейронных сетей, реализованных с использованием библиотеки Keras (TensorFlow).
Андрей Гаврилов
Санкт-Петербург, Россия
Big Data Software Engineer
EPAM
Работаю в EPAM в области Big Data и Data Science. Изучал Data Science в Санкт-Петербургском политехническом университете в рамках направления “Прикладная математика”. Увлекаюсь разработкой игр на python и информационной безопасностью.