8 декабря в 13:00 по московскому времени в Новосибирском государственном университете состоится лекция профессора Джошуа Хуанга «Approximate Computing for Big Data Analysis»
8 декабря в 13:00 по московскому времени состоится лекция профессора Джошуа Хуанга, директора Института больших данных Шеньженьского университета (КНР, г. Шеньжень) на тему «Approximate Computing for Big Data Analysis».
В эпоху больших данных наборы, состоящие из миллионов объектов и тысяч функций, стали распространенным корпоративным явлением. Такие наборы, часто размером в сотни гигабайт или даже терабайт, могут легко превысить размер памяти кластерных систем, создавая вычислительные проблемы при анализе больших данных. Таким образом, эффективная обработка и анализ больших данных с ограниченными ресурсами — это как теоретическая, так и техническая проблема в современных исследованиях больших данных.
В лекции будут обсуждаться вопросы распределенных вычислений данных с особым акцентом на приближенные вычисления. Будет дано общее введение в большие данные и обозначены проблемы их анализа. Затем продолжится обсуждение текущих технологий, используемых при анализе больших данных, и их недостатков. После этого будут представлены приближенные вычисления для больших данных, а также новые методы, которые используют несколько случайных выборок для вычисления приближенных результатов для больших данных. Наконец, будут представлены новые технологии и алгоритмы для обеспечения приближенных вычислений, включая модель данных с разбиением на случайную выборку (RSP), вычислительную структуру LMGI и алгоритм для создания моделей данных RSP из файлов больших данных HDFS. LMGI — это среда, отличная от MapReduce, которая позволяет выполнять последовательные алгоритмы независимо на локальных узлах или виртуальных машинах без обмена данными между узлами. Новые технологии являются прорывными в вычислениях с большими данными, анализе больших данных без ограничения памяти, выполнении последовательных алгоритмов непосредственно в распределенных вычислениях и расширении масштабируемости анализа данных до масштаба терабайт на небольших кластерах.