-
Алексей Воропаев
-
Родился в Хабаровске, в 1986 г. В 2007 году окончил Тихоокеанский государственный университет. В 2009 году получил степень Master of computer science в университете земли Саар, Саарбрюкен, Германия. В процессе учебы занимался разработкой распределённой системы томографической реконструкции для Европейского центра синхротронных исследований (ESRF). В 2009 году переехал в Москву и занялся разработкой распределённого анализатора трафика уровня предприятия в компании Perimetrix. Осенью того же года перешел на работу в компанию Mail.Ru в отдел поиска. Занимался разработкой поискового сервера и индексатора. С осени 2010 года является руководителем группы ранжирования поисковой системы Поиск@Mail.Ru
Hadoop Streaming: простой путь к масштабированию приложений обработки данных
В наше время для решения многих задач требуется обработка больших массивов данных. Более того, многие приложения, которые еще вчера нельзя было отнести к разряду больших, сегодня, незаметно для своих разработчиков, переходят в эту весовую категорию. Еще вчера одного сервера хватало для обработки логов, но проект усложнился, количество метрик выросло в разы — и один сервер уже не справляется. В своем докладе я расскажу об одном из наиболее простых, но в тоже время очень гибком и мощном подходе к масштабированию приложений обработки данных. Мы поговорим:
- О парадигме MapReduce, которая может выступать алгоритмической основой широкого спектра приложений обработки данных.
- О платформе Apache Hadoop которая предоставляет возможности для распределённого хранения данных и их обработки.
- О расширение Streaming которое позволяет создавать широкий круг MapReduce приложений для Hadoop на любом языке программирования.



















































































