Как big data работает на предприятиях: шесть успешных примеров

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

Адамзат өз құқығын даулауды білмейді

Интернетте қиындықтар бар. Ол болуы тиіс. Өйткені, біздің сұранысымыз күн сайын артып барады, тиісінше технология да бізді қуып жетсе екен дейміз. Қиындық қанағаттың бізге қаншалықты қажет екенін білмеуімізде. Соның салдарынан интернет арқылы қызмет көрсететін корпорацияларға тәуелділігіміз артып барады. Бәріміз Facebook, Google компанияларына жұмыс істейміз. Ең бергісі Ресейдің Mail.ru компаниясына жұмыс істейміз. Мысалы Apple компаниясының телефонын, құлаққабын аламыз. Одан кейін бүкіл деректеріңізді Apple серверінде сақтаймыз. Сонда түптеп келгенде белгілі бір корпорациялар сізге иелік етеді. Бұл қателікті түзету үшін адамзат не істемей жатыр? Жауап: адамзат өзінің құқығын дауламай жатыр.

Біз өз құқығымызды талап етуде әлсізбіз. Конституцияны білуіміз мүмкін, бірақ, адам ретінде жүрген, тұрған жерде өз құқығымызды бірінші орынға қоймаймыз. Ал интернетке, виртуалды дүниеге көшкенде біздің цифрлық құқығымызды талап ету мүлде кенжелеп қалды. Бұл өте үлкен қауіп.

Оның зардабын біздің немере, шөберелеріміз көруі мүмкін. Өйткені, қазір біз өз деректерімізге ие бола алмай отырмыз, ал олардың заманы туғанда олар аталарының қандай сайтқа кіріп, қандай фотоға лайк басқанына дейін көретін болады. Олардың алдында біз үшін ақталу өте қиынға соғады. Оның алдын алу үшін цифрлық заң мен сауаттылық керек. Мысалы, президент болған кезінде Барак Обаманың алдынан осы мәселелер шыға берген. Оның кішкентай кездегі фотолары жарияланды. Технологияның дамуы ашқарақтығымыздың салдарынан бізге үлкен проблемалар әкеле бастады.

Оқи отырыңыз: Кибербуллинг: балалардың әлеуметтік желідегі қауіпсіздігін қалай қамтамасыз етеміз?

Big data в бизнесе

Для оптимизации расходов внедрил Big data и «Магнитогорский металлургический комбинат», который является крупным мировым производителем стали. В конце прошлого года они внедрили сервис под названием «Снайпер», который оптимизирует расход ферросплавов и других материалов при производстве. Сервис обрабатывает данные и выдаёт рекомендации для того, чтобы сэкономить деньги на производстве стали. 

Большие данные и будущее — одна из самых острых тем для обсуждения, ведь в основе коммерческой деятельности лежит информация. Идея заключается в том, чтобы «скормить» компьютеру большой объем данных и заставить его отыскивать типовые алгоритмы, которые не способен увидеть человек, или принимать решения на основе процента вероятности в том масштабе, с которым прекрасно справляется человек, но который до сих пор не был доступен для машин, или, возможно, однажды — в таком масштабе, с которым человек не справится никогда.

История возникновения

Название Big Data появилось в 2000-х, но концепция обработки большого количества данных возникла гораздо раньше. Менялся только объем и масштаб. В 1960-х годах начали создаваться первые хранилища больших данных, а сорок лет спустя компании увидели, сколько наборов данных можно собрать с помощью онлайн-сервисов, сайтов, приложений и любых продуктов, с которыми взаимодействуют клиенты. Именно тогда начали набирать популярность первые сервисы Big Data (Hadoop, NoSQL и т.д.). Наличие таких инструментов стало необходимо, поскольку они упрощают и удешевляют хранение и анализ.

Большие данные часто характеризуются тремя факторами: большим объемом, большим разнообразием типов данных, хранящихся в системах, и скоростью, с которой данные генерируются, собираются и обрабатываются. Эти характеристики были впервые выявлены Дугом Лэйни, аналитиком в Meta Group Inc., в 2001 году. Компания Gartner популяризировала их после того, как в 2005 году приобрела Meta Group. Постепенно к этим описаниям больших данных стали добавляться и другие критерии (достоверность, ценность и так далее).

В 2008 году с Клиффорд Лина в спецвыпуске журнала Nature эксперт назвал взрывной рост потоков информации big data. В него он отнес любые массивы неоднородных данных свыше 150 Гб в сутки. С тех пор термин «большие данные» прочно укрепился.

Big Data в персональной рекламе и ретаргетинге

Практически каждый пользователь сети Интернет сталкивался с тем, что реклама определенного товара, которым он недавно интересовался, путешествует за ним по различным веб-сайтам. Такой маркетинговый прием возврата покупателя на сайт называется ретаргетинг и реализуется с помощью технологий потоковой и пакетной аналитики больших данных. Как это работает, мы недавно рассматривали здесь. Такая рекламная стратегия подходит каждому бизнесу и очень просто воплощается в жизнь с помощью cookies-файлов пользовательского браузера и готовых облачных сервисов поисковых площадок, аналогично контекстной рекламе, например, Google AdWords, Яндекс Директ, ВК и пр. .

«Вычисление» пользователей телеком-услуг

Богданов Александр, архитектор Big Data компании AT Consulting:

«Допустим, вы телеком-оператор, у вас на рынке существует такое понятие, как „внутренний отток“. Абонент покупает новую SIM-карту и вставляет ее в свой новый телефон (старая карта при этом продолжает работать в старом) или регистрирует SIM-карту на документ другого человека. Перед вами встает задача определить, что это один и тот же абонент.

В этом случае вы начинаете изучать поведение человека в сети при помощи big data: анализируете, на какие номера он звонит, в какое время и т.д. Полученная матрица с данными сохраняется и постоянно актуализируется. И каждая новая SIM-карта изучается по тем же алгоритмам и накладывается на эту матрицу. В течение месяца с высочайшей точностью (до 99,99%) система определяет внутренний отток.

Для наглядности немного цифр, затрагиваемых в этой задаче: big data ежедневно обрабатывает данные почти 50 млн абонентов, а объем трафика звонков составляет около 3 Тб информации».

Краткое описание

Big Data Analyst работает с большими данными, его клиенты в основном представители бизнеса, но не только – технологии «биг дата» во многих странах на государственном уровне используются в здравоохранении, медицине, фармации. Обработка, анализ и интерпретация данных позволяют взглянуть на привычные вещи по-другому, выявить новые процессы, феномены и т. д. В идеале аналитики больших данных должны разбираться в той сфере, в которой ведут деятельность, но на практике это далеко не всегда так.

Однозначного определения больших данных пока еще нет, но чаще всего под Big Data подразумевают наборы неструктурированных и разнородных данных, существенно превосходящие традиционные реляционные (структурированные) базы данных по объему. Сведения совершенно разного формата в общий массив поступают из разнообразных источников (датчики, приложения, камеры видеонаблюдения, социальные сети и т. д.) и постоянно пополняются в режиме реального времени. Сбором и обработкой нужной для определенных целей информации занимается аналитик больший данных.  

Будущее ЦОД — за модульными решениями

Компаниям, которые работают с большими данными, необходимы производительные и гибкие ЦОД. Главные требования, предъявляемые к ним, — быстрое развертывание приложений, простое масштабирование без перерывов в работе, высокая энергоэффективность и рентабельность.

Поставленным задачам отвечают модульные ЦОД. В них основные узлы (система питания, охлаждения и управления энергопотреблением) разбиты на отдельные компоненты. Каждый участок проектируется в соответствии с единым стандартом, что позволяет обеспечить безотказную, независимую работу дата-центра.

Преимущества модульных ЦОД неоспоримы:

  • Высокий уровень стандартизации делает возможным серийное производство, а это означает сокращение затрат и сроков изготовления, повышение качества и упрощение ремонта.
  • Быстрый монтаж — в отличие от традиционного ЦОД, который строится от полугода до года, для развертывания модульного центра требуется от нескольких недель до нескольких месяцев.
  • Масштабируемость и минимальные затраты на старте: интеграция дополнительных узлов производится по необходимости (с ростом объема данных).
  • Сокращение среднего времени восстановления после отказа — за счет модульности и разъемных соединений любые ремонтные работы выполняются быстро.

Кроме того, модульные ЦОД отличаются высокой стабильностью — стандартизованные компоненты идеально взаимодействуют друг с другом.

Модульный ЦОД — это система, позволяющая быстро наращивать мощности по мере расширения бизнеса

В связи с распространением периферийных вычислений не менее востребованными стали контейнерные ЦОД «все в одном» с гибкими системами питания и охлаждения. Они являются буфером для кэширования и накопления данных между пользователями и крупным ЦОД. Их главное преимущество — быстрое построение, мобильность и масштабирование для любых сфер применения и решаемых задач.

Сегодня технология контейнерных центров обработки данных стала доступна бизнесу. Теперь ЦОД можно легко перевозить автомобильным или железнодорожным транспортом и размещать рядом с уже существующими мощностями, используя общий резервный генератор.

ЦОД больше не здание, у него появились колеса

Что такое big data простыми словами

Большие данные — это огромные массивы структурированной и неструктурированной информации, собранной из разных источников. Термин был введен в обиход в 2008 году Клиффордом Линчем, редактором журнала Nature.

Как понять, что мы имеем дело именно с большими данными? Главные характеристики, которые отличают big data от других данных — это так называемые «три V»:

  • Volume — большой объем информации (потоки данных свыше 100 Гб в день);
  • Velocity — большая скорость накопления и необходимость в быстрой обработке;
  • Variety — большое разнообразие данных.

В ритейле big data состоят из различных сведений о покупателях: персональных данных, частоты посещения магазина, истории покупок, заинтересовавших скидках, данных из чеков. Их анализ позволяет создать детальный портрет покупателя, выявить его предпочтения и персонализировать рекламную рассылку.

Финансовые структуры и страховые компании также собирают данные о клиентах, проводимых ими транзакциях, других финансовых действиях и даже перемещениях по стране и миру. Эта информация применяется для увеличения продаж и повышения уровня лояльности клиентов.

Big data как свет — найдет свой путь везде

Большие данные преобразуют нашу жизнь, нашу работу, наше мышление. Делают сервисы интуитивно понятными, а услуги – максимально персонализированными и доступными. Технология big data прочно укореняется в бизнесе. Даже в самых неожиданных сферах приходят к тому, что владеть информацией необходимо.

Согласно данным компании IDC, к 2020 году человечество сгенерирует 40–44 зеттабайтов информации (1 Збайт = 1021 байт). Возникает логичный вопрос: как избежать катастрофической перегрузки центров обработки данных? Ответ один – они должны адаптироваться под big data.

Идеальный Data Scientist: кто он и как им стать

Специалист по анализу данных может работать в отраслях, где актуальны принятие решений на основе данных, оцифровка и моделирование бизнес-процессов. То есть практически в любой отрасли. Активнее других этих специалистов ищут ИТ-компании, предприятия финансового сектора и сферы услуг для бизнеса.

Освоить базовые навыки работы с данными может практически любой человек, обладающий минимальными знаниями в высшей математике и программировании. При этом для новичков появляется все больше средств автоматического машинного обучения и конструирования архитектур, которые можно использовать без специализированных знаний в отрасли. Все, что нужно, — правильно настроить готовую модель для решения конкретной задачи и применения ее не специалистами машинного обучения. Она сама будет определять функцию потерь и визуализировать метрики качества, параметры производительности и другие показатели. На выходе получается обученная модель с анализом ее производительности на представленных данных.

Но чтобы стать действительно высококлассным специалистом, нужно копать глубже.

Знания и умения

Основы математической статистики, линейной алгебры, математического анализа и программирования — необходимая база для того, чтобы вырасти в хорошего специалиста по анализу данных. Так что если человек задумался о карьере в этой области до поступления в вуз, стоит выбрать университет, где можно получить эти знания.

Экономика образования

Как выбрать профессию, когда ее сменить и почему это важно

Также важно понимать, как устроена сфера, какие задачи и модели сегодня особенно актуальны, определиться, с каким типом данных интереснее работать, оценить ситуацию на рынке — выяснить, какие специалисты нужны бизнесу. Например, не так давно больше всего вакансий было в области компьютерного зрения, а сегодня уже на пике популярности обработка текстов

Завтра, вероятно, лидерство захватят графовые нейронные сети и рекомендательные системы. Все меняется очень быстро, поэтому идеальный вариант — не зацикливаться на одной области, ведь чем больше разнообразных задач способен решать специалист по работе с данными, тем больше он востребован.

Компетенции, необходимые специалисту в области больших данных, можно разделить на две большие группы: профессиональные и надпрофессиональные. К первым относятся такие навыки, как:

  • инжиниринг данных (Data Engineering);
  • поддержка инфраструктуры;
  • внедрение моделей и поддержание их жизненного цикла;
  • оценка рисков;
  • понимание целей внедрения продукта;
  • оценка экономического эффекта от внедрения продукта;
  • умение быстро прототипировать решения.

Помимо этого, хорошего специалиста отличают: стремление постоянно углублять и актуализировать свои знания в соответствии с потребностями бизнеса и способность переключаться на новые задачи и методы.

Экономика образования

Пять ключевых soft skills для программиста

Часто переквалифицироваться на работу с большими данными хотят специалисты с опытом работы в других областях ИТ. Для них кратчайшим путем будут образовательные проекты крупных компаний.

Совет тем, кто мечтает о карьере специалиста по анализу данных: помните, что от вашей активности и организованности зависит гораздо больше, чем от выбора места обучения. Необходимы желание достигать результат, любопытство и целеустремленность, а также объединяющая всех специалистов по искусственному интеллекту вера в то, что вы меняете жизнь к лучшему.

Свойства

Любой крупной компании (да и мелкой при наличии перспектив роста и развитии) требуется BigData. Определяются они по трем свойствам:

  1. Объем. БигДата – это просто огромный набор информации. Если бы не их размер, информация оказалась бы «обычной». С ней смог бы справиться любой компьютер.
  2. Скорость. Big Data – материалы, которые с течением времени только увеличиваются. Прирост информации осуществляется с колоссальной скоростью. Все, происходящее вокруг людей, тем или иным способом производит новые сведения. Большинство из них прекрасно подходит для бизнес-разработок.
  3. Многообразие. В БигДата включены такие особенности, как их разнообразие. Соответствующие «хранилища» забирают неоднородные электронные материалы. Представляются они совершенно разными способами: табличками, БД, числовыми последовательностями, медиафайлами и так далее.

Но с развитием технологий предприятия определили еще несколько важных свойств, которые система аналитики и работы с BigData будет воспринимать при обработке. А именно:

  1. Полезность. Свойство, которое каждой фирмой определяется в индивидуальном порядке. Специалист, работающий с большими датами, может найти так называемый КПД тех или иных сведений. Это помогает «отсеивать» лишнее.
  2. Достоверность. Слово говорит само за себя. В бизнесе должны быть задействованы только полезные и актуальные материалы. Недостоверность приводит к серьезным негативным последствиям – как для предприятия непосредственно, так и для клиентуры.

Без перечисленных свойств БигДата не может быть таковой. Если собираются только материалы одного типа, медленно и небольшого объема, к рассматриваемому термину они относиться никак не будут.

Проблемы Big Data

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации

Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы

Чем полезны Big Data быть полезна конечному пользователю

В первую очередь, речь идет о персональных, когда пользователь — субъект и инициатор использования Big Data. Часто на этот вопрос отвечают банальными фразами типа «каждый раз, когда вы пользуетесь поисковыми системами Google или Яндекс, вы работаете с большими данными».

Однако суровая правда заключается в том, что пока разговор о Big Data приложениях для массового пользователям (B2C big data, если хотите) больше похож на рекламные плакаты эпохи «атомного романтизма» 50-х, где домохозяйкам обещают атомные пылесосы, а детям — атомные игрушки. Трудно представить ситуацию, в которой массовый пользователь будет являться не просто источником информации или потребителем готовых приложений, а полноценным участником процесса.

Системы больших данных

Основные требования к работе с большими данными такие же, как и к любым другим наборам данных. Однако массовые масштабы, скорость обработки и характеристики данных, которые встречаются на каждом этапе процесса, представляют серьезные новые проблемы при разработке средств. Целью большинства систем больших данных является понимание и связь с большими объемами разнородных данных, что было бы невозможно при использовании обычных методов.

В 2001 году Даг Лэйни (Doug Laney) из Gartner представил «три V больших данных», чтобы описать некоторые характеристики, которые отличают обработку больших данных от процесса обработки данных других типов:

  1. Volume (объем данных).
  2. Velocity (скорость накопления и обработки данных).
  3. Variety (разнообразие типов обрабатываемых данных).

Объем данных

Исключительный масштаб обрабатываемой информации помогает определить системы больших данных. Эти наборы данных могут быть на порядки больше, чем традиционные наборы, что требует большего внимания на каждом этапе обработки и хранения.

Поскольку требования превышают возможности одного компьютера, часто возникает проблема объединения, распределения и координации ресурсов из групп компьютеров. Кластерное управление и алгоритмы, способные разбивать задачи на более мелкие части, становятся в этой области все более важными.

Скорость накопления и обработки

Вторая характеристика, которая существенно отличает большие данные от других систем данных, – это скорость, с которой информация перемещается по системе. Данные часто поступают в систему из нескольких источников и должны обрабатываться в режиме реального времени, чтобы обновить текущее состояние системы.

Этот акцент на мгновенной обратной связи заставил многих специалистов-практиков отказаться от пакетно-ориентированного подхода и отдать предпочтение потоковой системе реального времени. Данные постоянно добавляются, обрабатываются и анализируются, чтобы успевать за притоком новой информации и получать ценные данные на ранней стадии, когда это наиболее актуально. Для этого необходимы надежные системы с высокодоступными компонентами для защиты от сбоев по конвейеру данных.

Разнообразие типов обрабатываемых данных

В больших данных существует множество уникальных проблем, связанных с широким спектром обрабатываемых источников и их относительным качеством.

Данные могут поступать из внутренних систем, таких как логи приложений и серверов, из каналов социальных сетей и других внешних API-интерфейсов, с датчиков физических устройств и из других источников. Целью систем больших данных является обработка потенциально полезных данных независимо от происхождения путем объединения всей информации в единую систему.

Форматы и типы носителей также могут значительно различаться. Медиафайлы (изображения, видео и аудио) объединяются с текстовыми файлами, структурированными логами и т. д. Более традиционные системы обработки данных рассчитывают, что данные попадают в конвейер уже помеченными, отформатированными и организованными, но системы больших данных обычно принимают и сохраняют данные, стараясь сохранить их исходное состояние. В идеале любые преобразования или изменения необработанных данных будут происходить в памяти во время обработки.

Другие характеристики

Со временем специалисты и организации предложили расширить первоначальные «три V», хотя эти нововведения, как правило, описывают проблемы, а не характеристики больших данных.

  • Veracity (достоверность данных): разнообразие источников и сложность обработки могут привести к проблемам при оценке качества данных (и, следовательно, качества полученного анализа).
  • Variability (изменчивость данных): изменение данных приводит к широким изменениям качества. Для идентификации, обработки или фильтрации данных низкого качества могут потребоваться дополнительные ресурсы, которые смогут повысить качество данных.
  • Value (ценность данных): конечная задача больших данных – это ценность. Иногда системы и процессы очень сложны, что затрудняет использование данных и извлечение фактических значений.

IT-консультанты

Системные интеграторы разворачивают систему анализа больших данных на стороне клиента. Они выступают посредниками между технологиями и бизнесом. Это вариант для тех, кому не подходят готовые решения и облачные вычисления. «Преимущество интегратора в том, что он может комбинировать продукты разных вендоров, дополняющие друг друга», — говорил директор IBS по технологиям Сергей Кузнецов в интервью изданию Computeworld.«Форс»Направлением big data компания занялась в 2013 году. Они разрабатывают и развертывают аналитические системы для телекома, ритейла, банковского сектора, здравоохранения, госорганов и муниципальных служб. Кроме того, «Форс» предлагает готовый софт для анализа аудитории с помощью данных из соцсетей (ForSMedia) и формирования досье контрагента. Компания является официальным дистрибутором и платиновым партнером корпорации Oracle.«Крок»Интегратор плотно сотрудничает с EMC, HP, Oracle и Microsoft, Intel — с их решениями работает центр компетенций «Крок». Проекты в сфере больших данных компания начала реализовывать с 2013 года. Специалисты «Крок» строили модель по уменьшению оттока абонентов для крупного телеком-оператора, прогнозировали пассажиропотоки для «Центральной пригородной пассажирской компании», а сейчас реализуют проект в некой крупной страховой компании. В 2014 году объем направления big data достиг 1% в выручке «Крок».

Heineken: оптимизация производства и продаж

Пивоваренная компания из Голландии, первая по продажам в Европе и вторая в мире, использует big data для укрепления своих позиций на отдельных рынках — в частности, в США. Большие данные помогают ей оптимизировать цепочки поставок продукции, планировать совместную работу на заводах, прогнозировать необходимые запасы сырья с учётом сезонных колебаний и спроса. Также big data участвуют в сбыте пива: Heineken заключила соглашение с североамериканской торговой сетью Walmart и теперь анализирует поведение покупателей перед полками со слабоалкогольной продукцией для повышения конверсии. Облачная платформа собирает и хранит большие объёмы данных о том, какой путь проходит каждая банка пива до того, как покинет супермаркет.

Управление данными в облачной среде

Функции облачной платформы управления данными в представлении Gartner: распределение ресурсов, автоматизация и оркестрация; управление запросами на обслуживание; управление высокого уровня и контроль соблюдения политик; мониторинг и измерение параметров; поддержка мультиоблачных сред; оптимизация и прозрачность затрат; оптимизация мощностей и ресурсов; миграция в облако и обеспечение катастрофоустойчивости (DR); управление уровнем обслуживания; безопасность и идентификация; автоматизация обновления конфигураций.Управление облачными данными (Cloud Data Management, CDM) – это платформа, которая используется для управления корпоративными данными в различных облачных средах с учетом частных, публичных, гибридных и мультиоблачных подходов.Управление облачными данными в Veeam считают неотъемлемой частью интеллектуального управления данными, обеспечивающего их доступность для бизнеса из любой точки. Veeam Cloud Data Management Platform — «современная платформа для управления данными, поддерживающая любое облако».маркетплейсе

Платформы или open source

В некоторых компаниях специалисты по big data по-прежнему работают с open source-инструментами. Дата-сайентисты чаще всего учатся на них и продолжают использовать их уже на работе. Это подтверждает исследование Normal Research и агенства New.HR при поддержке портала GeekJOB среди аналитиков, в котором респонденты чаще всего упоминают языки Python, R и соответствующие библиотеки (NumPy, Pandas и другие). 

Это объяснимо, ведь у таких инструментов низкий технический порог входа: ими легко пользоваться на личном ноутбуке. Но в реальном бизнесе, когда растет и объем данных и сложность вычислений, когда нужно обеспечить процессинг и масштабирование, объем сопутствующих работ резко увеличивается. 

На интеграцию уходит дополнительное время, а зачастую это требует и дополнительных расходов. Поддержка разных инструментов тоже закономерно требует больших усилий, чем единого решения. И даже когда open source-инструменты покрывают потребности в обработке и анализе данных, они не интегрированы с другими сервисами компании — в итоге специалистам сложно встроить ML-модели в существующее ИТ-окружение.

Современные платформы анализа больших данных не заменяют, а дополняют известные дата-сайентистам open source-инструменты. Они по-прежнему могут разрабатывать модели с помощью привычных фреймворков и библиотек, а платформы предоставляют необходимый технический функционал для продуктивной работы и реализации полного цикла data science-проектов. Такой подход позволяет специалистам не переучиваться и быстрее разрабатывать аналитические продукты для бизнеса.

Платформы анализа больших данных: что это такое и зачем они нужны

Платформа для обработки больших данных — это решение, которое объединяет различные инструменты, необходимые специалистам по data science. Такие платформы существенно упрощают их работу, охватывая весь жизненный цикл data science проектов: от идеи и исследования данных до построения и развертывания аналитических моделей. 

Они позволяют решить так называемую проблему «последней мили»: интегрировать результаты анализа данных в операционную деятельность, чтобы они влияли на принятие решений и трансформировали бизнес-процессы. Это может быть реализовано в виде API предиктивной модели, к которой обращаются другие системы, веб-приложения, которым могут пользоваться сотрудники, или просто ежедневного отчета, отправляемого на почту. 

А для этого потребуется не только оборудование, но и регулярные поставки комплектующих, технологические карты, настроенные процессы контроля качества, обслуживания, модернизации продукта. Чтобы поставить производство на поток, нужны дополнительные ресурсы и компетенции. 

Аналогичная ситуация возникает и в data science-проектах. Ключевой результат работы дата-сайентиста — аналитическая модель — это и есть тот самый опытный образец. Она работает, ее можно запустить, показать в действии. Но если сделать только модель, то на бизнес это не повлияет. 

Чтобы разрабатывать модели и превращать их из пилотных проектов в работающие бизнес-приложения, чтобы модели работали с потоками данных и не «падали», чтобы выдавали результат за разумное время, нужна соответствующая технологическая оснастка — data science-платформы.

Такие решения делают работу data science-специалистов прозрачной и масштабируемой. Платформы могут использовать и системные интеграторы, и конечные заказчики, у которых есть специалисты по обработке данных и аналитике. 

Источники больших данных

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями. Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений. Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector