Возвращайте до 18% с пополнений рекламы
  • Все популярные рекламные сети в одном окне
  • Рекламные инструменты — бесплатно
  • Доступ к конструктору лендингов и WebApp-приложений
  • Закрывающие документы точно в срок
ring svg
  1. Главная >
  2. Блог >
  3. Аналитика и управление компанией >
  4. Big Data: что это, где используется и как стать аналитиком больших данных

Big Data: что это, где используется и как стать аналитиком больших данных

Big Data: что это, где используется и как стать аналитиком больших данных

Big Data — это разнообразные данные, поступающие в больших объемах и с огромной скоростью. Информации настолько много, что стандартное программное обеспечение не может обработать такой массив. При этом большие данные полезны — их можно использовать для решения разных задач.

Разбираем на примерах, что такое Big Data и как работают с такими массивами. Наш эксперт Егор Ермилов, Big Data Scientist (ведущий аналитик данных) образовательной платформы «ИнтернетУрок», рассказывает, как собирают большие данные, где их используют и в чем отличие Big Data от Data science.

Нет времени читать статью? Найдите ее в нашем телеграм-канале и сохраните себе в «Избранном» на будущее.

Содержание статьи

Что такое Big Data?

Как появились Big Data?

Где используют Big Data?

Примеры использования Big Data

Amazon
Apple
Visa
Аэропорт Дубая
AT&T

Как собирают и хранят Big Data?

В чем отличие Big Data и Data Science?

Какие технологии Big Data есть?

SQL и NoSQL
MapReduce
R

Как Big Data помогает бизнесу?

Кто такой Big Data аналитик?

Обучение на Big Data аналитика
Сколько зарабатывает Big Data аналитик?
Чем Big Data аналитик отличается от бизнес-аналитика?

Что такое Big Data анализ: техники и методы

Data mining
Машинное обучение
Нейронные сети
Краудсорсинг
Имитационное моделирование

Интересная статистика о Big Data

Что такое Big Data?

Пользователи постоянно генерируют данные: когда совершают покупки, прокладывают маршруты на картах, оставляют поисковые запросы, выходят на пробежку в смарт-часах, публикуют посты в социальных сетях, заказывают еду онлайн и вообще совершают привычные действия. Так получаются большие данные, которые собирают и анализируют разные организации: от производителей машин до социальных служб.

Нет четкой границы, когда данные считаются большими, а когда еще нет. Чаще всего под Big Data имеют в виду терабайты, петабайты и даже зеттабайты информации. К большим данным относится практически любая обезличенная информация о пользователях. Это могут быть:

  • пол,
  • возраст,
  • социальный статус,
  • интересы,
  • примерный уровень дохода,
  • наличие детей и многое другое.

Вычислить конкретного человека в таком массиве данных просто невозможно, да и не нужно. Компании интересуются общими тенденциями, а не отдельными людьми.

Например, Toyota использует большие данные, чтобы предотвратить ситуации, когда водитель случайно нажимает на педаль газа вместо тормоза. Машина анализирует препятствия вокруг и игнорирует нажатие, если определила его как случайное.

Как появились Big Data?

По прогнозам аналитической компании Statista, в 2025 году человечество сгенерирует до 181 зеттабайт данных (1 Збайт = секстиллион байт). Для сравнения в 2020 году было сгенерировано 64,2 Збайта данных.

Гиперрост связан с эволюцией вычислений. Исследовательская компания IDC классифицирует создание и использование данных по трем эпохам: 

До 1980 г.

Данные хранились только в специальных центрах обработки. У машин была малая вычислительная мощность, а использовали данные только для нужд бизнеса

1980 — 2000 гг.

Центры обработки стали не только хранить данные, но и распределять их по сети к конечным устройствам, например компьютерам. Пользователи получили возможность сохранять информацию и управлять ей — так появилась индустрия цифровых развлечений, включающая музыку, фильмы и игры

2000 — настоящее время

Из конкретных физических устройств данные переместились в облачные хранилища — это стало возможным благодаря распространению широкополосной связи и быстрых

сетей. Теперь доступ к данным имеет любой человек с любого устройства


Где используют Big Data?

Отвечает Егор Ермилов, Big Data Scientist образовательной платформы «ИнтернетУрок»

Большие данные можно использовать везде, но на практике их применяют там, где одновременно есть:

  • большой объем данных,
  • значимая польза от использования данных,
  • средства на поддержание инфраструктуры и специалистов по Big Data.

Чаще всего полноценную Big Data инфраструктуру можно встретить:

  • в финансовых организациях — банки и платёжные системы;
  • телекоммуникациях — компании мобильной связи;
  • транспорте и логистике — авиакомпании и железные дороги.

Иногда Big Data встречается и в науке, например в большой адронном коллайдере.

Примеры использования Big Data

Amazon

Amazon хранит большие данные о клиентах, чтобы адаптировать рекомендации под запросы покупателей. Если добавить что-то в корзину, платформа порекомендует товары, которые часто берут вместе с этим продуктом. Компания генерирует 35% годовых продаж, используя этот метод.

Amazon предлагает товары, которые чаще всего покупают с рассматриваемым товаром.
Amazon предлагает товары, которые чаще всего покупают с рассматриваемым товаром. Изображение: Amazon

Apple

Анализируя большие данные, Apple может узнать, как люди используют приложения в реальной жизни, Это позволяет изменять дизайн и начинку программ в соответствии с предпочтениями клиентов.

Еще один пример использования больших данных — это часы Apple Watch. Их носят постоянно, и компания собирает данные о действиях клиентов в течение дня. Эта информация может быть использована для лечения и профилактики болезней, а также для создания мобильных приложений, связанных со здоровьем.

Apple собирает данные о действиях клиентов в течение дня через Apple Watch.
Apple собирает данные о действиях клиентов в течение дня через Apple Watch. Изображение: Tim Foster для Unsplash

Visa

Visa использует большие данные, чтобы выявить мошеннические транзакции. При каждой покупке компания сохраняет такие данные, как местонахождение продавца, сумма транзакции, время суток и сотни других атрибутов. Эти данные сравниваются с прошлым поведением покупателя, и программное обеспечение Visa отправляет в банк оценку о законности покупки. Затем банк может использовать информацию, чтобы быстро принять или отклонить транзакцию.

Visa предлагает пользователям функцию отслеживания местоположения через приложение в телефоне, что особенно актуально при путешествиях.
Visa предлагает пользователям функцию отслеживания местоположения через приложение в телефоне, что особенно актуально при путешествиях. Изображение: Youtube

Аэропорт Дубая

В аэропорту Дубая установлено около 1000 датчиков, используемых для определения пассажиропотока и длины очереди. Полученная информация позволяет персоналу аэропорта решать, как расставить приоритеты в обслуживании. Например, какой самолет должен пристыковываться ближе всего к прибытию и сколько сотрудников требуется на иммиграционных стойках.

Big Data в аэропорту — это пассажиропоток, длина очередей, информация о рейсах, количестве самолетов и сотрудников аэропорта.
Big Data в аэропорту — это пассажиропоток, длина очередей, информация о рейсах, количестве самолетов и сотрудников аэропорта. Изображение: Chris Leipelt для Unsplash

AT&T

C помощью больших данных телекоммуникационная компания AT&T блокирует нежелательные звонки от роботов. Системы ежедневно фильтруют миллиарды записей в поисках шаблонов и подозрительных признаков. Затем обнаруженные аномалии проверяют, чтобы избежать приостановки законных вызовов. Так компании удалось заблокировать 6 500 000 000 звонков от роботов.

Как собирают и хранят Big Data?

Отвечает Егор Ермилов, Big Data Scientist образовательной платформы «ИнтернетУрок»

Можно выделить три эволюционных этапа развития инструментов обработки данных:

  1. Данных немного. Для их обработки применяются простые инструменты на компьютере аналитиков, например Excel, Python, R. Хранятся данные в виде текстовых и Excel файлов и передаются по электронной почте.
  2. Данных уже больше. Они обрабатываются на отдельном сервере с бо́льшим количеством оперативной памяти и более мощным процессором. Хранятся в специализированных базах данных, куда имеют доступ разные пользователи.
  3. Big Data. Уже не хватает мощностей одного большого сервера. Для обработки и хранения требуется параллельные вычисления и кластер из многих серверов.

Область применения во всех трёх случаях может быть одинаковой: от аналитических отчетов до моделей машинного обучения.

В чем отличие Big Data и Data Science?

Отвечает Егор Ермилов, Big Data Scientist образовательной платформы «ИнтернетУрок»

Data Science — наука о данных. Она нужна, чтобы учиться извлекать из данных пользу для бизнеса.

Big Data — это такое состояние, когда накоплен большой объём данных и с ним нужно как-то работать. А традиционные инструменты уже не справляются.

Нет однозначного представления о том, где лежит граница между «еще не big data» и «уже big data». Но традиционно выделяют три V или три основных признака больших данных:

  • Volume (объем). Привычные инструменты не могут хранить большой объём данных. Речь идет уже о терабайтах данных, которые не вмещаются в традиционные базы и тем более в Excel-файлы.
  • Velocity (скорость). Имеется в виду как скорость прироста новых данных, так и необходимая скорость обработки. Раньше хватало работы аналитика и ручной обработки Excel в течение пары дней. Теперь бизнесу нужно видеть отчёты, формирующиеся в режиме реального времени.
  • Variety (многообразие). Это значит разнообразие форм хранения данных. Нужно уметь хранить и анализировать не только табличные данные, но и, например, фото-, видео- и аудио- данные.
Big Data — это такое состояние, когда накоплен большой объём данных и с ним нужно как-то работать.

У Big Data такая же область применения, как и у Data Science, но другой набор инструментов. Если нужно проанализировать, как вели себя пользователи прошлый месяц — это в раздел аналитики больших данных. Если нужно на основе накопленных данных предсказать, как поведут себя пользователи в следующем месяце — это в раздел машинного обучения. Всё это позволяет делать выводы из накопленных данных, предсказывать состояние дел на будущее и принимать решения.

Какие технологии Big Data есть?

Технологии больших данных — это программы, которые предназначены для анализа, обработки и извлечения информации из больших наборов данных со сложной структурой. Они нужны, когда традиционных технологий недостаточно.

SQL и NoSQL

Базы данных бывают двух типов:

  • Реляционные, где информация представлена в виде таблиц. Для работы с ними используют язык запросов SQL.
  • Нереляционные — все остальные базы, в которых информация представлена по-другому, например в виде графов или коллекции документов. Для работы с ними используют язык запросов NoSQL.

NoSQL более гибкие и позволяют решать больше задач, например, они подходят, чтобы хранить данные кэша или информацию для алгоритмов рекомендаций. Нереляционные базы используют, когда нужны масштабы и быстрота обработки, — как в случае с большими данными. 

SQL и NoSQL

MapReduce

Это модель данных и алгоритм, которые нужны для больших вычислений, где нужно задействовать несколько компьютеров параллельно. MapReduce может обрабатывать десятки петабайт данных в день (1 Петабайт = 1 024 Терабайт). Сначала информация фильтруется по условиям запроса, а затем распределяется между компьютерами, каждый из которых рассчитывает свои блоки данных и передает результаты.

MapReduce используют для создания поискового индекса, выявления спама в почте, оптимизации рекламы. Самая популярная программа, работающая по алгоритму MapReduce, — это Hadoop. 

Скриншот с сайта Hadoop
Скриншот с сайта Hadoop

R

Это язык программирования, предназначенный для обработки данных — на нем даже строят машинное обучение и нейросети. R помогает анализировать данные из разных источников и полезен при работе со статистикой.

Как Big Data помогает бизнесу?

Отвечает Егор Ермилов, Big Data Scientist образовательной платформы «ИнтернетУрок»

Data Science, как и Big Data, позволяет компаниям выработать так называемый подход, основанный на данных (data-driven approach). Это такой подход к управлению, при котором решения принимаются, опираясь на анализ данных и математику. А интуиция и личный опыт отходят на второй план.

Раньше, например, выбирая между вариантами А и Б, решение принимали на основе прошлого опыта менеджеров, их здравого смысла и интуиции. Анализ больших данных сейчас может цифрами показать разницу между А и Б — это позволяет принять более объективное решение.

Наука о данных также может учесть уже накопленный опыт принятия решений: как со стороны руководства компаний, так и со стороны клиентов. Обученная математическая модель позволяет принимать рутинные решения без участия человека, при этом гораздо быстрее и точнее.

Пример таких решений:

  • Когда лучше устроить распродажу?
  • Какую установить скидку на разные категории товаров?
  • Какой товар предложить купить?
  • Какие клиенты больше склонны купить товар или услугу?

Кто такой Big Data аналитик?

Big Data аналитик — это специалист по анализу больших данных, который собирает их в базы, изучает и делает выводы. Этот человек должен извлечь информацию, которая поможет компании принять стратегически верные решения. Big Data аналитики нужны компаниям, куда поступают большие объемы данных: в IT-секторе, у мобильных операторов, в банках и государственных организациях.

Обучение на Big Data аналитика

В России пока нет отдельного бакалавриата по специальности Big Data аналитик, но для старта в профессии подойдут направления подготовки, связанные с IT, математикой и компьютерными науками. Например, прикладная информатика или программная инженерия. В Высшей школе экономики есть англоязычная магистерская программа «Бизнес-аналитика и системы больших данных» — она подойдет тем, кто хочет углубить свои знания после бакалавриата.

Другой вариант обучения — курсы. Чтобы получить представление о работе с Big Data, можно воспользоваться бесплатными программами:

  • курс университета МИСиС «Введение в инженерию больших данных»;
  • курс Санкт-Петербургского Политехнического университета «Наука о данных и аналитика больших объемов данных»;
  • курс университета ИТМО «Обработка и анализ больших данных».

Анализу больших данных обучают также онлайн-школы вроде GeekBrains, Нетологии и Яндекс.Практикума.

Сколько зарабатывает Big Data аналитик?

Зарплата аналитика больших данных в России зависит от уровня компетенций:

Junior (начинающий)

60 000–100 000 руб.

Middle (опытный специалист)

100 000–330 000 руб.

Senior (профессионал, способный решить любую задачу)

150 000–400 000 руб.


В США, по данным сайта по поиску вакансий Indeed, зарплата начинающего Big Data аналитика в среднем составляет $4 800 в месяц, а аналитик с опытом работы от 3 лет получает $5 369. Вот компании США, которые платят Big Data аналитикам больше остальных:

компании США, которые платят Big Data аналитикам больше остальных
Скриншот с сайта Indeed

Чем Big Data аналитик отличается от бизнес-аналитика?

Big Data аналитик и бизнес-аналитик интерпретируют данные и делают выводы на их основе. Но это разные профессии с такими ключевыми отличиями:

Big Data аналитик

Бизнес-аналитик

Анализирует широкий спектр данных, поступающих из разных источников

Фокусируется на финансовой и операционной аналитике бизнеса

Работает со структурированными и неструктурированными данными

В основном анализирует структурированные данные

Из-за большого количества данных на каждом этапе работы использует технологии, основную аналитическую работу выполняют машины

Самостоятельно просматривает данные и делает из них выводы

Обладает инженерными навыками в области хранилищ данных

Основной навык — знание бизнеса, предметной области и статистики


Что такое Big Data анализ: техники и методы

Анализ Big Data — это сбор, хранение и анализ большого количества информации, которая поступает из разных источников. Вот какие техники и методы в этом помогают.

Data mining

Поиск важных данных среди огромного массива накопившейся информации — по сути, это превращение необработанных данных во что-то полезное. Эту технологию используют, чтобы найти неизвестные ранее закономерности между данными. Например, маркетплейсам Data mining помогает выявить взаимосвязи между покупками и подстроить рекомендации под пользователя.

Машинное обучение

Это искусственный интеллект, который обучается на массивах данных и принимает решения, анализируя схожие задачи. Впоследствии он выявляет закономерности, учится на прошлом опыте и генерируют новые решения.

Нейронные сети

Один из видов машинного обучения — искусственный интеллект, который имитирует, как нейроны человеческого мозга передают сигналы. Нейросетям дают огромный массив правильно решенных задач, и те на их основе принимают решения. Другой алгоритм говорит, правильно ли принято решение, — со временем результаты становятся все более точными. На нейросетях работают голосовые помощники и чат-боты

Нейронные сети

Краудсорсинг

С английского краудсорсинг дословно переводится как «использование ресурсов толпы». Это явление, когда для решения проблемы привлекают внешних исполнителей, добровольцев. Например, Microsoft предлагает тысячам пользователей отправлять отчеты об ошибках в компанию — эта стратегия позволяет быстро выявить баги и исправить их в обновлении.

Имитационное моделирование

Имитационное моделирование — это построение точных компьютерных моделей на основе Big Data, которые затем испытывают и делают прогнозы. На основе имитационного моделирования можно изучить поведение покупателей в зависимости от меняющихся обстоятельств.

Интересная статистика о Big Data

  • В 2020 году человечество сгенерировало 64,2 Збайта данных. К 2021 году из них сохранилось только 2%.
  • По состоянию на 2022 год, 90% мировых данных было создано за предыдущие два года.
  • В 2022 году больше всего центров обработки данных находится в США — 2 701 центр. В России их только 172. 
Интересная статистика о Big Data
Составлено по материалам Statista
  • 92,1% самых крупных компаний США получают отдачу от инвестиций в работу с данными и искусственным интеллектом.
  • К 2024 году соотношение между уникальными и скопированными данными составит 1:10. Это значит, что на каждый уникальный файл будет приходиться 10 неуникальных.

Высоких вам конверсий! 

blog comments powered by Disqus
Возвращайте до 18% с пополнений рекламы
  • Все популярные рекламные сети в одном окне
  • Рекламные инструменты — бесплатно
  • Доступ к конструктору лендингов и WebApp-приложений
  • Закрывающие документы точно в срок
ring svg
copyright © 2011–2024 Все права защищены
Запрещено любое копирование материалов ресурса без письменного согласия владельца — ООО "Центр рекламных бюджетов". ИНН:5902052888, КПП:590201001, ОГРН: 1195958009730, Пермь, ул. Окулова, д. 75 к. 8 офис 501Б

ООО «Центр рекламных бюджетов» — IT-компания с многолетним опытом работы, разрабатывающая инновационные решения для управления процессом лидогенерации (пост-клик маркетинг). Разработанное нами технологическое программное решение LPGENERATOR позволяет создавать целевые страницы в визуальном редакторе и управлять заявками (лидами) в CRM-системе в целях проведения эффективных, высококонверсионных рекламных кампаний