TLDR

В этой статье рассматривается жизненный цикл продукта данных, описываются этапы от концепции до вывода из эксплуатации, а также подчеркивается важность учета таких факторов, как размер компании, отрасль и уровень зрелости. Он охватывает выбор метода обработки и роль технологических затрат, скорости и обслуживания, а также тематические исследования с участием Uber на разных этапах. Статья завершается обсуждением ограничений, требующих внимания в четвертом поколении жизненного цикла продукта данных. Кроме того, статья включает введение в:

  • Управление продуктом 101
  • Экономика 101

Содержание (TOC)

  • Введение
  • II. Управление продуктом 101
  • III. Экономика 101
  • IV. Жизненный цикл продукта данных
  • V. Важность учета размера компании, отрасли и уровня зрелости
  • VI. Роль технологических затрат, скорости и технического обслуживания при выборе метода обработки
  • VII. Компании на ранней стадии развития (на примере Uber [до 2014 г.])
  • VIII. Компании среднего уровня (на примере Uber [2015–2016])
  • IX. Корпоративные компании (на примере Uber [2017 — настоящее время])

Введение

В сегодняшнюю цифровую эпоху данные стали ценным активом для компаний, позволяющим получать информацию, улучшать процесс принятия решений и создавать новые продукты и услуги. Однако, чтобы в полной мере использовать потенциал данных, компаниям необходимо пройти четко определенный процесс, известный как жизненный цикл продукта данных.

Жизненный цикл продукта данных включает в себя ряд шагов, начиная от сбора данных до вывода продукта из эксплуатации. Фазы жизненного цикла могут варьироваться в зависимости от размера компании, отрасли и уровня зрелости. Поэтому важно понимать процесс и его нюансы, чтобы принимать взвешенные решения о методах и технологиях обработки данных.

В этой статье мы углубимся в жизненный цикл продукта данных, его этапы и важность учета размера компании, отрасли и уровня зрелости. Мы также обсудим роль технологических затрат, скорости и обслуживания при выборе метода обработки. Наконец, мы рассмотрим тематические исследования компаний раннего, среднего и крупного бизнеса, а также этапы жизненного цикла продукта данных, которые они прошли.

Итак, являетесь ли вы аналитиком данных, инженером данных, инженером по машинному обучению или просто интересуетесь областью данных, эта статья предоставит вам ценную информацию о жизненном цикле продукта данных и о том, как его можно применять в различных сценариях компании.

II. Управление продуктом 101

Качественные показатели играют решающую роль в жизненном цикле продукта, предоставляя ценную информацию о нечисловых аспектах производительности продукта. Понимание и эффективное использование качественных показателей необходимо для достижения всестороннего понимания влияния продукта и согласования его с потребностями клиентов.

5 ключевых ошибок компаний, ведущих к банкротству

Новые продукты и компании имеют высокий процент отказов. Около 75% новых предприятий терпят неудачу, а частота неудач новых продуктов составляет от 40% до 90% с точки зрения достижения значительного внедрения на рынке. Эта проблема существует даже в меньших масштабах, когда большинство идей не представляют ценности для клиентов или бизнеса. Даже успешные компании, такие как Microsoft, Amazon и Netflix, имеют процент отказов от 50% до 70%.

  1. Поставить телегу впереди лошади

Ставить телегу впереди лошади — это идиоматическое выражение, обозначающее выполнение действий в неправильном порядке, т. е. попытку достичь цели, не предприняв предварительно необходимых предварительных шагов. Самая распространенная ошибка, которую совершает большинство компаний, заключается в масштабировании до получения объективных доказательств того, что продукт нужен людям и для него существует разумный рынок.

В контексте бизнеса это может означать попытку продать продукт до понимания потребностей целевого рынка или разработки маркетинговой стратегии. Это также может включать значительные инвестиции в инфраструктуру или технологии, прежде чем определить, существует ли жизнеспособный рынок для продукта или услуги.

Такой подход может привести к напрасной трате ресурсов, потерянному времени и, в конечном счете, к провалу бизнеса. Чтобы избежать этой ошибки, предприятия должны сосредоточиться на понимании своего целевого рынка и своих потребностей, прежде чем инвестировать в разработку продукта или инфраструктуру. Такой подход может помочь гарантировать, что предприятия удовлетворяют потребности своих клиентов и не перерасходуют средства.

2. Построить — Построить — Построить

То, что вы можете что-то построить, не означает, что вы должны это построить. Этот подход предполагает постоянное добавление новых функций или продуктов в бизнес без учета отзывов клиентов или потребностей рынка.

Проблема с этим подходом заключается в том, что он может привести к отсутствию фокуса и направления, а также к перерасходу средств на разработку. Это также может привести к тому, что продукт будет перепроектирован и не будет соответствовать потребностям целевой аудитории.

Чтобы избежать этой ошибки, предприятия должны сосредоточиться на разработке минимально жизнеспособного продукта (MVP), который отвечает основным потребностям их целевой аудитории. Затем они должны использовать отзывы клиентов и исследования рынка для повторения и улучшения продукта, прежде чем расширять свои предложения. Такой подход может помочь гарантировать, что предприятия удовлетворяют потребности своих клиентов и не перерасходуют ненужные затраты на разработку.

3. Когнитивные искажения

Когнитивные предубеждения — распространенная ошибка, которая может привести к провалу в бизнесе. Когнитивные предубеждения — это умственные ошибки или ошибки в суждениях, которые могут привести к ошибочному принятию решений. Существует около 150 когнитивных искажений, которые могут заставить нас принимать иррациональные решения из-за автоматизма в нашем мозгу (этот термин используется для описания поведения, которое происходит, когда человек бессознательно и не осознает, что происходит действие)

В контексте бизнеса когнитивные предубеждения могут привести к целому ряду негативных последствий, включая самоуверенность, предвзятость подтверждения и ошибку необратимых затрат. Например, предубеждение из-за самоуверенности может привести к тому, что бизнес-лидеры переоценят свои способности или успех нового продукта или услуги, что приведет к перерасходу средств и финансовым потерям.

Предвзятость новатора – это склонность переоценивать потенциальные преимущества новых идей или технологий из-за их новизны, что приводит к принятию неверных решений. Чтобы смягчить предвзятость новаторов, важно тщательно оценивать новые идеи или технологии на основе объективных критериев и искать различные точки зрения. Тестирование новых идей в небольших масштабах также может помочь избежать вложения ресурсов в неустойчивые или неэффективные инновации.

Предвзятость подтверждения относится к склонности отдавать предпочтение информации, которая подтверждает существующие убеждения, игнорируя противоречивую информацию. Предвзятость новатора — это тенденция переоценивать полезность или важность новых идей или технологий просто потому, что они новы или новаторские. Оба предубеждения могут привести к неправильным решениям и могут быть смягчены путем поиска различных точек зрения и объективной оценки новой информации.

Заблуждение о невозвратных затратах относится к тенденции продолжать вкладывать ресурсы в проект или решение просто из-за уже вложенных ресурсов, даже если проект больше не является жизнеспособным или прибыльным. Это может привести к принятию неверных решений, поскольку люди могут продолжать вкладывать время, деньги или усилия в неудачный проект вместо того, чтобы сократить свои потери и двигаться дальше. Чтобы избежать ошибки, связанной с необратимыми затратами, важно оценивать решения, исходя из их потенциальных будущих выгод и издержек, а не из прошлых инвестиций, которые невозможно возместить.

4. Измерение неправильных вещей

Измерение неправильных вещей, таких как метрики тщеславия, может привести к провалу бизнеса из-за предоставления неточной или вводящей в заблуждение информации о производительности бизнеса. Метрики тщеславия — это метрики, которые могут сделать бизнес привлекательным на первый взгляд, но не дают осмысленной информации о фактическом успехе или прибыльности бизнеса, например о лайках в социальных сетях или посещаемости веб-сайта, поэтому, если у вас есть данные, на которые вы не можете воздействовать это показатель тщеславия.

Чтобы не измерять неправильные вещи и не попасть в ловушку тщеславных метрик, компаниям следует сосредоточиться на измерении метрик, которые напрямую влияют на их цели и результаты, таких как затраты на привлечение клиентов, пожизненная ценность клиентов и рост доходов. Измерение правильных показателей обеспечит более точное представление о производительности бизнеса и позволит компаниям принимать решения на основе данных, которые приведут к долгосрочному успеху.

5. Принятие желаемого за действительное

Принятие желаемого за действительное — распространенная ошибка, которая может привести к провалу в бизнесе. Принятие желаемого за действительное относится к склонности верить в положительный исход без учета доказательств или потенциальных рисков, принимать решения без данных или действовать вслепую.

Принятие желаемого за действительное также может привести к тому, что бизнес-лидеры будут игнорировать предупреждающие знаки или отзывы клиентов или сотрудников, что приведет к принятию ошибочных решений и упущенным возможностям для улучшения.

Чтобы избежать принятия желаемого за действительное, бизнес-лидеры должны оставаться объективными и опираться на данные при принятии решений. Они должны искать различные точки зрения и отзывы и быть готовыми пересмотреть свои предположения и стратегии по мере поступления новой информации. Избегая принятия желаемого за действительное, предприятия могут принимать более обоснованные решения и повышать свои шансы на успех.

Неопределенность — Кривая инвестиций

Кривая инвестиций в неопределенность представляет собой модель, описывающую взаимосвязь между уровнем неопределенности и объемом инвестиций, которые должны быть сделаны. Он предполагает, что инвестиции должны быть минимальными, когда неопределенность высока, и постепенно увеличиваться по мере уменьшения неопределенности, пока не будет достигнут оптимальный уровень инвестиций, при котором выгоды перевешивают затраты. После этого дополнительные инвестиции могут стать расточительными и рискованными.

Модель Эша Мории

Существует много моделей для объяснения жизненного цикла продукта, но здесь будет упоминаться модель Эша Маурьи, также известная как Lean Canvas, — популярный инструмент, используемый предпринимателями и предприятиями для разработки и проверки своих бизнес-идей. Lean Canvas — это одностраничный бизнес-план, который помогает предпринимателям определить и рассмотреть ключевые компоненты своей бизнес-модели.

В модели Эша Мории Lean Canvas определяет три основных этапа жизненного цикла продукта:

  • Соответствие проблемы и решения. На этом этапе для начальных компаний основное внимание уделяется пониманию проблемы клиента и разработке решения, отвечающего его потребностям. Это включает в себя тестирование и доработку решения, чтобы убедиться, что оно эффективно решает проблему клиента. Обычно на этом этапе задействован цикл «создание-измерение-обучение».
  • Соответствие продукта рынку. После проверки решения начинающие компании добиваются соответствия решения проблемы и сосредотачиваются на достижении соответствия продукта рынку. Акцент смещается на определение целевого рынка и разработку стратегии выхода на рынок. Это включает в себя определение правильных каналов для достижения целевого рынка и уточнение цен, сообщений и позиционирования продукта.
  • Масштаб. На заключительном этапе для корпоративных компаний основное внимание уделяется масштабированию бизнеса и увеличению доли рынка. Это включает в себя оптимизацию бизнес-модели, усовершенствование продукта и расширение клиентской базы за счет инициатив в области маркетинга и продаж. Обычно эскалация связана с созданием клиентов и созданием компании.

Структуры принятия решений

Убить, изменить и сохранить – это схема принятия решений, используемая стартапами и предпринимателями для оценки жизнеспособности продукта или бизнес-идеи.

Убить означает полностью отказаться от идеи, потому что у нее недостаточно потенциала для успеха. Это решение принимается после тщательной оценки рынка, потребностей клиентов, конкуренции и других факторов, влияющих на успех идеи.

Поворот означает внесение существенных изменений в продукт или бизнес-модель, чтобы лучше соответствовать потребностям клиентов и рыночному спросу. Это решение принимается, когда компания считает, что основная идея имеет потенциал, но ее необходимо адаптировать для лучшего соответствия рынку.

Сохранить означает продолжать использовать текущую идею или продукт, потому что они продемонстрировали потенциал успеха и хорошо подходят для рынка. Это решение принимается, когда компания считает, что идея надежна и имеет большой потенциал для роста и прибыльности.

Принятие решений на основе данных и действий человека

У людей есть вдохновение; Машины делают проверку

Вы должны быть проинформированы данными, но не руководствоваться ими.

III. Экономика 101

В динамичной среде принятия решений на основе данных включение количественных показателей имеет решающее значение для оценки успеха и влияния продуктов данных. После понимания качественных показателей в «Управлении продуктом 101» в этом разделе рассматриваются два важных количественных показателя — рентабельность инвестиций (ROI) и рентабельность инвестированного капитала (ROIC) — в контексте жизненного цикла продукта данных.

Возврат инвестиций (ROI)

Это способ выяснить, хорошо ли вы вложили деньги или нет. Представьте, что у вас есть киоск с лимонадом. Вы купили все ингредиенты и расходные материалы за 20 долларов, а лимонад продали за 40 долларов, что означает, что вы получили 20 долларов прибыли.

Теперь, чтобы узнать, сколько вы заработали по сравнению с тем, сколько вы потратили, мы можем использовать специальную формулу, называемую возвратом инвестиций (ROI). Чтобы использовать эту формулу, мы делим чистый доход (20 долларов, которые вы получили) на стоимость инвестиций (20 долларов, которые вы потратили) и умножаем на 100.

Итак, у нас есть:

ROI = чистая прибыль / стоимость инвестиций x 100

ROI = 20 долларов / 20 долларов x 100

ROI = 100%

Это означает, что ваш ROI составляет 100%. Это большое число! Это означает, что на каждый доллар, который вы вложили в свой киоск с лимонадом, вы получили 1 доллар прибыли.

Другими словами, рентабельность инвестиций помогает нам понять, сколько денег мы заработали по сравнению с тем, сколько денег мы потратили. И чем выше ROI, тем лучше для нашего бизнеса!

Рентабельность инвестированного капитала (ROIC)

Это способ расчета, который говорит нам, какую прибыль получает компания по отношению к сумме денег, вложенных ею в свою деятельность. Это все равно, что спросить: «Если я дам вам определенную сумму денег для начала бизнеса, сколько денег вы сможете на ней заработать?»

допустим, ваши родители открывают небольшой бизнес по изготовлению и продаже мебели ручной работы. Они вкладывают 100 000 долларов собственных денег и занимают дополнительные 50 000 долларов в банке для покупки оборудования и сырья, а также для оплаты других расходов.

Если их бизнес приносит 20 000 долларов прибыли за год, ROIC будет рассчитываться следующим образом:

ROIC = прибыль до вычета процентов и налогов (EBIT) / (общий долг + общий капитал)

EBIT = 20 000 долларов США; Общий долг = 50 000 долларов США; Общий капитал = 100 000 долларов США

ROIC = 20 000 долларов США / (50 000 долларов США + 100 000 долларов США) ROIC = 20 000 долларов США / 150 000 долларов США ROIC = 0,133 или 13,3%

Это означает, что на каждый доллар, вложенный вашими родителями в бизнес, они получили 13,3 цента прибыли. Более высокий ROIC указывает на то, что бизнес получает больше прибыли от вложенного капитала, в то время как более низкий ROIC может свидетельствовать о том, что бизнес менее эффективно использует свой капитал для получения прибыли.

ROI против ROIC

Основное различие между ROIC и ROI заключается в том, как они определяют «капитал» в своих формулах.

Рентабельность инвестированного капитала (ROIC) измеряет процентную прибыль, которую компания зарабатывает на весь капитал, который она вложила в свою деятельность, включая как заемные, так и собственные средства. Он учитывает общую сумму инвестированного капитала, который компания использует для получения прибыли, тогда как рентабельность инвестиций учитывает только сумму инвестиций, сделанных в конкретный проект или инициативу.

Возврат инвестиций (ROI), с другой стороны, измеряет прибыльность конкретных инвестиций или проектов, как правило, за более короткий период времени. Он рассчитывается путем деления чистой прибыли от инвестиций на сумму первоначальных инвестиций. ROI полезен для оценки эффективности отдельных проектов или инвестиций, в то время как ROIC более полезен для оценки общей эффективности использования капитала компанией.

ROIC — это более комплексный показатель прибыльности компании, поскольку он учитывает весь капитал, вложенный в бизнес, а не только одну конкретную инвестицию. Напротив, ROI — это более узкая мера, которая применяется только к конкретным проектам или инвестициям.

IV. Жизненный цикл продукта данных

Жизненный цикл продукта данных — это структура, описывающая различные этапы, которые продукт данных проходит в течение своего жизненного цикла. Жизненный цикл продукта данных представляет собой комбинацию жизненного цикла разработки программного обеспечения или жизненного цикла машинного обучения + жизненного цикла продукта, которая используется для описания различных этапов, которые продукт проходит от создания до вывода из эксплуатации. Жизненный цикл продукта данных состоит из нескольких этапов, включая зарождение, разработку, внедрение, рост, зрелость, насыщение, спад и вывод из эксплуатации. Вот этапы жизненного цикла продукта данных в деталях:

1. Начало

Начальная стадия — это первая стадия жизненного цикла информационного продукта. На этом этапе компании определяют потребность в информационном продукте и начинают планировать его разработку. Этот этап включает в себя мозговой штурм, генерацию идей и определение потенциальных вариантов использования продукта данных. На этом этапе инвесторы могут предоставить начальное финансирование для поддержки первоначального планирования и оценки осуществимости идеи продукта данных. Эти инвестиции могут помочь покрыть расходы, связанные с исследованием рынка, созданием прототипа или проверкой концепции.

2. Развитие

Этап разработки — самый длинный и сложный этап жизненного цикла продукта данных. Этот этап включает в себя несколько подэтапов, включая сбор данных, обработку данных, анализ данных, визуализацию данных, действия с данными, разработку модели машинного обучения, развертывание, мониторинг и обслуживание. Каждый из этих подэтапов имеет решающее значение для успеха продукта данных и должен выполняться эффективно, чтобы гарантировать точность, надежность и полезность продукта данных. На этом этапе Инвесторы могут предоставить финансирование для поддержки проектирования, разработки и тестирования информационного продукта. Эти инвестиции могут помочь покрыть расходы, связанные с наймом специалистов по данным, получением данных, приобретением аппаратного и программного обеспечения или аутсорсингом разработки.

2.1) Сбор данных

Этап сбора данных включает в себя сбор данных из различных источников, включая внутренние и внешние источники. Собранные данные могут быть структурированными или неструктурированными и могут поступать из различных источников, включая базы данных, электронные таблицы, платформы социальных сетей и сенсорные сети.

2.2) Обработка данных

Этап обработки данных включает преобразование необработанных данных в более структурированный формат, который можно использовать для анализа. Этот этап может включать очистку данных, удаление выбросов и преобразование данных в формат, который можно использовать для анализа.

2.3) Анализ данных

Этап анализа данных включает в себя анализ данных для выявления закономерностей, тенденций и идей. Этот этап может включать использование статистических моделей, алгоритмов машинного обучения или других аналитических инструментов для извлечения информации из данных.

2.4) Визуализация данных

Этап визуализации данных включает в себя создание визуализаций, таких как диаграммы, графики и информационные панели, для передачи информации, полученной из данных. Этот этап имеет решающее значение для обеспечения того, чтобы выводы были понятными и действенными.

2.5) Действие с данными

Этап действий с данными включает в себя использование информации, полученной из данных, для принятия обоснованных решений и принятия мер. Этот этап может включать разработку новых продуктов, улучшение существующих продуктов или оптимизацию бизнес-процессов.

2.6) Разработка модели машинного обучения

Этап разработки модели машинного обучения включает разработку моделей машинного обучения для автоматизации обработки и анализа данных. Этот этап может включать использование контролируемых или неконтролируемых методов обучения для разработки моделей, которые можно использовать для прогнозирования будущих результатов.

2.7) Развертывание

Этап развертывания включает развертывание продукта данных в производственной среде, где его могут использовать конечные пользователи. Этот этап может включать интеграцию продукта данных с существующими системами и обеспечение его доступности для конечных пользователей.

2.8) Мониторинг

Этап мониторинга включает мониторинг производительности продукта данных, чтобы убедиться, что он работает должным образом. Этот этап может включать настройку оповещений и уведомлений для оповещения заинтересованных сторон о возникновении проблем.

2.9) Обслуживание

Этап обслуживания включает в себя поддержку продукта данных, чтобы гарантировать, что он продолжает функционировать должным образом. Этот этап может включать обновление продукта данных для решения проблем или добавление новых функций для улучшения его функциональности.

3. Введение (запуск)

Этап внедрения — это этап, на котором информационный продукт впервые выводится на рынок. На этом этапе компании могут сосредоточиться на повышении осведомленности и повышении интереса к продукту данных. На этом этапе Инвесторы могут предоставить финансирование для поддержки выпуска продукта данных для предполагаемых пользователей. Эти инвестиции могут помочь покрыть расходы, связанные с маркетингом, рекламой, документацией, обучением или поддержкой.

4. Рост

Стадия роста — это стадия, на которой продукт данных испытывает быстрый рост спроса. На этом этапе компании могут сосредоточиться на расширении охвата продукта данных и масштабировании его операций. На этом этапе Инвесторы могут предоставить финансирование для поддержки роста пользовательской базы продукта данных. Эти инвестиции могут помочь покрыть расходы, связанные с масштабированием продукта, улучшением взаимодействия с пользователем или добавлением новых функций.

5. Зрелость

Стадия зрелости — это стадия, на которой продукт данных достигает пикового уровня спроса. На этом этапе компании могут сосредоточиться на оптимизации производительности продукта данных. На этом этапе Инвесторы могут предоставить финансирование для поддержки обслуживания и постоянной доступности продукта данных. Эти инвестиции могут помочь покрыть расходы, связанные с обновлением продукта, предоставлением технической поддержки или обеспечением соответствия нормативным требованиям.

6. Насыщенность

Стадия насыщения — это стадия, на которой рост продукта данных начинает замедляться, а спрос на продукт данных начинает стабилизироваться. На этом этапе компании могут сосредоточиться на удержании существующих клиентов и разработке новых вариантов использования продукта данных. На этом этапе инвесторы могут предоставить финансирование для инвестирования в дополнительные ресурсы для поддержки удержания клиентов и изучения новых вариантов использования продукта данных, что может помочь компании сохранить свои позиции на рынке и продолжать получать доход от продукта данных.

7. Отклонить

Стадия спада — это стадия, на которой спрос на информационный продукт начинает снижаться. Это снижение может быть связано с целым рядом факторов, включая конкуренцию, изменения на рынке или изменения потребительских предпочтений. На этом этапе компании могут сосредоточиться на управлении спадом и минимизации потерь. На этом этапе Инвесторы могут принять решение отказаться от информационного продукта, который больше не приносит отдачи от инвестиций. Это может включать продажу продукта или его активов или ликвидацию их доли в компании, которой принадлежит продукт.

8. Выход на пенсию

Стадия вывода из эксплуатации — это стадия, на которой продукт данных становится нежизнеспособным и удаляется с рынка. Это может быть связано с целым рядом факторов, включая устаревание, отсутствие спроса или изменение стратегии компании. На этом этапе компании могут сосредоточиться на выводе из эксплуатации продукта данных и переходе своих клиентов на альтернативные решения.

Важно отметить, что этапы не всегда могут происходить в линейной последовательности, и процесс может быть итеративным, когда компании могут пересматривать и совершенствовать предыдущие этапы по мере прохождения цикла. Кроме того, важно подчеркнуть, что успешная разработка информационных продуктов требует значительных затрат времени, денег и ресурсов. Поэтому тщательное планирование и выполнение каждого этапа необходимы для успеха информационного продукта на рынке.

V. Важность учета размера компании, отрасли и уровня зрелости

Жизненный цикл продукта данных не является универсальной структурой. Различные компании, отрасли и уровни зрелости могут иметь уникальные требования и ограничения, которые необходимо учитывать при разработке продуктов данных и управлении ими. Например, компании на ранней стадии могут иметь ограниченные ресурсы, и им может потребоваться сосредоточиться на быстрой разработке минимально жизнеспособного продукта (MVP) для проверки своих гипотез. С другой стороны, средние и крупные компании могут иметь больше ресурсов и могут инвестировать в более сложные продукты данных, предлагающие более продвинутую функциональность.

Точно так же разные отрасли могут иметь уникальные требования к данным и ограничения. Например, медицинским компаниям может потребоваться соблюдать строгие правила конфиденциальности данных, в то время как компаниям, предоставляющим финансовые услуги, может потребоваться убедиться, что их продукты данных безопасны и соответствуют нормативным требованиям.

Наконец, уровень зрелости компании также может повлиять на жизненный цикл продукта данных. Компании на ранних стадиях могут иметь более гибкий подход к разработке информационных продуктов и могут быстро меняться на основе отзывов клиентов. С другой стороны, средние и крупные компании могут иметь более устоявшиеся процессы и процедуры для разработки продуктов данных и могут требовать более тщательного тестирования и проверки перед развертыванием продуктов данных в производстве.

VI. Роль технологических затрат, скорости и технического обслуживания при выборе метода обработки

Выбор метода обработки, используемого при разработке продукта данных, может оказать существенное влияние на его успех. Различные методы обработки могут иметь разные затраты, скорость и требования к обслуживанию, что может повлиять на общую стоимость и эффективность продукта данных.

Например, пакетная обработка может быть экономичным решением для компаний, имеющих большие объемы данных, которые можно обрабатывать в автономном режиме. Однако пакетная обработка может быть медленнее, чем обработка в режиме реального времени, что может повлиять на своевременность и точность выводов продукта данных. С другой стороны, обработка в реальном времени может быть быстрее, но может потребовать больше ресурсов и обслуживания, чтобы гарантировать, что она работает должным образом.

Точно так же выбор технологии, используемой при разработке продукта данных, также может повлиять на его стоимость, скорость и требования к обслуживанию. Например, облачные решения могут быть более экономичными, чем локальные решения, но могут требовать надежного подключения к Интернету для обеспечения доступности продукта данных. С другой стороны, локальные решения могут быть более дорогими, но могут обеспечивать больший контроль над данными и методами обработки.

В заключение, при разработке продукта данных важно учитывать жизненный цикл продукта данных, размер компании, отрасль и уровень зрелости, а также затраты, скорость и требования к обслуживанию различных методов и технологий обработки. Принимая во внимание эти факторы, компании могут разрабатывать продукты данных, которые являются точными, надежными и полезными и могут соответствовать уникальным требованиям и ограничениям их конкретной ситуации.

VII. Компании ранней стадии

A. Определение компаний ранней стадии

Компании ранней стадии, также известные как стартапы, недавно образовались и часто находятся на начальных этапах разработки и вывода продукта или услуги на рынок. Эти компании обычно работают с ограниченными ресурсами и ориентированы на быстрый рост и масштабирование. У них может быть небольшая команда сотрудников и простая организационная структура. Компании на ранней стадии в первую очередь сосредоточены на выявлении и решении проблемы на рынке, обеспечении соответствия рынку и создании продукта или услуги, которые удовлетворяют потребности клиентов. Это предприятия с высоким риском, с нестабильным рыночным спросом и финансовой стабильностью. Эти компании могут рассчитывать на финансирование от инвесторов для поддержки своего роста и развития.

B. Характеристики компаний ранней стадии

Компании на ранней стадии часто демонстрируют определенные характеристики, которые отличают их от более устоявшихся предприятий. Эти характеристики могут включать:

  • Ограниченные ресурсы: компании на ранней стадии могут иметь ограниченные финансовые ресурсы, рабочую силу и инфраструктуру, что может затруднить достижение роста и масштабируемости.
  • Сосредоточьтесь на инновациях: компании на ранней стадии, как правило, сосредоточены на разработке новых и инновационных продуктов или услуг, которые удовлетворяют конкретные потребности или проблемы на рынке.
  • Гибкость: из-за своего небольшого размера и ограниченной структуры компании на ранней стадии часто более гибки и адаптируются к изменениям на рынке или в бизнес-среде.
  • Высокий риск: компании на ранней стадии часто представляют собой предприятия с высоким риском, с неопределенным рыночным спросом, финансовой стабильностью и долгосрочной жизнеспособностью.
  • Акцент на росте. Компании на ранней стадии обычно ориентированы на быстрый рост и масштабирование, чтобы в будущем стать успешным и устоявшимся бизнесом.

C. Жизненный цикл информационных продуктов в компаниях ранней стадии: пример Uber (до 2014 г.)

До 2014 года у Uber был ограниченный объем данных, который мог поместиться в несколько традиционных баз данных онлайн-обработки транзакций (OLTP). Инженеры должны были обращаться к каждой базе данных или таблице по отдельности, а пользователям оставалось писать свой код, если им нужно было объединить данные из разных баз данных.

В 2014 году, когда объем входящих данных увеличился, Uber решила построить первое поколение своего аналитического хранилища данных, чтобы собрать все свои данные в одном месте и упростить доступ к данным. Для этого Uber разделил своих пользователей данных на три основные категории: городские операционные группы, ученые и аналитики данных, а также инженерные группы. Первое поколение аналитического хранилища данных Uber было сосредоточено на объединении всех данных Uber в одном месте, а также на упрощении доступа к данным.

Для этого Uber использовал Vertica в качестве программного обеспечения для хранилища данных из-за его быстрого, масштабируемого и ориентированного на столбцы дизайна. Uber также разработал несколько специальных заданий ETL, которые копировали данные из разных источников в Vertica.

D. Выбор подходящего метода обработки

Что касается размера компании, рост Uber с точки зрения количества городов / стран и количества пассажиров / водителей, использующих услугу, увеличил объем входящих данных. Поэтому требовалось масштабируемое решение, способное хранить и обрабатывать большие объемы данных. Для промышленности транспортная отрасль генерирует большой объем данных и, следовательно, потребность в хранилище данных для хранения и обработки этих данных. Что касается уровня зрелости, Uber был в начале своего пути к большим данным, поэтому основной целью было разблокировать критические потребности бизнеса в централизованном доступе или просмотре данных.

Что касается затрат, хранилище данных первого поколения было дорого масштабировать по мере роста компании, поэтому она начала удалять старые, устаревшие данные, чтобы освободить место для новых данных. Таким образом, стоимость раствора была фактором, определяющим метод обработки. Для ускорения специальные задания ETL, которые копировали данные из разных источников в Vertica, ускорили доступ к данным, часто за доли минуты. Следовательно, метод обработки должен обеспечивать быстрый доступ к данным.

Наконец, с точки зрения обслуживания отсутствие формального контракта между службами, производящими данные, и нижестоящими потребителями данных сделало задания ETL хрупкими, а использование гибкого формата JSON привело к отсутствию принудительного применения схемы для исходных данных. Таким образом, надежность данных стала проблемой, и метод обработки должен обеспечивать надежность данных и простоту обслуживания.

Учитывая все эти факторы, в качестве метода обработки было выбрано программное обеспечение хранилища данных Vertica, ориентированное на столбцы. Использование SQL в качестве простого стандартного интерфейса позволило городским операторам легко взаимодействовать с данными, не зная о лежащих в их основе технологиях. Однако по мере роста компании были выявлены такие ограничения, как надежность данных, затраты на масштабирование и отсутствие механизмов связи схемы.

Д. Ограничения

Широкое использование хранилища данных Uber и входящих данных выявило несколько ограничений, таких как надежность данных, которая становится проблемой, а масштабирование хранилища данных становится все более дорогим.

Кроме того, задания ETL, которые загружали данные в хранилище данных, также были очень хрупкими из-за отсутствия формального механизма связи схемы, большая часть исходных данных была в формате JSON, а задания приема не были устойчивы к изменениям в коде производителя.

Чтобы устранить эти ограничения, Uber работал над своей платформой больших данных 2-го поколения, которая была перестроена вокруг экосистемы Hadoop.

VIII. Компании среднего уровня

A. Определение компаний среднего уровня

Компании среднего уровня — это предприятия, которые уже заложили прочную основу и начали расти с точки зрения доходов, клиентов и доли рынка. Как правило, компании, находящиеся на промежуточном этапе, вышли за рамки начальной фазы стартапа и успешно продемонстрировали соответствие продукта рынку.

B. Характеристики компаний среднего уровня

Некоторые ключевые характеристики компаний среднего уровня включают в себя:

  1. Устоявшаяся клиентская база: компании среднего уровня имеют стабильную и растущую клиентскую базу, что помогает генерировать стабильные потоки доходов.
  2. Проверенная бизнес-модель. У компаний среднего уровня есть надежная бизнес-модель, подтвержденная успешными продажами и удержанием клиентов.
  3. Масштабирование операций. Компании среднего уровня находятся в процессе расширения своих операций, чтобы удовлетворить растущий спрос на свои продукты или услуги. Они могут расширять свою рабочую силу, производственные мощности или каналы сбыта.
  4. Усиление конкуренции: по мере того, как компании среднего уровня становятся более успешными, они привлекают больше внимания со стороны конкурентов и сталкиваются с большей конкуренцией в своей отрасли.
  5. Сосредоточьтесь на прибыльности: в отличие от компаний на ранней стадии, компании на средней стадии обычно сосредоточены на достижении прибыльности, а не просто на росте. Они стремятся генерировать устойчивые потоки доходов и увеличивать свою прибыль.
  6. Опытная управленческая команда: компании среднего уровня обычно имеют опытную управленческую команду, добившуюся успеха в своей отрасли.
  7. Доступ к финансированию: компании среднего уровня обычно уже прошли один или несколько раундов финансирования и имеют подтвержденный послужной список успеха, что делает их привлекательными для инвесторов, которые ищут более авторитетные компании с более высокой вероятностью успеха.

C. Жизненный цикл информационных продуктов в компаниях среднего уровня: пример Uber (2015–2016 гг.)

В 2015–2016 годах Uber столкнулся с проблемами на своей платформе больших данных первого поколения из-за их быстрого роста. Они столкнулись с проблемами масштабируемости, доступности и гибкости платформы. Чтобы решить эти проблемы, они перестроили свою платформу больших данных на основе экосистемы Hadoop. Это включало введение озера данных Hadoop, которое значительно снизило нагрузку на их онлайн-хранилища данных и позволило им перейти от специальных заданий приема к масштабируемой платформе приема. Они также представили Presto, Apache Spark и Apache Hive, чтобы обеспечить интерактивные специальные пользовательские запросы, облегчить программный доступ к необработанным данным и служить рабочей лошадкой для чрезвычайно больших запросов соответственно.

Чтобы обеспечить масштабируемость платформы, Uber позаботился о том, чтобы все моделирование и преобразование данных происходило только в Hadoop, что обеспечивает быстрое заполнение и восстановление при возникновении проблем. В их хранилище данных были перенесены только наиболее важные смоделированные таблицы. Кроме того, Uber сделал все службы данных в этой экосистеме горизонтально масштабируемыми, тем самым повысив эффективность и стабильность своей платформы больших данных. Они также схематизировали все данные, перейдя от JSON к Parquet, чтобы хранить схему и данные вместе. Для этого они создали службу центральной схемы для сбора, хранения и обслуживания схем, а также различные клиентские библиотеки для интеграции различных служб с этой службой центральной схемы.

Поскольку бизнес Uber продолжал расти со скоростью света, вскоре у них были десятки петабайт данных. Ежедневно в их озеро данных добавлялись десятки терабайт новых данных, а их платформа больших данных выросла до более чем 10 000 ядер с более чем 100 000 запущенных пакетных заданий в любой день. В результате их озеро данных Hadoop стало централизованным источником достоверных данных для всех аналитических данных Uber.

D. Выбор подходящего метода обработки

С точки зрения размера компании, более крупным компаниям с большими объемами данных могут потребоваться более масштабируемые методы обработки, такие как Hadoop, в то время как более мелкие компании могут работать с более простыми методами обработки. С точки зрения промышленности, некоторые отрасли, такие как здравоохранение, могут иметь строгие правила в отношении методов обработки данных и могут требовать более безопасных методов обработки.

Что касается уровня зрелости, компании с более зрелыми группами обработки данных могут иметь возможность обрабатывать более сложные методы обработки, такие как Hadoop, в то время как компаниям с менее зрелыми группами данных может потребоваться начать с более простых методов обработки.

Стоимость также является важным фактором при выборе метода обработки. Hadoop может быть более дорогим в настройке и обслуживании, а более простые методы обработки могут быть более рентабельными. Скорость также является важным фактором, поскольку некоторые методы обработки могут быть быстрее других, в зависимости от потребностей компании. Техническое обслуживание также необходимо учитывать, поскольку некоторые методы обработки могут требовать более продолжительного обслуживания, чем другие.

Д. Ограничения

Реструктуризация платформы больших данных Uber на основе экосистемы Hadoop позволила им устранить ряд ограничений, включая масштабируемость, доступность и гибкость. Однако по мере того, как их бизнес продолжал расширяться, а в их экосистеме хранились десятки петабайт данных, они столкнулись с новым набором проблем.

Огромное количество небольших файлов, хранящихся в их HDFS, начало создавать дополнительную нагрузку на узлы имен HDFS, а задержка данных все еще была далека от того, что нужно их бизнесу. Новые данные были доступны пользователям только раз в 24 часа, что было слишком медленно для принятия решений в реальном времени. Хотя перенос ETL и моделирования в Hadoop сделал этот процесс более масштабируемым, эти шаги по-прежнему были узкими местами, поскольку эти задания ETL должны были воссоздавать всю смоделированную таблицу.

IX. Корпоративные компании

A. Определение корпоративных компаний

Корпоративные компании — это крупные организации со значительным уровнем сложности, иерархией и несколькими отделами. Эти компании обычно имеют широкий спектр продуктов и услуг и работают в нескольких географических точках. Они часто характеризуются большим количеством сотрудников, высоким уровнем доходов и значительной долей рынка в соответствующих отраслях. Масштаб — важнейший аспект корпоративных компаний, поскольку они должны иметь возможность управлять и обрабатывать большие объемы данных и транзакций для эффективной работы.

B. Характеристики корпоративных компаний

Корпоративные компании обладают уникальным набором характеристик, которые отличают их от других типов компаний. К ним относятся:

  1. Сложная организационная структура: корпоративные компании обычно имеют сложную иерархическую структуру с несколькими отделами и функциональными областями, что усложняет процесс принятия решений.
  2. Широкий спектр продуктов и услуг: корпоративные компании предлагают широкий спектр продуктов и услуг в различных отраслях, часто используя их размер и масштаб для обеспечения конкурентного преимущества.
  3. Большая база сотрудников: в корпоративных компаниях работает большое количество людей в разных географических точках, что требует от них эффективных процессов управления персоналом и талантами.
  4. Высокий уровень дохода: корпоративные компании генерируют значительный доход и работают в глобальном масштабе, что часто делает их предметом различных правил и требований соответствия.
  5. Обширное управление данными: корпоративные компании имеют дело с огромными объемами данных из нескольких источников и нуждаются в эффективных системах управления данными, чтобы обеспечить правильную обработку, хранение и анализ данных.
  6. Надежная ИТ-инфраструктура: корпоративным компаниям требуется надежная ИТ-инфраструктура для поддержки их операций, включая крупномасштабные базы данных, сети и облачные системы.
  7. Сильная узнаваемость бренда: корпоративные компании обычно имеют сильную узнаваемость бренда и позицию на рынке, что часто делает их лидерами в соответствующих отраслях.

C. Жизненный цикл информационных продуктов в корпоративных компаниях: пример Uber (2017 г. — настоящее время)

С 2017 г. по настоящее время Uber перестроил платформу больших данных на долгосрочную перспективу, устранив ограничения масштабируемости и задержки данных. Третье поколение их платформы больших данных содержало более 100 петабайт данных в HDFS, 100 000 запросов Presto в день, 10 000 заданий Spark в день и 20 000 запросов Hive в день. Исследование компании выявило четыре болевые точки, в том числе ограничения масштабируемости HDFS, более быстрые данные в Hadoop, поддержку обновлений и удалений в Hadoop и Parquet, а также более быструю ETL и моделирование. Чтобы устранить эти ограничения, Uber создала Hadoop Upserts and Incremental (Hudi) — библиотеку Spark с открытым исходным кодом, которая обеспечивает уровень абстракции поверх HDFS и Parquet для поддержки необходимых операций обновления и удаления. Hudi позволяет пользователям постепенно извлекать только измененные данные, значительно повышая эффективность запросов и позволяя выполнять добавочные обновления производных смоделированных таблиц.

D. Выбор подходящего метода обработки

При выборе подходящего метода обработки для архитектуры платформы данных тематического исследования Uber необходимо учитывать несколько факторов.

  1. Размер компании: Uber — крупная компания, в которой работает более 22 000 сотрудников, поэтому выбранный метод обработки должен быть масштабируемым для обработки больших объемов данных.
  2. Отрасль: Uber работает в транспортной отрасли, которая генерирует значительный объем данных из различных источников, включая данные GPS, пользовательские данные и данные о транзакциях.
  3. Уровень зрелости: Платформа больших данных Uber находится в третьем поколении, что означает, что это зрелая платформа, для которой требуется метод обработки, способный справиться со сложными и разнообразными потребностями в обработке данных.
  4. Затраты: выбранный метод обработки должен быть рентабельным и соответствовать бизнес-целям Uber.
  5. Скорость. Метод обработки должен быть быстрым и способным обрабатывать данные в режиме реального времени, поскольку Uber работает в высококонкурентной отрасли, где скорость имеет решающее значение.
  6. Обслуживание: выбранный метод обработки должен быть прост в обслуживании и поддержке, иметь надежное сообщество и документацию.

В ответ на проблемы, выявленные Uber, компания решила создать Hadoop Upserts и Incremental (Hudi), библиотеку Spark с открытым исходным кодом, которая обеспечивает уровень абстракции поверх HDFS и Parquet. Hudi устраняет несколько болевых точек, включая ограничения масштабируемости HDFS, поддержку обновлений и удалений в Hadoop и Parquet, а также более быструю ETL и моделирование. Кроме того, Hudi позволяет выполнять добавочные обновления производных смоделированных таблиц, что значительно повышает эффективность запросов.

В целом, Hudi оказался подходящим методом обработки для архитектуры платформы данных тематического исследования Uber. Он устранил выявленные болевые точки и был масштабируемым, экономичным, быстрым и простым в обслуживании благодаря надежной документации и поддержке сообщества.

E. Ограничения, которые необходимо исправить в поколении 4

Платформа больших данных Uber третьего поколения улучшила доступность данных и эффективность обработки, но все еще существуют некоторые ограничения, которые необходимо устранить. Вот некоторые из текущих усилий по улучшению платформы больших данных Uber для улучшения качества данных, задержки данных, эффективности, масштабируемости и надежности, которые будут исправлены в поколении 4:

Качество данных

  • Данные, не соответствующие схеме, представляют собой серьезную проблему, когда некоторые хранилища данных вышестоящего уровня не в обязательном порядке применяют или проверяют схему данных перед сохранением. Чтобы решить эту проблему, Uber расширяет свою службу схемы для поддержки семантических проверок.
  • Для обеспечения более высокого качества данных решающее значение имеет также фактическое качество содержимого данных. Хотя использование схем гарантирует, что данные содержат правильные типы данных, они не проверяют фактические значения данных. Uber стремится улучшить качество данных, расширив сервис схемы для поддержки семантических проверок.

Задержка данных

Uber стремится сократить задержку необработанных данных в Hadoop до пяти минут, а задержку данных для смоделированных таблиц — до десяти минут. Это позволит большему количеству вариантов использования перейти от потоковой обработки к более эффективной мини-пакетной обработке, в которой используется инкрементное извлечение данных Hudi.

Эффективность данных

  • Чтобы повысить эффективность обработки данных, Uber отказывается от использования выделенного оборудования для любых своих сервисов и переходит к докеризации сервисов. Такой подход позволит лучше управлять ресурсами и распределять их.
  • Uber унифицирует все свои планировщики ресурсов внутри и за пределами своей экосистемы Hadoop, чтобы преодолеть разрыв между своими сервисами Hadoop и сервисами, не связанными с данными, в масштабах компании.

Масштабируемость и надежность

Платформа приема Uber была разработана как универсальная подключаемая модель, но фактический прием исходных данных по-прежнему включает в себя множество конфигураций конвейера, зависящих от источника, что делает конвейер приема хрупким и увеличивает затраты на обслуживание нескольких тысяч таких конвейеров. Uber работает над улучшением масштабируемости и надежности своей платформы, выявляя и устраняя проблемы, связанные с пограничными случаями.

Заключение

В заключение, понимание жизненного цикла продукта данных имеет решающее значение для разработки успешных продуктов, основанных на данных. Принимая во внимание такие факторы, как выбор метода обработки, отрасль и размер компании, предприятия могут создавать устойчивые продукты, которые повышают ценность для их клиентов.

Мы ценим ваши отзывы и хотели бы услышать ваше мнение об этой статье. Что вы нашли наиболее полезным или познавательным? Что мы могли сделать лучше? Дайте нам знать в комментариях ниже.

Мы с нетерпением ждем возможности поделиться с вами следующими частями, так как это вторая часть серии из четырех частей, и услышать ваши мысли по ходу дела. Спасибо за чтение и за ваше время!

Читайте также

От пакетов к потокам: разные способы загрузки данных (часть 1)

Кредиты

- Написано Мохамедом Аваллахом

- Рецензии Рику Дрисколл, Захариас Вулгарис, Стэнли Ндаги