Руководство по выбору оптимального технологического MLOps-решения

Вступление

Понятие MLOps возникло недавно, но это движение уже перешло от этапа концептуализации к обсуждению его внедрения в корпоративные процессы. В то время как почти в каждой отрасли сейчас ведется борьба за первенство в разработке ИИ, внедрение передовых методов работы и конкурентоспособность игроков отрасли остаются неравными.

Сейчас лидеры в области искусственного интеллекта и ML уже лучше понимают жизненный цикл MLOps, процедуры и технологии, необходи- мые для развертывания новых моделей в производстве (и их последую- щего масштабирования). В отчете компании McKinsey о состоянии ИИ за 2021 год отмечается, что 51 % экспертов по ИИ используют стандарт- ные инструменты разработки и фреймворки для создания моделей.

Тем не менее, отстающие игроки отрасли всё еще могут догнать и даже обогнать лидеров, если примут стратегические меры по стандартизации и автоматизации процессов, которые можно осуществить с помощью большинства MLOps-платформ.

MLOps-платформа — это централизованный инфраструктурный хаб, включающий ресурсы, инструменты, механизмы и сценарии автоматизации процессов для управления всеми этапами жизненного цикла модели машинного обучения.

Жизненный цикл модели машинного обучения
Analysis Report

В свое время интегрированная среда разработки кардинально изменила скорость и качество разработки программного обеспечения. Сейчас поставщики услуг MLOps пытаются достичь аналогичного уровня скорости, удобства и автоматизации для специалистов по обработке данных, что в итоге должно сократить сроки разработки и развертывания моделей в 2-10 раз.

Бизнес-лидеры возлагают большие надежды на это обещание: 73 % считают, что внедрение MLOps сохранит их конкурентоспособность, а 24 % — что оно могло бы вывести их в лидеры своей отрасли. Этот очевидный спрос привлек множество новых участников рынка. Рынок MLOps еще только формируется, но уже имеет множество устоявшихся участников (таких как крупные поставщики облачных услуг), а также участников, занимающих новые ниши.

В этом отчете мы проанализировали 9 поставщиков услуг MLOps и оценили их с точки зрения:

  • инфраструктуры
  • управления данными
  • опыта разработки моделей
  • обучения моделей и управления ими
  • возможности развертывания
50%

экспертов по ИИ используют стандартные инструменты разработки и фреймворки для создания моделей ИИ

McKinsley
73%

бизнес-лидеров считают, что внедрение MLOps сохранит их конкурентоспособность

Forrester 2020
$4 млрд

прогнозируемый годовой доход MLOps-платформ к 2025 году

Deloitte 2021
от 1 до 30 дней

42 % лидеров ИИ нуждаются в развертывании новой модели

Algorithmia 2020
Analysis Report Graphik
MLOps-платформы с открытым исходным кодом vs проприетарные

Как и другие облачные сервисы, MLOps-платформы имеют разную степень кастомизации, масштабируемости и встроенной функциональности. В нашем анализе мы оценили каждую платформу с этой точки зрения.

Исходный код первых платформ полностью доступен, и их можно свободно распространять без каких-либо ограничений на использование.

К проприетарным мы отнесли инструменты MLOps, которые распространяют- ся как SaaS или лицензионные продукты. Их исходный код практически недо- ступен, а возможности кастомизации более ограничены.

Платформы MLOps с открытым исходным кодом vs проприетарные
Analysis Report line

Kubeflow это полностью бесплатная платформа ML, предлагающая конвейеры машинного обучения и инструменты оркестрации для про- ведения экспериментов ML на Kubernetes. Kubeflow также имеет тес- ную интеграцию с TensorFlow и другими фреймворками машинного обучения (PyTorch, Apache MXNet, MPI, XGBoost, Chainer).

Продукт может быть отлично расширен с помощью различных интеграций и предлагает высокую степень свободы в кастомизации. Но, кроме готовых конвейеров для рабочих процессов ML, для внедрения доступны немногие другие функции MLOps.

Ограничения:

  • Задачи по обучению и развертыванию моделей необходимо настраивать отдельно с помощью TensorFlow.
  • Нет готовых функций для ввода данных и управления ими.

Возможности Determined AI схожи с Kubeflow. Платформа распростра- няется через GitHub и предлагает удобный поиск гиперпараметров, интеллектуальное планирование заданий и совместное использова- ние кластеров, а также инструментарий отслеживания экспериментов, управление входами, визуализацию показателей, воспроизводимость и управление зависимостями. Determined Al можно запускать локаль- но или в облаке (совместим со всеми популярными облачными серви- сами).

Ограничения:

  • Не имеет встроенных функций обслуживания и развертывания моделей.
  • Доступный инструментарий для тестирования моделей.
  • Доступны конвейеры с автоматизированным обучением моделей.
  • Нет готовых функций для ввода данных и управления ими.

Neu.ro находится между полностью открытыми и проприетарными MLOps-платформами, предоставляемыми известными облачными постав- щиками. Компания предлагает создавать и управлять MLOps для вашего бизнеса, используя различные инструменты с открытым исходным кодом, а затем размещать их в инфраструктуре по вашему выбору — локально или в облаке. Neu.ro полностью облачная и не зависит от инструментов, что позволяет собрать среду разработки ML с использованием лучшего в своем классе набора инструментов. Предлагаемые функциональные возможности, кастомизация и поддержка охватывают весь жизненный цикл машинного обучения от управления данными до развертывания моделей в контейнерах и мониторинга моделей.

Ограничения:

  • Neu.ro распространяет основной продукт (оркестрация) как открытое ядро. Платформа бесплатная, но исходный код открыт только частично. Включа- ет в себя проприетарные компоненты.
  • Кастомизация и обслуживание платформы — это платная услуга. Кроме того, клиенты могут выбрать оплату вычислительных ресурсов, если они используют предложенную платформой инфраструктуру.

У AWS SageMaker, Google AI Platform и Azure Machine Learning есть схожие предложения PaaS. Хотя на каждой из них вы обязаны использо- вать облачные ресурсы платформы, они поддерживают широкий спектр пользовательских интеграций со сторонними инструментами, имеющими открытый исходный код. Как и в случае с другими инструментами с откры- тым исходным кодом, ни одна из упомянутых платформ не имеет удобного бизнес-интерфейса. На всех, кроме Azure Machine Learning, отмечается недостаток визуальных инструментов для специалистов по обработке данных или других сотрудников.

Ограничения:

  • Во всех трех случаях возможности многооблачного и гибридного развер- тывания ограничены, и большинство пользователей предпочитают запу- скать рабочие нагрузки и модели ML на платформе.
  • Для эффективной настройки сквозных возможностей MLOps требуются глубокие знания работы каждой платформы.

Ваши возможности ограничиваются использованием графических про- цессоров и кластеров процессов, которые предоставляются платфор- мой (включая новейшие графические процессоры NVIDIA Tesla), но их цены выше, чем у конкурентов — облачных платформ.

Ограничения:

  • Не поддерживает облачных провайдеров или локальные ресурсы.
  • Загрузка набора данных ограничена CLI.
  • Автоматизированные обучающие конвейеры не предусмотрены.

Spell, Valohai и Gradient (от Paperpace) являются полностью проприетар- ными платформами. Они предоставляют доступ к облачной MLOps-плат- форме на основе подписки и набор встроенных функций, таких как со- вместные рабочие пространства, комплексные решения для проведения стандартных экспериментов, отслеживание экспериментов и другие функции, которые мы подробно рассмотрим в следующих разделах. Среди них автономно работать может только Gradient, в то время как Spell и Valohai являются управляемыми сервисами.

Ограничения проприетарных платформ MLOps:

  • Ограниченная кастомизация/расширяемость за пределами встроенных функций.
  • Ограниченная поддержка сценариев развертывания (в основном для облачных установок).
Рейтинги совместимости: от низкой до высокой

Как и на любом молодом рынке, на MLOps-платформах наблюдается отсут- ствие целостности. Растет число автономных решений с открытым исходным кодом и проприетарных решений, охватывающих тот или иной этап жизнен- ного цикла MLOps, таких как преобразование данных, настройка гиперпара- метров или мониторинг моделей. Эти новые монозадачные решения имеют свои достоинства.

Но мы обнаружили, что большинство команд по исследованию данных ищут хорошо интегрированные решения. Таким образом, совместимость стала ключевым требованием для MLOps-платформ.

Совместимость указывает на возможность и простоту интеграции различных MLOps-инструментов в единую консолидированную систему для сквозных операций.

Более высокая степень совместимости обеспечивает не только большую гиб- кость и удобство для команд, но и компенсирует операционные риски. Выбор платформы, которая позволяет использовать различные инструменты, сни- жает вероятность блокировки поставщиков и повышает вашу способность запускать более сложные проекты машинного обучения без необходимости перехода на новую инфраструктуру.

Совместимость: от низкой до высокой
Analysis Report progress line
Исследовательские вопросы

Мы проанализировали, насколько хорошо можно объединить ряд различных MLOps, а также какие платформы имеют встроенную или предварительно вы- строенную возможность объединения с другими популярными решениями. В частности, мы задали следующие исследовательские вопросы:

У платформы хорошо документированные API, CLI, SDK? Открытый ли у них исходных код?

У платформы встроенная/производственная интеграция с другими популярными инструментами или она позволяет пользователям разрабатывать собственные расширения?

Рейтинги совместимости

Neu.ro, Kubeflow и Determined AI набрали самые высокие баллы с точки зрения совместимости. Это вполне логично, поскольку все три занимают верхние строки списка решений с открытым исходным кодом.

У Neu.ro хорошо документированы CLI и SDK. Оба имеют открытый исход- ный код. Однако платформа не имеет документированного API. Это ком- пенсируется широким набором готовых и документированных интеграций с популярными решениями MLOps, такими как DVC, Pachyderm, MLflow, W&B, NNI, Seldon и Algorithmia. Еще 10 интеграций находятся процессе разработки. Neu.ro разработана с учетом совместимости и стремится пре- доставить инструменты, облегчающие добавление новых интеграций.

Kubeflow же имеет открытый и документированный API + SDK с открытым исходным кодом. Но CLI все еще находится на стадии разработки, и дата запуска еще не объявлена. Сейчас платформа действует как слой оркестрации, который каждый пользователь может дополнить набором инструментов по своему выбору. Большинство запросов на интеграцию поступает от общества. Некоторые из доступных сегодня: Feast, Seldon, BentoML, Tekton (не путать с Tecton), MLflow, W&B, даже Determined AI и AWS SageMaker.

Determined AI поддерживает технический триумвират интеграций — API, SDK и CLI имеют открытый исходный код и хорошо документированы. Количество готовых интеграций несколько меньше, чем у двух предыду- щих участников. К ним относятся, в частности, DVC, Pachyderm, Data Lake, Algorithmia, Seldon и Spark.

Основное различие между этими тремя претендентами заключается в их векторе развития продукта Neu.ro и Kubeflow уделяют больше внимания обеспечению зрелой сквозной организации машинного обучения в то время как Determined Al больше склоняется к тому, чтобы выступать в качестве средства для создания базовой инфраструктуры MLOps, а затем расширять ее с помощью необходимых сторонних инструментов.

AWS SageMaker находится на ступеньку выше, чем другие облачные реше- ния «большой тройки». Платформа имеет комплексные API, CLI и SDK для всех основных языков программирования, но все они без открытого исход- ного кода.

Платформа имеет встроенную функциональность, охватывающую все этапы жизненного цикла проекта ML, а также несколько готовых интеграций с такими инструментами, как Tecton, MLflow, W&B, Seldon и Algorithmia. Разра- ботчики могут еще больше расширить платформу с помощью пользователь- ских интеграций.

У Azure ML Platform есть API, SDK и CLI. Кроме того, компания предоставля- ет готовые связующие звенья для потока ML, блоков данных, действий на GitHub и кода VS. В остальном Microsoft ожидает, что пользователи будут пол- ностью полагаться на собственные возможности платформы, которые довольно широки, а также на инструменты, предоставляемые партнерами компании. Google AI Platform также имеет хорошо документированные API, SDK и CLI. Однако во время исследования мы не нашли никаких данных о встроенных соединителях.

У большой тройки облачных компаний есть отличная документация по API, CLI, и SDK. Однако большинство ожидает, что клиенты будут полностью полагаться на экосистему продуктов платформы без интеграции сторонних инструментов.

Valohai и Spell являются проприетарными платформами с закрытой экосисте- мой продуктов. Valohai имеет документированный CLI и частично документи- рованный API, в основном охватывающий вложения данных. SDK, похоже, в данный момент недоступен. У Spell же есть документированный SDK и CLI, но не имеет API. Между этими двумя платформами поддерживаются только 4 интеграции.

Gradient находится в конце списка. У него нет готовых интеграций. Этот инструмента, похоже, занимает позицию «цельной» платформы. Он уделяет приоритетное внимание разработке собственных функций, а не сторонним интеграциям, и не дает возможности экспериментировать с пользовательски- ми расширениями.

Возможности управления данными: от низких до высоких

В 2020 году 44 % лидеров в области внедрения ИИ использовали стандар- тизированный набор инструментов для создания готовых к производству конвейеров данных. Мы решили проанализировать, как различные по- ставщики удовлетворяют эту потребность. В частности, мы оценили, какие встроенные функции (если таковые имеются) платформа предоставляет для построения конвейеров приема данных и поддерживает ли поставщик хра- нилище функций и создание реестра данных.

  • Хранилище функций — это централизованное хранилище для сбора, орга- низации, управления и обслуживания всех значений функций, полученных из необработанных данных.
  • Реестр данных — это централизованное хранилище для размещения раз- личных версий наборов данных наряду с метаданными.
Возможности управления данными: от низких до высоких
Data Management Capabilities
Рейтинги возможностей управления данными

Neu.ro оказалась на первом месте. Платформа поддерживает интеграцию с различными бэкэндами реестра данных. Однако она не поддерживает разработку пользовательских хранилищ данных. Если этот параметр имеет для вас решающее значение, AWS SageMaker обладает более расширенны- ми возможностями по созданию хранилищ данных. Платформа предостав- ляет инструменты для создания специализированных репозиториев для хранения и извлечения функций ML. Другие поставщики в списке не поддер- живают создание хранилищ функций, но Google AI Platform объявила о пла- нах развернуть эту функцию позже в 2021 году. Реестр данных — еще одна редко поддерживаемая функция, предоставляемая только в качестве управ- ляемой службы Neu.ro.

С точки зрения приема данных Azure Machine Learning обладает самыми разнообразными возможностями. С Azure у вас практически нет ограниче- ний на источники данных. Однако вам будет предложено использовать фа- брику данных Azure для настройки интеграции и преобразований данных, а также настроить Azure DevOps или GitHub для интеграции в веб- и другие службы.

Valohaiтакже набрала высокий рейтинг, поскольку платформа позволяет настраивать безопасную интеграцию с частными облачными хранилищами данных (AWS S3, Google Cloud Storage, Azure Blob Storage и другие). Более дорогой план также включает поддержку локальных источников данных. Determined AI и Kubeflow не предлагают собственных возможностей для управления данными и требуют пользовательских расширений. Они занима- ют последние места.

Опыт разработки моделей: от низкого до высокого

Платформы MLOps резко отличаются друг от друга с точки зрения удоб- ства использования. Большинство из них были в первую очередь пред- назначены для профессиональных исследователей данных, а не для биз- нес-пользователей или любопытных частных разработчиков. Это обучение может быть слишком сложным или трудоемким. Иногда эта кривая может быть слишком сложной или трудоемкой даже для опытных программистов, которым приходится тратить несколько часов на установку и настройку IDE каждый раз, чтобы начать новый эксперимент.

Поэтому мы решили оценить платформы с точки зрения пользовательско- го опыта. В частности, мы рассмотрели следующие аспекты:

  • Обеспечивает ли платформа удобный веб-интерфейс?
  • Есть ли визуальные drag-amd-drop инструменты?
  • Как насчет API и CLI для создания пользователей интеграций? Есть ли достаточно документации? Документируются ли также интерфейсы (с помощью ссылок)?
  • Есть ли у новых пользователей доступ к учебным пособиям, справочной архитектуре, готовым рецептам?
  • Насколько легко начать новый проект и сотрудничать
  • с другими разработчиками или бизнес-пользователями? Поддерживает ли платформа удаленную откладку?
  • Легко ли отследить различные эксперименты?

Вот что мы обнаружили:

Опыт разработи моделей: от низкого до высокого
Model Development Experience
Опыт разработки моделей

Neu.ro, IaaS и проприетарные платформы набрали самые высокие баллы в этом отношении. Проекты с открытым исходным кодом отстают с точки зрения опыта разработки, поскольку многие из них не были рассчитаны на поддержку более масштабных совместных проектов.

Топ-4 платформы в рейтинге набрали высокие баллы с точки зрения под- держиваемых интерфейсов — веб-UI, открытых API и CLI. Также легко найти их обширную документацию, учебные пособия и рецепты. Большинство из них публикуют репозитории GitHub и документацию публично и/или пре- доставляют пользователям Jupyter Notebooks в частном порядке. В этой категории Gradient набрала меньше баллов, поскольку платформа поддер- живает только CLI, но не API. Однако у платформы очень хорошие веб-ин- терфейсы UI.

С точки зрения функциональности совместной работы все проприетар- ные поставщики предлагают удобные и зачастую настраиваемые рабочие пространства для продуктивной совместной работы. Они обеспечивают однопанельное представление текущих активных экспериментов, версий моделей и развертываний, а также инструментов для мониторинга, воспро- изведения и исследования различных заданий.

Что касается разработки модели, Neu.ro и Valohai — единственные постав- щики, предлагающие скаффолдинг для проектов — возможность созда- вать новый проект на основе git-шаблона. Neu.ro также имеет удобную для пользователя среду разработки (построенную с использованием VSCode и Jupyter), набор предустановленных Jupyter Notebooks (в зависимости от ваших запросов), набор инструментов удаленной отладки и возможности отслеживания экспериментов на базе MLflow.

Valohaiтакже позволяет настраивать шаблоны проектов и содержит множе- ство готовых к использованию шаблонов проектов, библиотек и записных кни- жек. Основное различие между ними заключается в том, что Valohai, в отличие от Neu.ro, не позволяет подключать пользовательский отладчик.

AWS, Google, и Azure также предоставляют привычную и удобную среду IDE для разработки моделей, но не содержат шаблонов или готовых решений.Spell и Gradient поощряют вас к экспериментам, так как включают несколько простых в воспроизведении образцов проектов. Но ни один из них не поддер- живает удаленную отладку — это ограничение, общее для всех проприетарных MLOрs-платформ.

Determined AI, Gradient, и Spell также несколько отстают, когда речь идет об отслеживании экспериментов. Хотя каждая из них дает возможность отслежи- вать результаты и изменение производительности модели с течением време- ни, они не предоставляют возможности сравнивать различные модели или два разных эксперимента с высокой степенью детализации.

Возможности обучения моделей и управления ими: от низких до высоких

Почти половина (48 %) лидеров ИИ полагаются на автоматизированные инструменты для разработки и тестирования новых моделей. Автоматизиро- ванные обучающие конвейеры моделей, настройка гиперпараметров и распространение обучения могут увеличить скорость и качество экспери- ментов. Благодаря функциональности управления моделями, успешно обученные модели не будут сбоить в процессе производства из-за неправильной конфигурации или других ошибок. Поэтому мы специально рассмотрели, как различные MLOps-платформы облегчают обучение моде- лей и предоставляют ли они готовые обучающие конвейеры, настройку гиперпараметров и создание реестра моделей.

Настройка гиперпараметров (оптимизация) означает различные подходы к выбору оптимальных параметров модели, значения которых будут исполь- зоваться для управления процессом обучения модели. Реестр моделей — это облачный сервис для сбора, управления и отслежива- ния различных артефактов модели (и других метаданных), необходимых для успешного развертывания моделей.

Конвейеры автоматизации транспонируют принципы CI/CD для разработки моделей и автоматизации планирования, выполнения и оркестрации зада- ний. Конвейеры обеспечивают большую стандартизацию жизненного цикла машинного обучения и обеспечивают более быстрое взаимодействие и бо- лее предсказуемое развертывание.

Возможности обучения моделей и управления ими: от низких до высоких
Model Training and Management Capabilities
Рейтинги обучения моделей и управления ими

Neu.ro набрала самый высокий балл среди других сопоставимых платформ, поскольку с точки зрения функций обучения и управления моделями име- ет все четыре пункта:

  • распределенное обучение;
  • настройка гиперпараметров;
  • автоматизация (конвейеры);
  • реестр моделей.

Платформа предоставляет доступ к множеству готовых к использованию наборов функций обучения, переподготовки и проверки моделей. Кроме того, вы можете запросить любые необходимые вам пользовательские конфигурации. Для оптимизации гиперпараметров предоставляется ин- струментарий Neural Network Intelligence (NNI), разработанный Microsoft и распространяемый с открытым исходным кодом.

Azure ML занимает второе место из-за несколько более ограниченной функциональности реестра моделей, доступной в рамках Azure Machine Learning Studio. AWS SageMarker недавно добавила конвейеры обучения и развертывания к своему набору функций, а также платформа поддержи- вает настройку реестра моделей. Вы можете удобно каталогизировать мо- дели для производства, управлять версиями, записывать соответствующие метаданные, а затем автоматизировать развертывание модели с помощью CI/CD. Google AI platform показывает исключительно хорошие результаты во всех областях, за исключением настройки гиперпараметров, хотя спи- сок поддерживаемых параметров постоянно расширяется.

Spell отстает с точки зрения условий подготовки специалистов по автома- тизации конвейеров. У Gradient есть конвейеры предварительного просмо- тра, но у нас еще не было возможности протестировать эту функцию. Ни одна из них не поддерживает настройку реестра моделей. У Valohai эта возможность также отсутствует, но ее отсутствие компенсиру- ется надежными учебными конвейерами. Платформа имеет развитые воз- можности управления конвейерами и поддерживает множество сценариев автоматизации — от предварительной обработки данных до поиска гиперпараметров и развертывания моделей.

Развертывание и мониторинг моделей: от низкой до высокой сложности

Еще в 2018 году исследователи данных тратили более 70 % продуктивного времени на развертывание моделей. В 2020 году этот показатель снизился до 25 %, скорее всего, из-за появления полувтоматизированных конвейеров развертывания для ML и более широкого внедрения контейнерных моделей развертывания. Возможно также, что сдвиг произошел из-за того, что специ- алисты по обработке данных передали развертывание моделей оператив- ным командам.

Тем не менее «передача» без надлежащих инструментов не является хоро- шим решением для частого, масштабируемого и стабильного развертывания моделей. Но внедрение MLOps улучшается, поскольку многие платформы те- перь предоставляют готовые конвейеры развертывания моделей, построен- ные на основе принципов CI/CD. Кроме того, некоторые лидеры рынка также предоставляют дополнительные функциональные возможности, такие как мониторинг моделей и инструменты объяснения моделей для отслеживания их производительности с течением времени.

Развертывание и мониторинг моделей: от низкой до высокой сложности
Model Training and Management Capabilities
Рейтинги развертывания и мониторинга моделей

Neu.ro получила наивысшую оценку в этой категории, по- скольку она интегрируется с популярными инструментами с открытым исходным кодом для развертывания моделей (Seldon Core) и мониторинга (Prometheus + Grafana).AWS SageMaker также предоставляет собственный инструмент мониторинга моделей, но наблюдения за смещением моде- лей ограничены качеством данных, точностью, смещением и атрибуцией функций. А с помощью комбинации Prometheus + Grafana вы можете отслеживать и визуализировать больше параметров.

Возможности мониторинга у Azure Machine Learning ограничены. Когда дело доходит до мониторинга производительности модели, можно только:

  • Наблюдать за перемещением данных, обслуживающих модель, используя данные обучения модели в качестве косвенного показателя точности.
  • Отслеживать наборы данных временных рядов на предмет отклонения от предыдущего периода.

Google AI Platform не предоставляет никаких инструментов для монито- ринга развертываний, но имеет достаточно хорошие инструменты для регистрации сбоев в производительности. В начале 2021 года Spell объявила о партнерстве с Arize. Клиенты платформы могут настроить интеграцию для мониторинга производительности модели в производ- стве и получения своевременных выводов.

Valohai предоставляет журналы развертывания для каждой версии раз- вертывания, но функциональность мониторинга модели этим и ограничи- вается. Determined AI, Kubeflow и Gradient не предоставляют собственных возможностей для развертывания или наблюдения за моделью.

MLOps-стартапы vs платформы корпоративного уровня

Благодаря решениям с открытым исходным кодом машинное обучение и глубокое обучение стали более-менее коммерциализированными техноло- гиями. Студенты колледжей и старшие специалисты по ИИ придерживаются одного и того же жизненного цикла ML при разработке новых моделей и проведении экспериментов.

Однако разные группы пользователей осуществляют проекты разного мас- штаба и сложности. Они также предъявляют различные требования, когда речь идет о контроле моделей, объяснимости и управлении ресурсами.

Чтобы сравнить разных поставщиков с точки зрения возможностей масшта- бирования, мы проанализировали объем поддерживаемых функций, которые обычно требуются корпоративным пользователям. К ним относятся:

  • Контроль доступа и управление идентификацией для различных проектов.
  • Безопасный единый вход (SSO) для минимизации проблем при управле нии учетными данными
  • Возможности аудита входа для обеспечения безопасности.
  • Мониторинг ресурсов и отчеты о потреблении.
MLOps-стартапы vs платформы корпоративного уровня
Startup vs Enterprise-Grade MLOps Platforms

Неудивительно, что облачные платформы занимают первые места в этой категории. Это можно объяснить их огромным опытом обслуживания кор- поративных клиентов и общей ориентацией на этот сегмент клиентов. Един- ственная область, в которой облачные платформы отстают, — это SSO. Боль- шинство из них не поддерживают учетные данные для социальных сетей или входы в систему через другие платформы, кроме GitHub. Рейтинг AWS SageMaker низкий, поскольку не поддерживает логины на GitHub.

В остальном эта тройка имеет хорошие инструменты мониторинга ресурсов, возможности проведения аудита, управления контролем доступа и общей масштабируемостью инфраструктуры для обеспечения более глобальных операций ML и множественных развертываний.

Neu.ro разделил третье место. Он поддерживает SSO и предоставляет под- робную аналитику использования ресурсов. Функционал контроля доступа этой платформы более ограничен в сравнении с лидерами категории, контроль входа не обеспечивается, как и аудит входа.

Spell находится ниже в списке из-за отсутствия возможностей аудита и отче- тов о потреблении ресурсов. Однако предоставляет отличный инструмента- рий для создания новых экземпляров в нескольких проектах за считанные секунды и мониторинга использования ресурсов. SSO ограничивается только самыми дорогими индивидуальными корпоративными планами. Другие участники рейтинга не имеют ни одной из вышеперечисленных функций, что может стать препятствием для многих корпоративных клиентов.

Выводы

В этом отчете мы попытались внести ясность в понимание функциональ- ности MLOps-платформ, их позиции и способности реализовать реклами- руемую функциональность. В отчете представлен широкий круг известных представителей: IaaS-провайдеры, быстро развивающиеся конкуренты и нишевые игроки. Мы также оценивали платформы с продуктами, лицен- зируемыми на коммерческой основе, и платформы с открытыми исходными кодами, получившими коммерческую лицензию. Важно отметить, что большинство платформ в списке используют инструменты, фреймворки и библиотеки с открытым исходным кодом или интегрируются с ними, что делает их еще более надежными.

В конечном счете, когда дело дойдет до выбора поставщика, обязательно проведите независимую оценку и оцените каждую MLOps-платформу с точки зрения корпоративных требований. Привлеките свою команду аналитиков к процессу выбора поставщика. Соберите их отзывы и коммен- тарии о текущих проблемах и определите их приоритетность. Затем найдите поставщика, который будет соответствовать этим требованиям.

report conclusions Attribution 4.0 international (cc by 4.0)
Вы можете свободно:
Делиться — копировать и распространять материал на любом носителе или в любом формате.
Адаптировать — редактировать, преобразовывать и использо- вать материал
для любых целей, даже коммерческих.
Атрибуция — вы должны указать создателя этого отчета и оставить ссылку: neu.ro.
Медиакит
Machine Learning Lifecycle