Как специалист по данным, вы знаете, как сложно работать с набором данных из более чем 5 миллионов записей с более чем 100 столбцами, верно?

Существует более 100 пакетов Python и оптимизации, выполненные в популярных пакетах специалистов по данным, таких как Pandas, Numpy, scikit-learn и многих других.

Даже несмотря на то, что все вклады с открытым исходным кодом и сопровождающие усердно работают над объединением PR и подготовкой последних версий каждого пакета и распространением их для публичного использования. Это не просто быстро или недостаточно для нашего варианта использования.

В чем тогда решение? Intel недавно выпустила собственный набор инструментов для специалистов по данным. В основном это оболочка для существующих пакетов Python.

Некоторые предложения для AI Analytics Toolkit,

Modin — ускорьте работу с Pandas

Modin сияет и дает нам заметную производительность при выполнении операций с большими наборами данных, где Panadas борется или замедляется. В основном ускорение связано с тем, что Modin использует все ядра вашего процессора для выполнения вычислений.

Примечание. Это всего лишь один пакет в наборе инструментов Intel oneAPI Analytics.

Простой тест производительности:

Статистика GitHub:
Загрузки — более 5 миллионов
Первоначальный выпуск — начиная с 2018 г.
Последний выпуск — 26 января 2023 г.
Лицензия — лицензия Apache-2.0< br /> Звезды — 8,4 тыс. звезд
Наблюдатели — 108 просмотров
Вилки — 592 вилки

Вот некоторые другие игроки в этом пространстве,

Познакомьтесь с инструментами Intel oneAPI,

28 ноября 2022 года Amazon объявила на своей конференции re:Invent 2022, что Modin будет предлагаться как часть AWS Glue и SDK для Pandas. (Источник: aws.amazon.com)

ЦЕРН использует Intel® Deep Learning Boost и oneAPI для получения логических выводов без потери точности (Источник: intel.com)

LAIKA Studios* и команда Intel Applied Machine Learning использовали инструменты AI Kit для реализации безграничных возможностей покадровой анимации (Источник: intel.com)

Эталонные комплекты ИИ Intel, созданные в сотрудничестве с Accenture, предназначены для ускорения внедрения ИИ в различных отраслях. Это предварительно созданные ИИ с открытым исходным кодом и значимым корпоративным контекстом как для внедрения ИИ с нуля, так и для стратегических изменений в существующих решениях ИИ. (Источник: intel.com)

Intel заявила, что ее оптимизации, в которых также используется набор инструментов OpenVino, ориентированный на логические выводы, позволили повысить производительность обучения на 20% и повысить производительность логических выводов для модели контроля качества на 55% по сравнению со стандартной реализацией Accenture. (Источник: theregister.com)

Инструментарий Intel oneAPI упрощает создание приложений, которые могут работать на различных типах микросхем. По заявлению компании, oneAPI сокращает объем кода, который необходимо изменить при переносе приложения с одной процессорной архитектуры на другую. В результате разработчики могут быстрее выполнять программные проекты. (Источник: www.siliconangle.com)

Почему это важно. Разработчики стремятся внедрить искусственный интеллект в свои решения, и справочные комплекты способствуют достижению этой цели. Эти комплекты основаны на портфолио программного обеспечения Intel для искусственного интеллекта, состоящего из комплексных инструментов и оптимизаций инфраструктуры, и дополняют его. Эти инструменты, созданные на основе открытой, основанной на стандартах, модели гетерогенного программирования oneAPI, которая обеспечивает производительность для нескольких типов архитектур, помогают специалистам по обработке и анализу данных обучать модели быстрее и с меньшими затратами за счет преодоления ограничений проприетарных сред. (Источник: intel.com)

Проекты, использующие Modin:
https://github.com/ludwig-ai — 8,7 тыс. звезд
https://github.com/flyteorg — 3,1 тыс. звезд
https://github.com/unionai-oss — 2 тыс. звезд
https://github.com/sfu-db — 1,5 тыс. звезд
https:/ /github.com/ray-project — 24,2 тыс. звезд
https://github.com/jmcarpenter2/swifter — 2,2 тыс. звезд
https://github.com/ml-tooling /ml-workspace -2,9 тыс. звезд
Примечание. Я перечислил здесь лишь несколько проектов, которые используют более 800 репозиториев.

В эпоху, когда код пишет код, для людей чрезвычайно важно оптимизировать свой стиль работы и время.

В этой области происходит много всего, но стоит изучить Modin и другие пакеты в наборе инструментов Intel oneAPI. Разумное использование инструментов и выбор правильного инструмента для работы является ключом к легкому достижению ваших целей и опережению кривой.

Еще рано говорить о том, что каждый специалист по данным должен перейти на наборы инструментов Intel oneAPI, но исследовать новые области стоит.

Счастливого обучения!!