Как специалист по данным, вы знаете, как сложно работать с набором данных из более чем 5 миллионов записей с более чем 100 столбцами, верно?
Существует более 100 пакетов Python и оптимизации, выполненные в популярных пакетах специалистов по данным, таких как Pandas, Numpy, scikit-learn и многих других.
Даже несмотря на то, что все вклады с открытым исходным кодом и сопровождающие усердно работают над объединением PR и подготовкой последних версий каждого пакета и распространением их для публичного использования. Это не просто быстро или недостаточно для нашего варианта использования.
В чем тогда решение? Intel недавно выпустила собственный набор инструментов для специалистов по данным. В основном это оболочка для существующих пакетов Python.
Некоторые предложения для AI Analytics Toolkit,
Modin — ускорьте работу с Pandas
Modin сияет и дает нам заметную производительность при выполнении операций с большими наборами данных, где Panadas борется или замедляется. В основном ускорение связано с тем, что Modin использует все ядра вашего процессора для выполнения вычислений.
Примечание. Это всего лишь один пакет в наборе инструментов Intel oneAPI Analytics.
Простой тест производительности:
Статистика GitHub:
Загрузки — более 5 миллионов
Первоначальный выпуск — начиная с 2018 г.
Последний выпуск — 26 января 2023 г.
Лицензия — лицензия Apache-2.0< br /> Звезды — 8,4 тыс. звезд
Наблюдатели — 108 просмотров
Вилки — 592 вилки
Вот некоторые другие игроки в этом пространстве,
Познакомьтесь с инструментами Intel oneAPI,
28 ноября 2022 года Amazon объявила на своей конференции re:Invent 2022, что Modin будет предлагаться как часть AWS Glue и SDK для Pandas. (Источник: aws.amazon.com)
ЦЕРН использует Intel® Deep Learning Boost и oneAPI для получения логических выводов без потери точности (Источник: intel.com)
LAIKA Studios* и команда Intel Applied Machine Learning использовали инструменты AI Kit для реализации безграничных возможностей покадровой анимации (Источник: intel.com)
Intel заявила, что ее оптимизации, в которых также используется набор инструментов OpenVino, ориентированный на логические выводы, позволили повысить производительность обучения на 20% и повысить производительность логических выводов для модели контроля качества на 55% по сравнению со стандартной реализацией Accenture. (Источник: theregister.com)
Инструментарий Intel oneAPI упрощает создание приложений, которые могут работать на различных типах микросхем. По заявлению компании, oneAPI сокращает объем кода, который необходимо изменить при переносе приложения с одной процессорной архитектуры на другую. В результате разработчики могут быстрее выполнять программные проекты. (Источник: www.siliconangle.com)
Почему это важно. Разработчики стремятся внедрить искусственный интеллект в свои решения, и справочные комплекты способствуют достижению этой цели. Эти комплекты основаны на портфолио программного обеспечения Intel для искусственного интеллекта, состоящего из комплексных инструментов и оптимизаций инфраструктуры, и дополняют его. Эти инструменты, созданные на основе открытой, основанной на стандартах, модели гетерогенного программирования oneAPI, которая обеспечивает производительность для нескольких типов архитектур, помогают специалистам по обработке и анализу данных обучать модели быстрее и с меньшими затратами за счет преодоления ограничений проприетарных сред. (Источник: intel.com)
Проекты, использующие Modin:
https://github.com/ludwig-ai — 8,7 тыс. звезд
https://github.com/flyteorg — 3,1 тыс. звезд
https://github.com/unionai-oss — 2 тыс. звезд
https://github.com/sfu-db — 1,5 тыс. звезд
https:/ /github.com/ray-project — 24,2 тыс. звезд
https://github.com/jmcarpenter2/swifter — 2,2 тыс. звезд
https://github.com/ml-tooling /ml-workspace -2,9 тыс. звезд
Примечание. Я перечислил здесь лишь несколько проектов, которые используют более 800 репозиториев.
В эпоху, когда код пишет код, для людей чрезвычайно важно оптимизировать свой стиль работы и время.
В этой области происходит много всего, но стоит изучить Modin и другие пакеты в наборе инструментов Intel oneAPI. Разумное использование инструментов и выбор правильного инструмента для работы является ключом к легкому достижению ваших целей и опережению кривой.
Еще рано говорить о том, что каждый специалист по данным должен перейти на наборы инструментов Intel oneAPI, но исследовать новые области стоит.
Счастливого обучения!!