Facebook открыла код PyText, библиотеки для обработки естественной речи

Facebook открыла исходный код PyText, библиотеки для обработки устной и письменной речи. По мнению разработчиков, такой шаг должен ускорить развитие проекта.

Сфера применения PyText

NLP-библиотека (Natural Language Processing — обработка естественной речи) используется в нейросетях для обработки письменной и устной речи. По словам разработчиков, инструмент полезен для классификации документов, разметки речевых последовательностей, семантического анализа и многозадачного моделирования.

Структура библиотеки позволяет легко перейти от разработки NLP-системы к практическому применению. Инженеры компании утверждают, что с использованием PyText реализация модели нейросети, распознающей человеческую речь, займёт всего несколько дней.

Особенности библиотеки

  • PyText основана на PyTorch, фреймворке с развитой экосистемой, поэтому модели, созданные с помощью NLP-библиотеки, легко публиковать.
  • В состав инструмента входит несколько уже готовых моделей. Структура PyText позволяет модифицировать их с небольшими трудозатратами, что упрощает разработку.
  • Разработчики включили в библиотеку специальные модели, использующие контекст речи для лучшего распознавания сути высказываний. Они протестированы на датасетах с помощью инструмента M Suggestions (одна из функций помощника) в Facebook Messenger.
  • PyText может проводить распределённое обучение, а также работать с несколькими моделями одновременно.
  • Интеграция с фреймворком PyTorch позволяет библиотеке конвертировать модели в ONNX и использовать движок Caffe2 для их экспорта.
  • Масштабирование собственных моделей в PyTorch ограниченно из-за лимита многопоточности принципа Global Interpreter Lock в Python.
  • Экспортированные модели позволяют использовать возможности C++ для повышения производительности.

Компания уже применяет PyText на практике. По словам разработчиков, созданные с её помощью модели ежедневно делают более миллиарда прогнозов на Facebook. Открытие исходного кода и свободная лицензия должны привлечь к совершенствованию инструмента независимых специалистов. При этом инженеры компании не устраняются от дальнейшей разработки системы. Они намерены сконцентрировать усилия на использовании её возможностей в сфере мобильных устройств.

Исходный код инструмента размещён в репозитории GitHub. Лежащая в основе NLP-библиотеки стабильная версия фреймворка PyTorch 1.0 вышла в декабре 2018 года.

tproger.ru