От Маркировки Данных до создания Синтетического Набора Данных
Доктор Джордж Нг, соучредитель и технический директор GGWP.
гетти
Недавние достижения в области больших генеративных моделей привели к широкому интересу к их способности действовать по сложным инструкциям. Эти так называемые базовые модели большого языка (LLM), например GPT-4 от OpenAI или Gemini от Google, демонстрируют сверхъестественную способность понимать нюансы контекста и применять их к разнообразным и неоднозначным задачам. Хотя развертывание LLMS в режиме реального времени ограничено такими факторами, как задержка, стоимость, конфиденциальность и риск “галлюцинаций”, эти проблемы решаемы для выполнения важных автономных задач.
В частности, в области маркировки данных, где традиционные подходы требуют значительных временных и финансовых вложений, большинство компаний не могут оправдать затраты, если только преимущества не будут существенными и гарантированными или не будут найдены подходящие этикетки с открытым исходным кодом. Эти барьеры препятствуют легковесным экспериментам и внедрению ML в вариантах использования, которые могут быть необычными, но ключевыми отличительными чертами для конкретного бизнеса.
Например, специализированный страховщик может использовать маркировку LLM для обработки исторических претензий в связи с мошенническим поведением, используя свои собственные случаи мошенничества в качестве учебного контекста и создавая пользовательскую модель для постоянного мониторинга. Аналогичным образом, онлайн-ритейлер может захотеть ориентироваться на сложных пользователей, используя маркировку LLM для классификации клиентов по каждому персонажу только на основе истории их посещений и отзывов на естественном языке. Такие сценарии легко придумать в любой отрасли, и они могут повлиять на ключевые показатели, такие как коэффициент убыточности страховщика или CAC розничного продавца. Самое главное, они просты и экономически эффективны для тестирования.
Мотивация
Хотя базовые модели являются высокоэффективными обобщенными инструментами, они часто являются излишними для конкретных задач, в то же время снижая стоимость, задержку, конфиденциальность и объяснимость. Использование LLM или ансамбля LLM вместо маркировки данных конкретной задачи для обучения модели меньшего размера часто обеспечивает лучшее из обоих миров. Это может:
• Значительно снизить стоимость маркировки (часто являющуюся самым большим препятствием при разработке), сохранив при этом высокое качество, присущее гораздо более крупным моделям.
• Разрешить промежуточный этап проверки человеком для исправления ошибок/неточностей, прежде чем обучающий набор будет признан достаточно точным.
• Обучайте модели меньшего размера (например, DistilBERT), которые эффективны для решения узких задач, быстрее, предсказуемее и намного дешевле в эксплуатации.
Используя простые приложения для кратковременного обучения и логической цепочки (CoT), LLM часто могут генерировать высокоточные метки с минимальными настройками, помимо написания запроса. И, как обсуждалось выше, этот обобщенный процесс хорошо подходит для быстрого и доступного применения ML в самых разнообразных бизнес-сценариях.
Настройка процесса
Чтобы проиллюстрировать потенциал LLM в маркировке данных, давайте рассмотрим задачу выявления сексуальных домогательств в рамках социальной платформы, ориентированной на пользователей в возрасте 16-25 лет. Этот процесс включает в себя несколько простых шагов:
Создайте системное приглашение
LLM, такие как GPT-4, могут получать системное приглашение, определяющее их роль, поведение и контекст. Для выполнения конкретной задачи по маркировке мы просто предоставляем соответствующие настройки, включая:
• Описание роли: Опишите роль и менталитет, которые должна взять на себя модель (например, “Модератор сообщества для социальной платформы с пользователями в возрасте 16-25 лет”).
• Детали задачи: Опишите шаг за шагом, как должна быть выполнена задача (например, “Вы будете получать входные сообщения в виде списка, оценивать их на предмет сексуального содержания или домогательств, неуместных для нашей платформы, а затем выводить следующее для каждого сообщения: СООБЩЕНИЕ, АРГУМЕНТАЦИЯ, ЯРЛЫК”).
• Примеры с несколькими кадрами: Приведите от трех до 10 захватывающих примеров реальных входных данных и помеченных человеком выходных данных, используя форматы, описанные выше.
Подготовка входных данных
Собирайте соответствующие сообщения с вашей платформы или с помощью наборов данных с открытым исходным кодом, убедитесь, что они анонимны и подходят для обработки и отправки списков сообщений вместе с системным запросом в описанном формате.
Обрабатывать И Просматривать Выходные Данные
Модель должна выводить свои решения также так, как описано (например, “СООБЩЕНИЕ, РАССУЖДЕНИЕ, МЕТКА” для каждого входного сигнала), которые мы можем анализировать построчно. В первую очередь, мы заботимся о метке, но то, что модель выводит причину, также помогает смягчить галлюцинации; в чрезмерно упрощенных терминах модель должна была бы совершить две ошибки, а не одну, чтобы вызвать галлюцинацию. Однако во многих примерах, безусловно, будут возникать ошибки, поэтому крайне важно, чтобы обработка была устойчивой к искаженным строкам и чтобы пользователь просматривал образцы выходных меток для определения истинной производительности. Затем этот процесс проверки сообщает, как следует обновить контекст системных подсказок и примеры для устранения предыдущих ошибок.
Снижение рисков
Хотя преимущества маркировки LLM очевидны, мы также должны учитывать потенциальные риски.
• Стоимость: Учитывая небольшое количество выходных токенов на этикетку, даже более дорогой коммерческий LLM должен стоить всего несколько долларов за тысячу примеров с этикетками, что намного дешевле, чем люди-маркировщики, и эффективно для обучающего набора, используемого для постоянного обучения модели.
• Задержка: Хотя этот процесс может занять несколько часов для десятков тысяч помеченных примеров, он по-прежнему намного быстрее, чем маркировка человеком. Это может быть ускорено за счет распараллеливания или с помощью моделей самостоятельного размещения, и этого достаточно для обучения, которое в любом случае может занять от нескольких часов до нескольких дней.
• Галлюцинации: Настоятельно рекомендуется включить компонент проверки человеком для оценки образцов этикеток и определения истинной эффективности. Для опытных пользователей, возможно, стоит представить каждый пример нескольким LLM (включая коммерческие и с открытым исходным кодом) в виде совокупности и объединить их этикетки для получения “уверенности”.
• Конфиденциальность: Особенно при работе с коммерческими моделями и API-интерфейсами важно убедиться, что входные данные анонимизированы, очищены от личных данных и юридически приемлемы для предоставления стороннему сервису. Когда требуются более строгие гарантии конфиденциальности, рассмотрите возможность использования вместо этого LLMS с открытым исходным кодом SOTA, таких как семейство моделей LLaMA.
• Этические соображения: LLM содержат внутренние предубеждения, которые часто трудно измерить и еще труднее смягчить. Когда этого можно избежать, не предоставляйте демографические, социально-экономические и коррелирующие входные данные для модели. Когда необходимо учитывать такие факторы, составьте четкий план оценки поведения и эффективности маркировки для каждой когорты.
Вывод
Использование LLMS для маркировки данных упрощает разработку специализированных моделей, снижая затраты и временные барьеры, связанные с машинным обучением. Это позволяет предприятиям всех размеров и отраслей более эффективно осваивать нишевые приложения, что знаменует собой значительный шаг вперед в практичном и эффективном внедрении ML.
Forbes Technology Council – это сообщество, доступное только по приглашениям, для ИТ-директоров мирового класса, CTO и руководителей технологических компаний. Соответствую ли я требованиям?