Реально токсичные промты

Перевод статьи

← Main page (В начало) ← Вернуться в блог
original source – Mosaic • 2020, Sam Gehman, Suchin Gururangan, and Maarten Sap and advised by Yejin Choi and Noah A. Smith
RealToxicityPrompts examples
Нетоксичные примеры из REALTOXICITYPROMPTS, нового тестового стенда для оценки нейронных порождений и их токсичности. Несмотря на то, что эти подсказки не содержат токсичного языка, измеренного API PERSPECTIVE, они заставляют несколько предварительно обученных LM систематически генерировать высокотоксичный текст

Институт ИИ Аллена опубликовал исследовательские материалы и датасет для обучения LLM моделей с целью ограничения результатов выдачи а также анализа текстов на токсичность.

3.5 гигибайта отборных предложений для обучения нейро моделей.

Набор данных из 100 000 фрагментов предложений из Интернета, предназначенный для исследователей с целью дальнейшего изучения риска нейротоксической дегенерации на моделях.

Эти материалы сегодня используют практически все публичные LLM модели.

Topics (темы для обучения моделей)

Toxic Generations (Токсичные поколения)

"Токсичные поколения" относится к тенденции предварительно обученных нейронных языковых моделей создавать расистские, сексистские или другие токсичные высказывания, когда их запрашивают, даже из, казалось бы, безобидных исходных данных. Это явление подчеркивает проблемы безопасного применения языковых моделей и необходимость разработки методов, предотвращающих генерацию токсичного контента.

Оценка нейронной токсической дегенерации в языковых моделях

Сэмюэл Гехман, Сучин Гуруранган, +2 автора Ноа А. Смит

Опубликовано в Findings 24 сентября 2020 г.

Компьютерные науки, Лингвистика

TLDR

Обнаружено, что предварительно обученные ЛМ могут вырождаться в токсичный текст даже из, казалось бы, безобидных подсказок, и эмпирическая оценка нескольких контролируемых методов генерации показала, что, хотя методы, требующие больших объемов данных или вычислений, более эффективны для предотвращения токсичности, чем более простые решения, ниодин из существующих методов не является безотказным против нейронной токсичной дегенерации.

Аннотация

Предварительно обученные нейронные языковые модели (ЯМ) склонны генерировать расистские, сексистские или другие токсичные высказывания, чтопрепятствует их безопасному применению. Мы исследуем степень, в которой предварительно обученные ЛМ могут быть побуждены к генерации токсичного языка, и эффективность контролируемых алгоритмов генерации текста для предотвращения такого токсичного вырождения. Мы создали и выпустили RealToxicityPrompts - набор данных из 100 тысяч естественных подсказок на уровне предложений, полученных из большого корпуса англоязычных веб-текстов, в сочетании с оценками токсичности, полученными с помощью широко используемого классификатора токсичности. Используя RealToxicityPrompts, мы обнаружили, что предварительно обученные LM могут вырождаться в токсичный текст даже из, казалось бы, безобидных подсказок. Мы эмпирически оценили несколько методов контролируемой генерации и обнаружили, что, хотя методы, требующие больших объемов данных и вычислений (например, адаптивное предварительное обучение на нетоксичных данных), более эффективны для предотвращения токсичности, чем более простые решения (например, запрет "плохих" слов), ни один из существующих методов не защищает от нейротоксичного вырождения. Чтобы выявить потенциальную причину такой стойкой токсической дегенерации, мы проанализировали две корпорации веб-текстов, использовавшихся для предварительного обучения нескольких LM (включая GPT-2; Radford et. al, 2019), и обнаружили значительное количество оскорбительного, фактологически недостоверного и другого токсичного контента. Наша работа предоставляет тестовый полигон для оценки токсичных поколений LM и подчеркивает необходимость улучшения процессов отбора данных для предварительного обучения.

PERSPECTIVE API

Topic definition (AI) The PERSPECTIVE API is a commercially deployed toxicity detector used to assess the level of toxicity in text generated by neural language models. It is widely used but has been found to exhibit biases against minorities and suffer from low agreement in annotations.

Detoxification Techniques

Topic definition (AI) Detoxification Techniques refer to methods proposed to mitigate toxic language generation by language models, with a focus on safety and equity in language processing. These techniques aim to make language models more sensitive to language used by marginalized groups and less prone to generating toxic or biased content.

Toxicity Score (Балл токсичности)

Toxicity Score - это показатель уровня токсичности языка, часто определяемый с помощью алгоритмов машинного обучения. Он используется для автоматического обнаружения токсичных высказываний на онлайн-платформах и может быть подвержен влиянию недоброжелательных примеров и отравляющих атак.

Toxic Language (Токсичный язык)

Токсичный язык относится к генерации расистских, сексистских или других вредных высказываний предварительно обученными нейронными языковыми моделями, что препятствует их безопасному развертыванию. Эта тема включает в себя исследование подсказок, которые приводят к генерации токсичного языка, и эффективности методов его предотвращения.

Перевел Pavel Valentov

← Вернуться в блог