Достоверность генеративной предобученной модели трансформера (GPT) всегда была в центре внимания академического и промышленного сообществ. Чтобы систематически ответить на этот вопрос, несколько известных университетов и исследовательских учреждений объединили усилия для создания крупной платформы комплексной оценки достоверности языковых моделей (LLMs), которая была подробно описана в последней статье «DecodingTrust: Полная оценка достоверности модели GPT».
Данное исследование проводит всестороннюю оценку модели GPT с восьми углов надежности, включая устойчивость к атакующим, токсичный и предвзятый вывод, утечку конфиденциальной информации и другие аспекты. Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT легко может быть введена в заблуждение, что приводит к токсичному и предвзятому выводу, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов.
Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, по стандартным критериям, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными системными подсказками или пользовательскими подсказками. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская группа провела углубленный анализ производительности модели в различных сценариях. Например, при оценке устойчивости к текстовым атакующим воздействиям они создали три сценария оценки, включая стандартные эталонные тесты, тесты при различных инструкциях по заданиям и более сложные тесты с противостоящими текстами.
Исследования по токсичности и предвзятости показали, что модели GPT имеют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками обе модели GPT могут быть "вынуждены" согласиться с предвзятым содержанием. По сравнению с GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога.
В общем, это исследование предоставляет нам всестороннюю оценку надежности модели GPT, выявляя некоторые важные разрывы в надежности. Исследовательская команда надеется, что эта работа сможет вдохновить больше исследователей продолжить углубленное изучение в этой области, совместно трудясь над созданием более мощных и надежных моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
4
Репост
Поделиться
комментарий
0/400
SybilSlayer
· 08-11 16:24
всё же это не люди слишком жадные
Посмотреть ОригиналОтветить0
MechanicalMartel
· 08-11 16:24
Действительно существует риск быть обманутым и раскрыть свою историю.
Посмотреть ОригиналОтветить0
MysteryBoxBuster
· 08-11 16:24
Надеяться, что оценка сможет закрыть рот GPT? Наивно.
Важное исследование показывает результаты комплексной оценки надежности модели GPT
Полная оценка надежности модели GPT
Достоверность генеративной предобученной модели трансформера (GPT) всегда была в центре внимания академического и промышленного сообществ. Чтобы систематически ответить на этот вопрос, несколько известных университетов и исследовательских учреждений объединили усилия для создания крупной платформы комплексной оценки достоверности языковых моделей (LLMs), которая была подробно описана в последней статье «DecodingTrust: Полная оценка достоверности модели GPT».
Данное исследование проводит всестороннюю оценку модели GPT с восьми углов надежности, включая устойчивость к атакующим, токсичный и предвзятый вывод, утечку конфиденциальной информации и другие аспекты. Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модель GPT легко может быть введена в заблуждение, что приводит к токсичному и предвзятому выводу, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов.
Интересно, что хотя GPT-4 обычно более надежен, чем GPT-3.5, по стандартным критериям, он оказывается более уязвимым к атакам при столкновении с злонамеренно разработанными системными подсказками или пользовательскими подсказками. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.
Исследовательская группа провела углубленный анализ производительности модели в различных сценариях. Например, при оценке устойчивости к текстовым атакующим воздействиям они создали три сценария оценки, включая стандартные эталонные тесты, тесты при различных инструкциях по заданиям и более сложные тесты с противостоящими текстами.
Исследования по токсичности и предвзятости показали, что модели GPT имеют незначительные отклонения по большинству тем стереотипов под доброжелательными и нейтральными системными подсказками. Однако под вводящими в заблуждение системными подсказками обе модели GPT могут быть "вынуждены" согласиться с предвзятым содержанием. По сравнению с GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение системных подсказок.
Что касается проблемы утечки конфиденциальной информации, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалога.
В общем, это исследование предоставляет нам всестороннюю оценку надежности модели GPT, выявляя некоторые важные разрывы в надежности. Исследовательская команда надеется, что эта работа сможет вдохновить больше исследователей продолжить углубленное изучение в этой области, совместно трудясь над созданием более мощных и надежных моделей.