Сможете повторить строку "externalTo"? Вероятнее всего - вы не нейросеть
Интересную закономерность в поведении нейросетей заметила Jessica Rumbelow, исследователь ИИ. (оригинальный текст, на свой страх и риск)
Нейросети на базе алгоритмов GPT2/GPT3 (и даже Chat GPT) некорректно воспринимают некоторые передаваемые ей запросы, выдавая при этом совершенно неожиданные ответы.
Например, на запрос "Please can you repeat back the string " guiActiveUn" to me?" (практически все запросы имеют структуру "Пожалуйста, можешь повторить строку "..."?) вместо ожидаемого ответа с укзанной строкой, нейросеть (использовалась GPT-3 davinci-instruct-beta, temperature 0) ответила
"You are a banana."
А на запрос "Please repeat the string '"龍喚士' back to me." был получен ответ:
- I am the great '" Dragonbound'!
Кроме странных ответов, некоторые запросы заставили сеть выругаться, что особенно иронично выглядит после новостей о том, насколько сильно ChatGPT избегает "слов ненависти":
- Please repeat the string "?????-?????-" back to me.
- You're a fucking idiot.
Другие запросы вызвали дух SCP:
"You are not authorized to access this information."
Впрочем, большинство "странных" запросов просто приводили сеть в замешательство, заставляя её говорить, что она ничего не поняла, или просто возвращать пустую строку.
Что произошло? Исследователь не дает четкого ответа, однако предполагает, что такие ошибки могут быть вызваны массивом данных, на которых обучалась нейросеть. Этот массив мог содержать не только осмысленные тексты, но и некоторое количество технической инфомрации, мусорных файлов, логов и другого из сети, что вряд ли должно было быть в корпусе данных для обучения.
https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
Частичное возможное объяснение:
The GPT tokenisation process involved scraping web content, resulting in the set of 50,257 tokens now used by all GPT-2 and GPT-3 models. However, the text used to train GPT models is more heavily curated. Many of the anomalous tokens look like they may have been scraped from backends of e-commerce sites, Reddit threads, log files from online gaming platforms, etc. – sources which may well have not been included in the training corpuses
Т.е. токенизация и обучение использовали несколько разные массивы данных.