Команда специалистов по глубокому машинному обучению из Google DeepMind и Оксфордского университета обучила искусственный интеллект читать тексты и отвечать на вопросы о содержании прочитанного. В этом им «нечаянно» помогли вебсайты Daily Mail и CNN, открывшие доступ к огромному архиву своих новостей. С результатами работы можно ознакомиться в препринте на сайте Корнельского университета.
В настоящий момент глубокое обучение нейросетей, особенно связанное с распознаванием разного рода изображений, переживает настоящий расцвет. Он, в первую очередь, связан с возможностью собирать гигантские базы данных и статистику, необходимые для тренировки нейросетей. Благодаря всевозможным онлайн-сервисам, где энтузиасты или простые пользователи помогают за сжатые сроки собрать такие базы данных (например, с изображением птиц), или накопить статистику ошибок и корректировок (как в случае с определением возраста), возможности искусственного интеллекта в этих сферах вышли на совершенно новый уровень. Однако такая элементарная для человека задача как чтение и понимание текста до сих пор остается для компьютеров непосильной.
Главная проблема – отсутствие хорошо аннотированных баз структурированных текстов для тренировки и обучения. Они должны включать в себя как тексты для чтения, так и специальные описания его ключевых моментов и структуры, причем сделанных таким образом, чтобы словесные последовательности из описания не встречались в самом тексте. Иными словами, чтобы искусственный интеллект смог отвечать на вопросы по тексту, он должен ориентироваться не на частоту появления тех или иных слов и их сочетаний, а на грамматические и причинно-следственные связи внутри него. До недавнего времени создать такую базу могли только высокооплачиваемые специалисты-редакторы, что вело либо к тому, что базы были недостаточные по размерам для обучения, либо достижение необходимой полноты обошлось бы в совершенно баснословные деньги. Однако недавно ученые нашли выход из этой ситуации.
Daily Mail и CNN сделали открытыми для всеобщего доступа полные архивы своих новостей. Любая новость имеет помимо основного текста еще и такие блоки как «лид», «минилид» или «райтколл» – то есть краткую аннотацию узловых моментов любой новости и их взаимосвязей. А общее количество доступных онлайн пар текст-аннотация составил 328 000 единиц. Все вместе это создало условия для тренировки нейросетей под задачу чтения и «понимания» текстов.
Для того чтобы искусственный интеллект полагался не только на частотный анализ, но и на установление определенных связей внутри «прочитанного», в базе данных имена акторов или явлений менялись на сгенерированные коды. Например, в тексте про убийство Кеннеди будут многократно встречаться сочетания «Ли Харви Освальд», «стрелял» и «Кеннеди». И может быть полное предложение «Ли Харви Освальд стрелял в Далласе в Кеннеди». Программе может быть дан запрос «Х стрелял в Далласе в Кеннеди». Проанализировав частоту совместного появления этих слов и их относительную близость, она легко найдет ответ – «Ли Харви Освальд», поэтому на следующем шаге обучения имена кодируют сочетаниями букв и цифр «ent121 стрелял в Далласе в ent212». Ответом здесь будет уже ent121. Благодаря этому, при многократном прогоне, искусственный интеллект будет полагаться не на высокую вероятность появления какого-то слова в связке с другими, а на своего рода «смысловые» связи: «был в Далласе» + «стрелял» + «Кеннеди» = «Ли Харви Освальд».
Сформированные таким образом связи уже могут быть перенесены на другие ситуации, и в этом случае искусственный интеллект даст в ответ на запрос, например, «Кеннеди обстреляли в Далласе. Задержан Х» вновь ответ «Ли Харви Освальд», при том, что набор слов будет отличаться.
В настоящий момент программа отвечает правильно на 60 процентов запросов. Ученые предполагают, что сумеют довести количество верных ответов до 100 процентов при условии, что запросы будут грамматически просты. Будет ли программа также эффективна при менее структурированных текстах, нежели новости, пока остается под вопросом.