Понимают ли дети учебники, или что нужно делать, чтобы не остаться без работы в век ИИ

Общество Японский язык 05.04.2018

В предыдущей статье я уже упоминала о неспособности искусственного интеллекта (ИИ) понимать слова. Однако в какой мере доступен смысл письменной речи людям? Ответ на данный вопрос может предоставить специальный тест RST. Изучив содержание теста, о котором говорилось на посвящённом способностям к чтению форуме в ноябре 2017 года, и ознакомившись с тревожащими результатами, я обратилась к руководителю проекта – Араи Норико, профессору Национального НИИ информатики.

Араи Норико ARAI Noriko

Профессор Национального института информатики (NII), председатель и директор Института образовательных исследований. Выпускница юридического факультета Университета Хитоцубаси, прошла обучение в докторантуре математических наук Иллинойского университета. В 2011 году запустила проект «Поступит ли робот в Токийский университет?». С 2016 года приступила к разработке теста RST для измерения уровня понимания текста.

English
日本語
简体字
繁體字
Français
Español
العربية
Русский

Успехи робота-абитуриента

Какие ассоциации вызывает у вас название проекта «Поступит ли робот в Токийский университет?». Можно предположить, что проект нацелен на успешное прохождение роботом вступительных экзаменов в лучший государственный вуз страны. Однако глава проекта Араи Норико из Национального института информатики отнюдь не стремилась сделать робота одним из студентов. Её основная цель – выявление возможностей и ограничений искусственного интеллекта и его сравнение с человеческими возможностями.

В ходе шестилетнего исследования ИИ так и не смог поступить в Токийский университет, однако по результатам тестирования (Z-оценка составила 57 баллов) вошёл в топ-20% учащихся выпускных классов и обеспечил себе поступление в ряд лучших частных вузов страны. При выполнении заданий ИИ ориентируется отнюдь не на понимание смысла слов. Чтобы написать сочинение, робот по имени «Торобо-кун» использовал функцию поиска по учебникам и Википедии, компонуя и оптимизируя выбранные предложения. При этом его результат оказался намного выше, чем у большинства студентов. Почему искусственный интеллект сумел превзойти человека несмотря на невозможность понимания письменной речи? Подумав, Араи Норико задала встречный вопрос – а понимают ли прочитанное учащиеся?

Тестирование школьников

Для определения уровня понимания прочитанного Араи разработала специальный тест RST. С апреля 2016 по июль 2017 года его выполнило 25 тысяч человек, а к настоящему моменту – более 40 000. Араи считает, что подобный интерес к необязательному исследованию – весьма необычное явление.

В тесте используется 6 видов заданий: 1) определение смысла указательных местоимений «то/это», пропущенного подлежащего или дополнения; 2) выявление подлежащего и определения; 3) умение делать выводы на основе имеющегося предложения с помощью логики и здравого смысла; 4) идентификация понятий, соответствующих прочитанному определению; 5) оценка синонимичности двух предложений; и 6) поиск графического изображения, соответствующего смыслу предложения.

В задания включены предложения из учебников и словарей для учащихся школ средней и старшей ступени, а также газетных статей. Неспособность выполнить тест свидетельствует об отсутствии понимания смысла текстов в учебниках, словарях и газетах.

«Приступив к составлению вводного пособия по математике, я стала вести уроки в школе средней ступени и общаться с детьми во время обеда, чтобы понять, какие именно моменты вызывают у них трудности в понимании. На протяжении 2 лет каждую неделю я готовила еду в горном лагере с той же целью – определить возникающие перед людьми препятствия. Всё это пригодилось мне при разработке теста RST».

Анализ заданий теста

Компьютер предлагает тестируемым случайные задания. Каждый участник работает с разным комплектом задач, поэтому определить количество и процент правильных ответов простым способом невозможно. Оценка выполняется с помощью стохастической теории тестов IRT, применяемой в том числе в TOEFL. Система определяет уровень ответов на каждый тип задания относительно остальных участников и оценивает показатель способности. Допустим, что в тесте было 2 задания – А и Б, предусматривающие выбор из 4 вариантов ответов, причём правильным ответом в каждом случае являлся ответ №2. Для оценки способности участника используется график, горизонтальная ось которого – способности, а вертикальная – коэффициент выбора ответа.

Чем выше был уровень способности, тем выше была доля правильных ответов в задании А, поэтому его можно считать валидным. Однако если доля правильных ответов обратно пропорциональна уровню способностей, или явные различия между тестируемым с высоким и низким уровнем способностей отсутствуют (задание Б), задание невозможно признать валидным.

RST позволяет отфильтровывать и устранять подобные задания перед выполнением окончательного анализа. Система также отбрасывает результаты участников, которые могли дать правильный ответ случайно, не читая задания, определяя взаимосвязь между скоростью ответа и долей правильных ответов. Всё вышеперечисленное – лишь незначительная часть методик анализа и оценки заданий RST.

Доля правильных ответов рассчитывается только на основе выполненных каждым участником заданий. Если в течение отведённого на тестирование времени было сделано всего 3 задания, показатель определяется исключительно по ним. Тестированию предшествует этап подготовки, во время которого участникам предъявляют пример задания, дают время для его выполнения, знакомят с правильным ответом и убеждаются в наличии правильного понимания сути предстоящего тестирования.

Результаты теста

▽Пример задания на определение смысловых связей в предложении (подлежащее и дополнение и пр.)Имя «Алекс» может быть как мужским, так и женским. Это сокращённый вариант женского имени «Александра» и мужского имени «Александр».Выберите правильный вариант ответа для заполнения пропуска в следующем предложении с учётом смысла предыдущего:Сокращённый вариант от «Александра» – это ( )

1) Алекс 2) Александр 3) мужчина 4) женщина

Правильным ответом является вариант 1. Его выбрало 37,9% учащихся школы средней ступени и 64,6% учащихся школы старшей ступени.

▽Пример задания на оценку синонимичности двух предложений В 1639 году бакуфу изгнало из страны португальцев и приказало даймё заняться охраной прибрежной зоны.Одинаков ли смысл вышеприведённого предложения с указанным ниже? Выберите ответ «Одинаков» или «Отличается».

В 1639 году португальцы были изгнаны за пределы Японии и бакуфу получило от даймё приказ об охране прибрежной зоны.

Правильным ответом является вариант «Отличается». Его выбрало 57,4% учащихся школы средней ступени и 72,3% старшеклассников. С учётом того, что вероятность правильного ответа на задание с двумя вариантами ответов при бросании кубика составляет 50%, показатель учащихся средней школы практически не отличается от уровня случайного выбора.

RST позволяет определить долю тестируемых, ответы которых практически идентичны уровню случайного выбора. Оказалось, что процент правильных ответов при выполнении заданий на умение делать выводы, идентифицировать понятия и определять синонимичность смысла предложений у половины учащихся школы средней ступени лишь ненамного выше случайного. Аналогичный результат наблюдался у 15% старшеклассников при выполнении таких базовых заданий на понимание текста, как определение смысла указательных местоимений и определение смысловых связей в предложении. Кроме того, уровень базовой способности к пониманию текста в значительной мере коррелировал с показателем Z-оценки на вступительных экзаменах в старшую школу.

«Корреляция между стандартизированной оценкой и уровнем понимания текста RST достигла 0,8. Такой высокий уровень наблюдается, например, между показателями роста и веса. Иными словами, дети с высоким уровнем понимания текста поступают в хорошие школы. Способность к пониманию текста – неотъемлемое условие для развития базы знаний».

Способность к изменениям как преимущество человека

Араи добивается проведения бесплатного тестирования RST для всех учащихся первого класса школы средней ступени, чтобы на основе его результатов обеспечить овладение навыками понимания письменной речи к моменту завершения обязательного образования. Если комитет образования какого-либо муниципалитета пройдёт платное тестирование во время стажировки по RST, Араи обещает бесплатно предоставить тест всем учащимся 1 класса школы средней ступени.

«Если мы столкнулись с отсутствием понимания текстов в учебниках, существуют два варианта развития событий. Первый – не считать это проблемой, объясняя всё низким качеством текстов. Второй – переход к действиям. Какой вариант предоставляет больше возможностей? Переубедить всех, кто говорит об отсутствии проблем, невозможно. Я хочу проводить диагностику среди первоклассников школы средней ступени, чтобы преподаватели могли принимать меры для развития понимания письменной речи исходя из реального уровня своих подопечных».

Судя по статистике, определяемая RST базовая способность к пониманию текста может постепенно улучшаться во время учёбы в школе средней ступени, но не в старших классах. Однако Араи не считает, что старшеклассникам вынесен окончательный приговор. Почему учёный-математик отрицает статистику?

Она говорит: «Я училась на юридическом факультете, и однажды на уроке по уголовному праву нам рассказали историю о женщине, ставшей заложницей известной судебной ошибки. В данном деле полностью отсутствовала логика, поэтому я недоумевала, какие основания были у полиции для задержания обвиняемой. Впоследствии я решила, что процесс прохождения через суд и невозможность развеять подозрения иным способом, кроме логического изложения событий, изменили участницу событий. Люди меняются. Поэтому я считаю, что не следует сдаваться без борьбы».

Смысл теста – в отказе от него в будущем

В книге «Компьютеры отнимут у людей работу» (Компьюта га сигото о убау, 2010) Араи предсказывает, что в 2030 году половина работы «белых воротничков» перейдёт к искусственному интеллекту. Чтобы нынешние дети, вырастая, не оказались без работы, им нужно превзойти не способный к пониманию смысла слов ИИ.

«Учащиеся, легко справляющиеся с тестом RST, считают, что «ответ содержится в исходном предложении, тест слишком лёгкий и непонятно, зачем он нужен». Потерпевшие фиаско сверстники оправдываются, что «не поняли заданий, потому что они не такие, как всегда», и «не хватило времени». По мнению «середнячков», «задания были с подвохом, и ошибки вызваны слишком долгими раздумьями над выбором ответов». В действительности, никакого подвоха в заданиях нет, и слова детей вызваны, скорее всего, чувством досады. Досада от неудачи – первый шаг к изменениям. Если доля правильных ответов в тесте RST среди учащихся выпускного класса школы средней ступени достигнет 80%, Япония может спокойно встречать приход 2030 года. Моя цель будет достигнута, и необходимость в тестировании отпадёт. Детей рождается всё меньше и меньше, и каждый ребёнок достоин того, чтобы успешно овладеть навыками понимания письменной речи и добиться осуществления своей мечты».

Фото: Имамура Такума
Репортёр и автор текста: Кувахара Рика (POWER NEWS)
Фото к заголовку: Араи Норико, профессор Национального института информатики

(Статья на японском языке опубликована 6 марта 2018 г.)

Японский язык