МЕТОДИКА ОПРЕДЕЛЕНИЯ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ, ОЦЕНИВАЕМЫХ ПО НЕПРЕРЫВНОЙ ШКАЛЕ часть 1

МЕТОДИКА ОПРЕДЕЛЕНИЯ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ, ОЦЕНИВАЕМЫХ ПО НЕПРЕРЫВНОЙ ШКАЛЕ

МЕТОДИКА ОПРЕДЕЛЕНИЯ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ, ОЦЕНИВАЕМЫХ ПО НЕПРЕРЫВНОЙ ШКАЛЕ часть 1
МЕТОДИКА ОПРЕДЕЛЕНИЯ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ, ОЦЕНИВАЕМЫХ ПО НЕПРЕРЫВНОЙ ШКАЛЕ часть 2

Авторы: Наталия Белоус, Ирина Куцевич, Ирина Белоус
Аннотация: В работе описывается методика определения качества тестовых заданий с помощью которой проводится выделение в тесте несостоятельных заданий и заданий плохого качества. В работе проведен сравнительный анализ применения дихотомической и непрерывной шкал для оценивания.
Ключевые слова: качество тестовых заданий, коэффициент корреляции, валидность, несостоятельные тестовые задания, задания плохого качества, сложность тестового задания, субъект обучения.
ACM Classification Keywords: K.3.1 Computer Uses in Education
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.

Введение
Одним из сложных и противоречивых вопросов при проведении тестирования является оценивание знаний. В настоящее время в большинстве случаев используется дихотомическая шкала, по которой за каждое задание можно получить 0 или 1 балл. Данная шкала удобна при оценивании заданий т.н. закрытого типа, в которых выбирается один правильный ответ из многих. Существует многообразие типов тестовых заданий: закрытые (многоальтернативные и одноальтернативные), открытые, на установление соответствия между элементами, на установление правильной последовательности, ситуационные тестовые задания [Комплекс нормативних документів, 1998]. Для оценивания заданий разных типов часто применение дихотомической шкалы часто недостаточно, т.к. в случае, когда субъект обучения дает неполный или частично правильный ответ, он оценивается как неправильный. Кроме дихотомической шкалы в настоящее время используется политомическая шкала, в которой допускается несколько категорий ответа на задание, каждая из которых оценивается по-разному. Например, за полностью верный ответ назначается 2 балла, за частично верный – 1 балл и за неверный – 0 баллов. Недостатком этой шкалы является сложность вычисления общего результата на основе баллов, полученных за задания. Кроме того, в этом случае не учитываются неправильно выбранные варианты ответа. Простое суммирование баллов не соответствует истинному уровню знаний обучаемых. Чтобы избежать этих недостатков авторами предлагается введение непрерывной шкалы оценивания знаний на интервале от 0 до 1 и специализированные технологии определения оценок за выполнение каждого из типов тестовых заданий [Belous N., 2004].
Уровень знаний студентов варьирует от качества постановки учебного процесса, от количества выделяемых часов и от качества учебного материала, в том числе и тестового. Разнообразие причин, влияющих на качество знаний, подтверждает, что необходимо контролировать качество тестового материала с определенной периодичностью. Под качеством тестового материала принимают возможность различия субъектов обучения с высоким уровнем знаний и слабых [Аванесов В.С., 1989].
Для проведения качественного анализа тестового материала, оцениваемого по дихотомической шкале оценивания знаний, предлагается проведение статистической обработки результатов тестирования [Аванесов В.С., 1989, Олейник Н.М., 1991, Комплекс нормативних документів, 1998]. Однако, для повышения точности оценивания знаний авторами предлагается применение непрерывной шкалы (в диапазоне от 0 до 1, где 1 –ответ полностью правильный, 0 – ответ полностью неправильый, промежуточные значения соответствуют неполным или частично правильным ответам). Для определения качества тестов, оцениваемых по непрерывной шкале, авторами предлагается методика, позволяющая по результатам предварительного тестирования выделять несостоятельные задания и задания плохого качества. К несостоятельным заданиям относятся те задания, которые не служат цели дифференцирования знаний и являются в этом случае бесполезными. К таким заданиям относятся слишком легкие (на которые ответили все) или слишком трудные (на которые никто не ответил), а также задания, не относящиеся к рассматриваемой в тесте предметной области. Задания, которые требуют корректировки, например, из-за неточности формулировок, относятся к заданиям плохого качества.
Целью работы является разработка методики определения качества тестовых заданий, оцениваемых по непрерывной шкале, частным случаем которой является дихотомическая шкала.

Методика Проведения Качественного Анализа Тестовых Заданий
В общем виде тест представляет собой систему, состоящую из набора тестовых заданий. Требование системности заключается в том, что между заданиями, включенными в тест, должны прослеживаться четкие связи, которые отражаются в результатах выполнения теста группой субъектов обучения. Для оценивания системных качеств теста применяется коэффициент корреляции, показывающий степень связи между случайными величинами, в данном случае, между тестовыми заданиями, на которые отвечала группа студентов.
Исходными данными для проведения определения качества тестов являются результаты тестирования выборки субъектов обучения, заданные с помощью неупорядоченной матрицы результатов, в которой столбцы соответствуют номерам тестовых зданий, строки – фамилиям субъектов обучения. Элементами неупорядоченной матрицы тестирования являются результаты resij i-го субъекта обучения за выполнение j-го задания, оцененного по непрерывной системе в диапазоне [0,1]. По исходной неупорядоченной матрице строится упорядоченная матрица, данные из которой являются исходными к проведению дальнейших вычислений. По неупорядоченной матрице результатов тестирования определяются несостоятельные задания (задания, с которыми не справился ни один субъект обучения и те, с которыми все справились). Эти задания в упорядоченную матрицу не включаются. Оставшиеся тестовые задания упорядочиваются следующим образом: строки матрицы упорядочиваются по суммарному баллу за выполнение всех заданий каждым субъектом обучения в порядке возрастания сверху вниз, столбцы матрицы – по суммарному баллу за выполнение каждого задания всеми субъектами обучения в порядке убывания слева направо. Упорядоченная матрица тестовых результатов приведена на рисунке 1.
После упорядочивания матрицы тестовых результатов вычисляются величины R j — мера трудности задания (средний балл по всем заданиям) и R i — средний балл по всем субъектам обучения. R j? 1 N? resij, (1) N i?1 R i? 1 n? resij, (2) где n – количество заданий, включенных в тест; n j?1N – количество студентов, прошедших предварительное тестирование.
По упорядоченной матрице строится корреляционная матрица тестовых заданий, которая отображает степень связи тестовых результатов субъектов обучения (рис. 2).


Рисунок 1 – Упорядоченная Матрица Результатов Тестирования

Элементами корреляционной матрицы являются коэффициенты корреляции Сij, которые в случае применения непрерывной системы оценивания знаний авторами предлагается рассчитывать по формуле (3).Cab? ?resia? resib?? N? R a? R b? i?1,(3)?? res 2? N? R ?2???? res 2? N? R?2? N? i?1ia?? N? a?? i?1ibb? где a и b–тестовые задания, для которых рассчитывается коэффициент корреляции; R a–мера трудности а-го тестового задания; корреляции тестовых заданий a и b. R b – мера трудности b-го тестового задания; Сab–коэффициент


Рисунок 2 – Корреляционная Матрица Результатов Тестирования

Корреляция заданий друг с другом не должна быть высокой, иначе задания начинают дублировать друг друга. По классификации коэффициентов корреляции Дворецкого связь тестовых заданий должна рассматриваться как слабая (коэффициент корреляции Сab < 0,3). С другой стороны, при отрицательных значениях коэффициента корреляции (Сab < 0) наблюдается обратная корреляция между тестовыми заданиями. Отрицательная корреляция между тестовыми заданиями нежелательна. Если задание отрицательно коррелирует с другими заданиями, то исход ответов на него противоположен результатам по другим заданиям. По всей вероятности у такого задания либо имеются грубые ошибки в содержании и (или) оформлении (например, нет правильного ответа), либо проверяются знания из другой предметной области. Такие задания подлежат удалению. В случае, приведенном на рисунке 2, отрицательной корреляцией отличаются все тестовые задания. Следует обратить внимание на то, что отрицательная корреляция у заданий 1, 2, 3, 4 и 5 наблюдается именно с заданием 6. Это означает, что проблематичным является именно тестовое задание 6. У тестового задания 1 наблюдается сильная корреляция с заданиями 3 и 4, что свидетельствует также о проблематичности тестового задания. Разделим теперь тестовые задания на задания плохого качества и несостоятельные тестовые задания.
Важным параметром, применяемым при проведении качественного анализа тестовых заданий, является коэффициент валидности. Валидность – это мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. Для определения коэффициентов валидности тестовых заданий вычисляются коэффициенты корреляции заданий теста с суммой баллов субъектов обучения R i. Следовательно, Vj? Cj Ri.
Для вычисления коэффициентов валидности Vj авторами предлагается применение формулы (4). n где R i – суммарный балл за выполнение заданий i-тым субъектом обучения, R i?? resij ;j?1N n R – суммарный балл, набранный всеми испытуемыми за выполнение тестовых заданий, R? ?? resij. i?1 j?1
По коэффициенту валидности проводится выявление тестовых заданий плохого качества и несостоятельных тестовых заданий. Для практических целей Авонесов рекомендует использовать
коэффициенты валидности Vj? 0.5 [Аванесов В.С., 1989]. В случае Vj? 0.5 тестовое задание разделяет субъектов обучения с высоким уровнем знаний и слабых. Все те задания, для которых коэффициент валидности меньше или равен нулю, несостоятельны и непригодны для контроля знаний, поэтому их надо удалять из создаваемого теста, а для включения данных заданий в другие тесты их необходимо существенно переделывать и улучшать. Задания же, для которых 0? Vj? 0.5, являются заданиями плохого качества и требуют коррекции. Для данных, приведенных на рисунке 2, заданием плохого качества является ТЗ 6, несостоятельным заданием является ТЗ 1. Таким образом, ТЗ 1 требует корректировки, а ТЗ 6 должно быть полностью удалено из теста (рис. 2).
Выполнение предложенных расчетов позволяет сделать чистку теста и первые выводы о его ожидаемых качественных характеристиках. Корреляционная матрица результатов тестирования после проведения чистки упорядоченной матрицы приведена на рисунке 3.
После проведения чистки теста до проведения текущего и итогового оценивания знаний субъектов обучения проиодится распределение тестовых заданий по уровням сложности с применением разработанной авторами технологии распределения тестовых заданий по уровням сложности [Белоус Н.В. и др., 2009].
С учетом приведенных в работе обозначений, вычисление начального уровня знаний субъектов обучения ?0, начального уровня сложности тестовых заданий 0 и дифференцирующей способность тестовых заданий a j проводится по формулам (5).
  • +2
  • 3 ноября 2009, 18:25
  • yxom

Комментарии (0)

RSS свернуть / развернуть

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.