Обучение10 мин чтения

Как создать тест для сотрудников: пошаговое руководство

Коротко о статье

Тестирование сотрудников — один из самых быстрых способов понять, работает ли обучение. Но между «набросать десять вопросов» и «создать валидный инструмент оценки» — пропасть. В статье разбираем 8 последовательных шагов создания теста: от определения цели и выбора формата вопросов до настройки проходного балла, пилотного запуска и анализа результатов. Отдельно рассматриваем правила написания вопросов по таксономии Блума, аналитику тестовых заданий (индекс сложности, индекс дискриминативности), меры защиты от списывания и принципы доступности тестов.

Компания запускает новый регламент работы с клиентскими рекламациями. HR-отдел создаёт тест из пятнадцати вопросов, рассылает ссылку, через три дня получает отчёт: 94 % сотрудников сдали с первой попытки. Руководство довольно — до момента, когда аудит показывает, что половина персонала не может описать процедуру своими словами. Тест измерял не знание процесса, а способность найти ответ в открытом регламенте на соседней вкладке.

Это типичный результат теста, созданного без методологии. Хорошо спроектированный тест — это не список вопросов, а диагностический инструмент с понятной целью, выверенной сложностью и встроенной защитой от обесценивания результатов. Ниже — восемь шагов, которые превращают набор вопросов в работающий инструмент проверки знаний сотрудников.

Шаг 1. Определите цель тестирования

Тест без цели — анкета ради галочки. Прежде чем писать первый вопрос, зафиксируйте: зачем вы тестируете и какое решение примете на основе результатов.

Четыре базовые цели корпоративного тестирования:

  • Диагностика перед обучением. Выявить текущий уровень знаний, чтобы адаптировать программу. Результаты не влияют на оценку сотрудника — только на маршрут обучения.
  • Проверка усвоения после курса. Убедиться, что обучение достигло цели. Привязана к конкретным учебным целям модуля или курса.
  • Сертификационная оценка. Подтвердить компетентность для допуска к определённым задачам: работа с оборудованием, общение с клиентами, доступ к конфиденциальным данным.
  • Периодическая проверка. Убедиться, что знания не деградировали со временем. Особенно критична для требований охраны труда и комплаенса.

Цель определяет всё остальное: формат вопросов, проходной балл, допустимое время, последствия провала. Диагностический тест перед обучением может быть лёгким и коротким — его задача не отсеивать, а картировать. Сертификационный тест должен быть строгим, с высоким порогом прохождения и защитой от списывания.

Шаг 2. Выберите формат вопросов

Формат вопроса — это не стилистический выбор, а инструментальный. Каждый тип задания измеряет разные когнитивные процессы и подходит для разных целей.

Вопросы с множественным выбором (Multiple Choice). Один правильный ответ из четырёх-пяти вариантов. Самый распространённый формат: легко автоматизировать, объективно оценивать, анализировать статистически. Подходит для проверки знания фактов, понимания концепций, применения правил. Слабое место — не измеряет способность генерировать ответ самостоятельно.

Верно/Неверно (True/False). Бинарный выбор. Быстро проходится, но вероятность угадывания — 50 %. Используйте для проверки распространённых заблуждений: «Клиент имеет право вернуть товар без чека в течение 14 дней — верно или неверно?». Не подходит как основной формат теста — только как дополнение.

Сопоставление (Matching). Соединить элементы двух списков: термины и определения, ситуации и действия, продукты и характеристики. Эффективен для проверки классификации и систематизации знаний. Важно: количество элементов в правом списке должно превышать количество в левом, иначе последний пункт угадывается автоматически.

Открытые вопросы (Open-Ended). Сотрудник формулирует ответ самостоятельно. Измеряет глубокое понимание и способность к синтезу, но требует ручной проверки или продвинутых алгоритмов NLP. Используйте точечно — для ключевых компетенций, где важно именно умение формулировать.

Сценарные вопросы (Scenario-Based). Описание рабочей ситуации с выбором оптимального действия. Лучший формат для проверки применения знаний в контексте. «Клиент сообщает, что товар сломался через два месяца после покупки. Гарантийный срок — 12 месяцев. Какой ваш первый шаг?». Сценарные задания хорошо дополняют квизы и викторины, которые можно встраивать в регулярное обучение.

Оптимальный тест комбинирует два-три формата. Начните с фактологических вопросов (множественный выбор), перейдите к пониманию (сопоставление), завершите применением (сценарии).

Запустите HR-платформу за 1 день

Оценка 360°, обучение, ИПР, геймификация и аналитика — всё в одном

Записаться на демо

Шаг 3. Напишите вопросы по таксономии Блума

Таксономия Блума — иерархия когнитивных процессов от простого запоминания до создания нового. Она помогает калибровать вопросы по глубине мышления, которую они требуют.

Знание (запоминание). «Какой срок рассмотрения клиентской претензии по внутреннему регламенту?» — чистое воспроизведение факта.

Понимание. «Объясните, почему срок рассмотрения претензии ограничен пятью рабочими днями» — сотрудник должен объяснить логику, а не воспроизвести цифру.

Применение. «Клиент подал претензию в пятницу вечером. К какому дню вы обязаны дать ответ?» — нужно применить правило к конкретной ситуации.

Анализ. «Сравните два сценария обработки претензии и определите, в каком из них допущена ошибка» — требуется разбор и сопоставление.

Оценка. «Менеджер предлагает увеличить срок рассмотрения претензий до десяти дней, чтобы снизить нагрузку на отдел. Оцените последствия этого решения» — аргументация и суждение.

Создание. «Предложите процедуру приоритизации претензий при пиковой нагрузке» — генерация нового решения.

Для стандартного теста после обучения оптимальное распределение: 20 % вопросов на знание и понимание, 50 % на применение и анализ, 30 % на оценку и создание. Тест, состоящий только из вопросов первого уровня, проверяет память, а не компетентность.

Шаг 4. Настройте уровни сложности

Тест, в котором все вопросы одинаковой сложности, — плохой диагностический инструмент. Он не различает сильных и слабых сотрудников, потому что все либо проходят, либо проваливаются.

Используйте трёхуровневую модель:

  • Базовый уровень (30 % вопросов). Должен ответить любой сотрудник, прошедший обучение. Правильный ответ ожидается у 80–90 % тестируемых. Эти вопросы предотвращают фрустрацию и дают ощущение прогресса.
  • Средний уровень (50 % вопросов). Требует уверенного владения материалом. Ожидаемая правильность — 50–70 %. Это ядро теста, определяющее основную дифференциацию.
  • Продвинутый уровень (20 % вопросов). Различает хороших и отличных. Ожидаемая правильность — 30–50 %. Сценарные вопросы с неочевидными нюансами, требующие переноса знаний на нестандартные ситуации.

Такое распределение создаёт нормальное распределение результатов, которое позволяет принимать обоснованные кадровые решения и планировать индивидуальные траектории развития.

Шаг 5. Установите проходной балл

Проходной балл — это не произвольная цифра. Его определяет цель теста и последствия ошибки.

Метод Ангоффа — самый распространённый подход. Соберите трёх-пятерых экспертов (опытных сотрудников, руководителей). Для каждого вопроса пусть каждый оценит: «Какова вероятность, что минимально компетентный сотрудник ответит правильно?». Среднее по всем вопросам — рекомендуемый проходной балл.

Ориентиры для разных типов тестов:

  • Диагностический (до обучения): проходной балл не устанавливается.
  • Проверка усвоения: 70–80 %.
  • Сертификационный (некритичные процессы): 80–85 %.
  • Сертификационный (безопасность, комплаенс): 90–100 %.

Обязательно определите, что происходит при непрохождении: повторная попытка через N дней, дополнительное обучение, ограничение допуска. Без последствий проходной балл теряет смысл.

Шаг 6. Добавьте ограничение по времени

Таймер выполняет две функции: предотвращает поиск ответов в сторонних источниках и моделирует реальные условия, в которых решения принимаются быстро.

Формула расчёта: выделите 1–1,5 минуты на вопрос с множественным выбором, 2–3 минуты на сценарный вопрос, 3–5 минут на открытый вопрос. Умножьте на количество вопросов и добавьте 10 % буфера.

Тест из 20 вопросов (15 множественного выбора + 5 сценарных): 15 × 1,5 + 5 × 2,5 = 35 минут + 10 % = ~39 минут. Округлите до 40.

Важно: таймер не должен создавать панику. Если среднее время прохождения при пилоте значительно ниже лимита — всё в порядке. Если больше 70 % тестируемых не укладываются — лимит слишком жёсткий.

Шаг 7. Проведите ревизию и пилотный запуск

Перед массовым запуском тест должен пройти две проверки.

Экспертная ревизия. Попросите двух-трёх коллег, не участвовавших в создании, пройти тест и ответить на вопросы: есть ли двусмысленные формулировки? Можно ли ответить правильно без знания материала (за счёт подсказок в формулировке)? Есть ли вопросы, где правильный ответ спорен?

Пилотный запуск. Проведите тест на группе из 15–30 человек. Эта группа должна отражать целевую аудиторию по уровню опыта и должностям. Пилот даёт статистику, без которой невозможно оценить качество вопросов: процент правильных ответов по каждому заданию, среднее время прохождения, корреляцию между результатом по отдельному вопросу и общим баллом.

На этом этапе вы отсеиваете проблемные вопросы: слишком лёгкие (>95 % ответили правильно), слишком сложные (менее 20 % правильных), неработающие дистракторы (варианты ответа, которые никто не выбирает).

Шаг 8. Разверните и анализируйте результаты

Запуск теста — не финал, а начало цикла улучшений. Используйте конструктор контента для сборки теста на платформе и настройте автоматический сбор данных.

После первого полноценного прогона соберите аналитику и сопоставьте её с результатами оценки эффективности работы сотрудников, чтобы убедиться, что тест коррелирует с реальной производительностью.

Правила написания вопросов

Качество теста определяется качеством каждого отдельного вопроса. Вот пять правил, которые отсекают большинство ошибок.

Один вопрос — одна идея. «Какой срок рассмотрения претензии и кто несёт ответственность за соблюдение сроков?» — два вопроса в одном. Сотрудник может знать ответ на первую часть и не знать на вторую. Разделите.

Избегайте отрицательных формулировок. «Что из перечисленного НЕ является…» — когнитивно тяжёлая конструкция, которая проверяет внимательность, а не знания. Если отрицание неизбежно, выделите «НЕ» жирным шрифтом или заглавными буквами.

Рандомизируйте порядок вариантов ответа. Правильный ответ не должен систематически стоять на одной позиции. Исследования показывают: если не рандомизировать, авторы неосознанно ставят правильный ответ на позицию «Б» или «В» чаще, чем на «А» или «Г».

Создавайте правдоподобные дистракторы. Дистрактор — неправильный вариант ответа. Он должен быть достаточно правдоподобным, чтобы привлечь того, кто не знает материала, но явно неверным для того, кто знает. Избегайте абсурдных вариантов — они не добавляют диагностической ценности, а лишь упрощают угадывание.

Делайте варианты ответа одинаковой длины. Правильный ответ часто оказывается самым длинным — потому что автор старается сформулировать его точно. Выравнивайте длину всех вариантов, чтобы убрать визуальную подсказку.

Аналитика тестовых заданий

После проведения теста на достаточной выборке (от 30 человек) становятся доступны три ключевых показателя, которые определяют качество каждого вопроса.

Индекс сложности (Difficulty Index, p). Доля тестируемых, ответивших правильно. p = 0,85 означает, что 85 % справились. Оптимальный диапазон для большинства вопросов — 0,40–0,80. Вопросы с p больше 0,95 не дифференцируют — их можно убрать или усложнить. Вопросы с p ниже 0,20 либо слишком сложны, либо некорректно сформулированы.

Индекс дискриминативности (Discrimination Index, D). Показывает, различает ли вопрос сильных и слабых тестируемых. Разделите результаты на верхнюю и нижнюю трети. D = (доля правильных в верхней трети) − (доля правильных в нижней трети). D выше 0,30 — хороший вопрос. D ниже 0,10 — вопрос не работает: его одинаково решают (или не решают) и сильные, и слабые. Отрицательный D — абсурд: слабые справляются лучше сильных. Такой вопрос нужно немедленно исключить и проанализировать формулировку.

Анализ дистракторов. Для каждого варианта ответа посмотрите, какой процент тестируемых его выбрал. Эффективный дистрактор привлекает не менее 5 % ответов. Если вариант «Г» не выбрал никто — он не выполняет диагностической функции и требует замены.

Регулярный анализ (после каждого цикла тестирования) превращает банк вопросов в откалиброванный инструмент. Через два-три итерации вы получите набор заданий с предсказуемой сложностью и высокой дискриминативностью.

Меры защиты от списывания

Ни один метод не устраняет нечестность полностью, но комбинация мер делает списывание невыгодным и сложным.

Рандомизация вопросов и вариантов. Каждый сотрудник получает вопросы в уникальном порядке, а варианты ответа перемешиваются внутри каждого вопроса. Это исключает сценарий «первый — A, второй — B, третий — C».

Банк вопросов с ротацией. Вместо фиксированных 20 вопросов создайте банк из 60–80 заданий. Система случайным образом выбирает нужное количество для каждого сотрудника. Два соседних коллеги получают разные наборы вопросов.

Ограничение по времени. Как описано в шаге 6, таймер сокращает возможность поиска ответов.

Одна попытка или увеличенный интервал между попытками. Если разрешены повторные попытки, установите паузу минимум в 24–48 часов и обеспечьте формирование нового набора вопросов из банка.

Прокторинг для критичных тестов. Для сертификационных экзаменов по безопасности или комплаенсу используйте веб-камеру, блокировку переключения вкладок или очный формат с наблюдателем.

Доступность тестов

Тест должен измерять знания, а не способность справиться с неудобным интерфейсом. Принципы доступности:

  • Читаемость. Используйте простой язык, короткие предложения, избегайте профессионального жаргона, если он не является предметом проверки. Уровень сложности текста не должен превышать уровня аудитории.
  • Адаптивность устройств. Тест должен корректно отображаться на мобильных устройствах, планшетах и десктопах. Если сотрудники работают в полевых условиях, мобильная версия — не опция, а требование.
  • Увеличенное время для сотрудников с особыми потребностями. Установите возможность продления лимита времени на 50–100 % по запросу.
  • Альтернативный текст для изображений. Если вопрос содержит схему или скриншот, предусмотрите текстовое описание для пользователей скринридеров.
  • Контрастность и размер шрифта. Минимальное соотношение контраста текста к фону — 4,5:1 по стандарту WCAG. Размер шрифта — не менее 16 px.

Чек-лист перед запуском

Прежде чем нажать «опубликовать», пройдитесь по финальному списку:

  1. Цель теста зафиксирована и согласована с заказчиком.
  2. Каждый вопрос привязан к конкретной учебной цели.
  3. Распределение по таксономии Блума соответствует целям: не более 20 % вопросов на чистое запоминание.
  4. Дистракторы правдоподобны и равной длины с правильным ответом.
  5. Нет двусмысленных формулировок и двойных отрицаний.
  6. Проходной балл рассчитан методом Ангоффа или аналогичным.
  7. Таймер установлен и проверен на пилотной группе.
  8. Рандомизация вопросов и вариантов включена.
  9. Банк вопросов содержит минимум тройной запас относительно длины одного теста.
  10. Аналитика настроена: индекс сложности, дискриминативность, анализ дистракторов.

Тест — это живой инструмент. После каждого цикла тестирования анализируйте результаты, заменяйте неработающие вопросы, калибруйте сложность. Через три-четыре итерации вы получите банк заданий, которому можно доверять — и который действительно измеряет то, что вам нужно измерить.

Запустите HR-платформу за 1 день

Оценка 360°, обучение, ИПР, геймификация и аналитика — всё в одном

Записаться на демо
Эрнест Бархударян

Автор статьи

Эрнест Бархударян

CEO HRBP.ru

17 лет в IT: запускал и масштабировал продукты для десятков компаний. В большинстве из них онбординг, обучение и оценка в разных системах — и непонятно как развивать навыки персонала, чтобы люди росли внутри компании. Разработал и запустил HRBP.ru — платформу, в которой сам хотел бы работать. Эксперт РБК Компании.

Похожие статьи

Популярное в блоге