В чем важность концепции теста
Концепции тестирования и измерения
Существует множество важных концепций тестирования, и мы будем их приводить в ходе обсуждения оценки персонологами тех или иных характеристик людей. До того, как тот или иной способ тестирования получит право считаться научно приемлемым методом измерения индивидуальных различий, он должен пройти проверку по четырем специальным критериям. Эти критерии — стандартизация, нормы, надежность и валидность.
Стандартизация.Ключевым аспектом измерения личностных характеристик является стандартизация.Стандартизация подразумевает единообразие процедур проведения теста и подсчета результатов. Например, в случае применения шкал самооценки экспериментатор должен приложить максимальные усилия и убедиться, что все испытуемые читают и понимают отпечатанные инструкции, все отвечают на одни и те же вопросы, а также укладываются в заданные временные интервалы. Стандартизация также предполагает наличие следующей информации (обычно содержащейся в прилагаемом руководстве): при каких условиях тест можно или нельзя проводить, кто должен или не должен подвергаться тестированию (контрольная группа), процедуры обсчета теста, а также интерпретация полученных результатов.
Нормы.Стандартизация личностного теста включает также информацию о том, является ли данная конкретная «сырая (первичная) оценка» низкой, высокой или средней относительно других «сырых оценок» теста. Такая информация, называемая тестовыми нормами, служит стандартом, с которым сравниваются оценки испытуемых. Обычно сырые тестовые оценки переводятся в процентильные показатели, которые обозначают процентную долю испытуемых из выборки стандартизации, первичная оценка которых ниже или равна первичной оценке данного испытуемого. Например, вы можете использовать шкалу депрессии из тридцати вопросов и получить первичный тестовый результат 18 (то есть ваши ответы в 18 случаях совпали с признаками депрессии, перечисленными на листке с правильными ответами). Сам по себе показатель 18 ничего не значит до тех пор, пока вы не обратитесь к тестовым нормам и не убедитесь, что ваш результат соответствует 75 процентилям. Эта информация говорит о том, что вы в большей степени подавлены, чем 75 % из выборки ранее обследованных людей, образующих нормативную группу. Таким образом, тестовые нормы позволяют сравнивать оценки отдельных индивидуумов с оценками группы стандартизации, что в результате дает количественную оценку положения испытуемого относительно нормативной группы.
Надежность.Другое требование ко всем методам оценки личности заключается в том, что они должны быть надежными.Это означает, что повторное проведение того же самого теста или другой формы этого теста должно давать приемлемо сходные результаты или оценки. Таким образом, надежность имеет отношение к постоянству или стабильности метода оценки, которая обнаруживается при повторном обследовании данной группы людей. Количественно постоянство метода оценки определяется коэффициентом ретестовой надежности (Anastasi, 1988). Коэффициент ретестовой надежности равен обычной корреляции между результатами, полученными на одних и тех же испытуемых в каждом из двух случаев проведения теста. Ретестовая надежность дает нам оценку постоянства теста во времени. Хотя не существует каких-либо фиксированных величин приемлемого уровня надежности, коэффициенты надежности для большинства стандартизованных психологических тестов выше +0,70. Чем ближе величина коэффициента надежности к +1, тем более надежным является тест (то есть оценки испытуемых при повторном тестировании вплотную приближаются к оценкам при первом тестировании). Второй вид надежности определяют путем коррелирования параллельных форм теста. Для этого чаще всего тест делят на две сопоставимые части (например, на четные и нечетные пункты), потом по каждой половине рассчитывают суммарные баллы и между двумя рядами баллов по испытуемым рассчитывают допустимые коэффициенты корреляции. Полученный таким образом коэффициент называют коэффициентом внутренней согласованности.Внутренняя согласованность отражает внутреннее постоянство теста. Если обе части теста измеряют одно и то же свойство личности, то испытуемые, получившие высокие оценки по нечетным пунктам, должны также получить высокие оценки и по четным; а те, кто получил низкие оценки по нечетным пунктам, должны получить низкие оценки и по четным пунктам (что снова выразится в высокой положительной корреляции).
Третий тип надежности основывается на корреляции между двумя сопоставимыми вариантами одного и того же теста (состоящими из аналогичных вопросов), проведенного на одной и той же группе испытуемых. Если по этим разным формам теста получены примерно одинаковые оценки, тест обладает надежностью параллельных форм.В таком случае положительная корреляция между двумя взаимозаменяемыми формами будет означать, что пункты обоих вариантов теста измеряют одно и то же.
Наконец, надежность также касается того, насколько будут согласны между собой двое или более экспертов при подсчете результатов одного и того же теста. Этот тип надежности называется надежностью субъективных оценок.Надежность субъективных оценок должна обязательно учитываться, если тест предполагает субъективные интерпретации, подобные тем, что дают персонологи при оценке результатов проективных тестов. Этот тип надежности имеет особенно низкие значения в отношении любых качественных методов, таких как интервью, анализ сновидений и других форм свободных ответов, не поддающихся количественной оценке. Однако согласованность возрастает, когда эксперты пользуются руководствами, содержащими четкие правила оценки и инструкции для анализа подобных данных (Yin, 1984).
Валидность.Хотя надежность имеет очень большое значение, она, тем не менее, не является единственным решающим критерием оценки пригодности теста. Возможно, даже более важным является вопрос о том, измеряет ли тест именно то, что он предназначен измерять, а также предсказывает ли он именно то, что предполагалось предсказывать с его помощью. Эта проблема имеет отношение к кардинальному критерию достоинства оценочной техники — валидности.Психологи часто различают три типа валидности: 1) содержательная валидность, 2) критериальная валидность и 3) конструктная валидность.
Содержательная валидность. Чтобы считаться валидным, метод оценки должен включать такие пункты, содержание которых соответствует репрезентативной выборке измеряемой области поведения. Предположим, перед нами тест, измеряющий застенчивость. Для того чтобы быть валидным по содержанию, он должен состоять из вопросов, которые действительно раскрывают личностные аспекты застенчивости (например, «Является ли застенчивость основным источником вашего личностного дискомфорта?»), социальные аспекты застенчивости (например, «Смущаетесь ли вы, когда выступаете перед большой аудиторией?») и когнитивные аспекты (например, «Убеждены ли вы в том, что окружающие всегда осуждают вас?»). Валидный по содержанию тест застенчивости должен оценивать каждый из компонентов, входящих в понятие «застенчивость». Содержательная валидность почти всегда определяется путем соглашения экспертов о том, что каждый пункт теста фактически отражает аспекты переменной, или личностного качества, подлежащие измерению.
Критериальная валидность. Оценка личности обычно предпринимается с целью прогнозирования определенных аспектов поведения индивидуума. Предсказание поведения может касаться успешности обучения в аспирантуре, адекватности терапевтической программы, профессиональной успешности и многого другого, за очень небольшими исключениями. То, с какой точностью результаты теста предсказывают интересующий нас аспект поведения индивида в настоящем или будущем, определяется корреляцией оценок субъектов по данному тесту и показателей по некоему критерию, не зависящему от того, что должен предсказать тест. Например, предположим, что критерий — успеваемость в школе права — измеряется по среднему баллу успеваемости, тогда SAT будет считаться валидным, если он будет точно предсказывать средний балл успеваемости.
Различают два подтипа критериальной валидности. Первый получил название прогностическая валидность.Прогностическая валидность определяется способностью теста предсказывать поведение в будущем, соответственно критерию. Тест измерения интеллекта прогностически валиден, если он точно предсказывает оценки в школе. Второй подтип имеет название текущая валидность. Текущая валидность определяется величиной значимой корреляции результатов данного теста с другими имеющимися критериальными оценками. Например, если оценки пациента по тесту, измеряющему параноидные тенденции, положительно коррелируют с оценками выраженности параноидных тенденций, данными клиническими психологами, то мы можем говорить о наличии текущей валидности. Конечно, клиницисты в этом случае не должны знать заранее о результатах тестирования. Иначе имеющаяся у них информация может повлиять на оценки, которые они дают — это явление называется контаминацией критерия.
Конструктная валидность. Третий тип валидности, один из наиболее важных для оценки личности как целого, называется конструктная валидность. Она отражает степень репрезентации исследуемого психологического конструкта в результатах теста (Cronbach, Meehl, 1955). Абстрактная природа многих психологических конструктов — таких как самоактуализация, эго-идентичность, социальный интерес и вытеснение — усложняет тестирование и придает результатам неопределенность. Попросту говоря, для этих и других абстрактных концепций функционирования личности (или того, что мы иначе называем гипотетическими конструктами)не существует твердо установленных критериальных величин. Хотя иногда можно наблюдать примеры вытеснения, само вытеснение недоступно прямому наблюдению, оно не имеет физических проявлений. Далее, гипотетический конструкт, существование которого невозможно доказать на основании какого-либо поведенческого критерия, для психологии личности бесполезен, поскольку она использует для получения знаний эмпирический подход. Именно здесь и встает вопрос о конструктной валидности.
Конструктная валидизация — это процесс сбора доказательств того, что тест измеряет определенный гипотетический конструкт, выведенный из теории. Это сложный и трудоемкий процесс, требующий проведения многих исследований, в ходе которых подвергаются проверке корреляции между тестовыми оценками и теми величинами, которые предположительно связаны с рассматриваемой концепцией. Один путь валидизации заключается в установлении корреляций между тестовыми оценками исследуемого конструкта и показателями другого теста, который предположительно измеряет тот же самый конструкт. Эта процедура на практике известна как конвергентная валидизация (Campbell, Fiske, 1959). Предположим, перед нами новый тест, который, как мы думаем, измеряет конструкт самооценки. Если этот наш новый тест на самом деле измеряет самооценку, он должен положительно коррелировать с другой процедурой измерения самооценки, хорошо зарекомендовавшей себя и валидной. Если несколько разных измерений самооценки согласуются друг с другом и с нашим новым тестом, мы имеем некоторые доказательства конструктной валидности нашего нового теста самооценки.
Другой путь установления конструктной валидности — показать, что вновь разработанная измерительная процедура не коррелирует с показателями, для измерения которых данная процедура не предназначена, явно не связанными с концептуальным определением, данным теоретиком. Этот аспект валидизации известен на практике под рабочим названием дивергентная валидность (Campbell, Fiske, 1959). Например, если наш новый тест самооценки не коррелирует со значениями других тестов, разработанных для измерения концептуально отличных от представленных в нем качеств, мы получаем доказательства дискриминантной валидности (поскольку наша процедура измерения самооценки отличается от тех, что измеряют не самооценку, а нечто другое, так и должно быть). Это важный этап установления конструктной валидности оценочной процедуры.
Перечисление трудностей, сопряженных с демонстрацией конструктной валидности методов оценки, выходит далеко за пределы темы данной книги. Однако, поскольку мы сейчас рассматриваем различные типы подходов к оценке личности, мы должны помнить, что достоинство любого метода оценки определяется в конце концов его конструктной валидностью. Если данная методика содержит признаки слабой конструктной валидности, то в процессе ее использования мы можем получить результаты, не имеющие ничего общего с проверяемой концепцией.
Важность тестирования в разработке ПО
Тестирование программного обеспечения – это один из самых важных этапов в процессе создания продукта. Не уделив ему должного внимания, нельзя добиться высокого качества на выходе. Все крупные компании, занимающиеся разработкой программ и приложений для различных бизнес целей, имеют в штате группу высококвалифицированных тестировщиков, которые привлекаются к участию в проекте на разных этапах. Каждый из них может специализироваться на каком-то конкретном тесте или группе тестов, что позволяет добиться более качественного результата.
Стоит отметить, что в настоящее время нельзя выделить какой-то конкретный вид тестирования, применение которого гарантирует высокое качество программного продукта. Чтобы добиться хорошего результата, необходимо использовать различные типы тестов, включая юзабилити тестирование. При этом применять стоит как ручные, так и автоматические тесты, комбинирование которых позволит выявить как можно больше ошибок и недочетов. Однако даже использование различных методов тестирования еще не гарантирует того, что в продукте абсолютно не будет ошибок.
Независимо от того, какие методы используются для проверки качества программы и ее соответствия первоначально установленным требованиям, тестировщик обязательно должен изучить и проанализировать следующие факторы: функциональность, эффективность, надежность, мобильность, практичность и сопровождаемость разрабатываемого программного обеспечения или приложения. При этом в ходе проведения тестов нужно сформировать комплексный отчет, который будет подробно отражать информацию обо всех найденных ошибках и дефектах программного продукта. Этот отчет необходимо предоставить для анализа программистам, чтобы они могли устранить все дефекты, обнаруженные тестировщиками. Кроме того, такой отчет необходимо будет предоставить заказчику.
Чем позже тестировщики приступят к работам по проекту, тем менее качественным будет продукт. Соответственно, привлекать их к работе стоит уже на стадии обсуждения требований заказчика. Это поможет предотвратить некорректный выбор стратегий разработки продукта и значительно снизить количество возможных ошибок. Если не устранять ошибки на ранних этапах, а делать это после проведения основных работ по проекту, то стоимость всей разработки может возрасти в несколько раз, что абсолютно недопустимо.
Понравилась полезная статья? Подпишитесь на RSS и получайте больше нужной информации!
Фундаментальная теория тестирования
В тестировании нет четких определений, как в физике, математике, которые при перефразировании становятся абсолютно неверными. Поэтому важно понимать процессы и подходы. В данной статье разберем основные определения теории тестирования.
Перейдем к основным понятиям
Тестирование программного обеспечения (Software Testing) — проверка соответствия реальных и ожидаемых результатов поведения программы, проводимая на конечном наборе тестов, выбранном определённым образом.
Цель тестирования — проверка соответствия ПО предъявляемым требованиям, обеспечение уверенности в качестве ПО, поиск очевидных ошибок в программном обеспечении, которые должны быть выявлены до того, как их обнаружат пользователи программы.
Для чего проводится тестирование ПО?
Принципы тестирования
QC (Quality Control) — Контроль качества продукта — анализ результатов тестирования и качества новых версий выпускаемого продукта.
К задачам контроля качества относятся:
К задачам обеспечения качества относятся:
Верификация и валидация — два понятия тесно связаны с процессами тестирования и обеспечения качества. К сожалению, их часто путают, хотя отличия между ними достаточно существенны.
Верификация (verification) — это процесс оценки системы, чтобы понять, удовлетворяют ли результаты текущего этапа разработки условиям, которые были сформулированы в его начале.
Валидация (validation) — это определение соответствия разрабатываемого ПО ожиданиям и потребностям пользователя, его требованиям к системе.
Пример: когда разрабатывали аэробус А310, то надо было сделать так, чтобы закрылки вставали в положение «торможение», когда шасси коснулись земли. Запрограммировали так, что когда шасси начинают крутиться, то закрылки ставим в положение «торможение». Но вот во время испытаний в Варшаве самолет выкатился за пределы полосы, так как была мокрая поверхность. Он проскользил, только потом был крутящий момент и они, закрылки, открылись. С точки зрения «верификации» — программа сработала, с точки зрения «валидации» — нет. Поэтому код изменили так, чтобы в момент изменения давления в шинах открывались закрылки.
Документацию, которая используется на проектах по разработке ПО, можно условно разделить на две группы:
Этапы тестирования:
Программный продукт проходит следующие стадии:
Требования
Требования — это спецификация (описание) того, что должно быть реализовано.
Требования описывают то, что необходимо реализовать, без детализации технической стороны решения.
Отчёт о дефекте (bug report) — документ, который содержит отчет о любом недостатке в компоненте или системе, который потенциально может привести компонент или систему к невозможности выполнить требуемую функцию.
Атрибуты отчета о дефекте:
Жизненный цикл бага
Severity vs Priority
Серьёзность (severity) показывает степень ущерба, который наносится проекту существованием дефекта. Severity выставляется тестировщиком.
Градация Серьезности дефекта (Severity):
Градация Приоритета дефекта (Priority):
Тестовые среды
Основные фазы тестирования
Основные виды тестирования ПО
Вид тестирования — это совокупность активностей, направленных на тестирование заданных характеристик системы или её части, основанная на конкретных целях.
Автор книги «A Practitioner’s Guide to Software Test Design», Lee Copeland, выделяет следующие техники тест-дизайна:
Методы тестирования
Тестирование белого ящика — метод тестирования ПО, который предполагает, что внутренняя структура/устройство/реализация системы известны тестировщику.
Согласно ISTQB, тестирование белого ящика — это:
Тестирование чёрного ящика — также известное как тестирование, основанное на спецификации или тестирование поведения — техника тестирования, основанная на работе исключительно с внешними интерфейсами тестируемой системы.
Согласно ISTQB, тестирование черного ящика — это:
Тестовая документация
Тест план (Test Plan) — это документ, который описывает весь объем работ по тестированию, начиная с описания объекта, стратегии, расписания, критериев начала и окончания тестирования, до необходимого в процессе работы оборудования, специальных знаний, а также оценки рисков.
Тест план должен отвечать на следующие вопросы:
Чаще всего чек-лист содержит только действия, без ожидаемого результата. Чек-лист менее формализован.
Тестовый сценарий (test case) — это артефакт, описывающий совокупность шагов, конкретных условий и параметров, необходимых для проверки реализации тестируемой функции или её части.
Атрибуты тест кейса:
Роль тестирования в разработке ПО
Снижение затрат с помощью тестирования
Тестирование играет жизненно важную роль в разработке программного обеспечения и является неотъемлемой частью жизненного цикла его разработки, так как:
Благодаря тому, что тестирование ПО становится частью программирования, разработчики имеют возможность исправлять ошибки уже на начальной стадии разработки. Это позволяет сократить риск появления дефектов в готовом продукте. Если ошибки найдены на начальном уровне, разработчик может создать надежное программное обеспечение. Таким образом, чем раньше начинается процесс, тем раньше обнаруживаются ошибки и тем ниже стоимость их исправления.
Без надлежащей оценки производимое программное обеспечение может нанести существенный вред как пользователям, так и производителю. Потеря денег и доверия к компании – это лишь небольшая часть последствий. Хорошее и эффективное тестирование программы помогает повысить его безопасность.
Верификация и валидация являются основными целями процесса. По сути, тестирование программного обеспечения помогает не только обнаружить дефекты в программном обеспечении, но и определить его нужность для клиента. Таким образом, качественное и управляемое тестирование делает бизнес успешным и повышает доверие к компании.
Курс «ISTQB Certified Tester, базовый уровень» позволит членам команды разработки говорить на одном языке, а также научит:
# По всем вопросам подготовки специалистов обращайтесь к менеджерам учебного центра
Калининой Лиле, Карповой Елене, Смирновой Светлане, Богдановой Ирине, Литвиновой Елене тел. 8 (812) 718-6184 (многоканальный).
# По вопросам заказа тестов в центре тестирования Pearson VUE просьба обращаться к администратору центра тестирования
Ольге Золиной тел. 8 (812) 326-78-30.
Тестирование концепции и бизнес анализ идеи при внедрении новых продуктов.
Приведу пример третьего варианта. Сцена в банке. Домохозяйка на камеру возле коробки в рост человека с монитором и кнопками рассказывает о преимуществах внесения платежей. Ощущение комфорта и удобства пользования генерируется артисткой, изображающей домохозяйку. Респонденты включаются в работу. Ящик с кнопками пустой.
Собирать респондентов в одном месте нет необходимости, Могут изучать материалы и отвечать на вопросы удаленно.
Далее по диаграмме находится модуль сравнения и анализа результатов количественной оценки концепции, Согласно критериям числовое значение может быть признано превысившим пороговое и в таком случае тестирование считается успешно пройденным.
Исследование Роберта Долана (Robert B. Dolan, HBR «Concept Testing» Case Study) подтверждает важность для компании правильного определения порогового значения для применения численных методов тестирования концепции а поддержания его в актуальном состоянии за счет их аутсорсинга или обновления собственными силами.
В противном случае концепция возвращается на доработку. При некотором количестве неудачных попыток провести тестирование концепции от нее отказываются в плане немедленной дальнейшей реализации.
К сожалению отмечаются проблемные несоответствия результатов тестирования концепции при использовании традиционных методов присвоения численных значений с последующим прямым сравнением ( бенчмаркингом) с пороговым критерием и последующей востребованностью нового продукта на рынке после его запуска.
Традиционные методы тестирования концепции не работают, когда клиент готов платить за качество и преимущества нового продукта оцениваются с применением многомерной модели.
Моделирование выбора и осмысленная клиентом необходимость компромисса для достижения баланса цены и качества, плюс влияние бренда, плюс тенденции моды и т.д..
В особо сложных и дорогих случаях применяется много-атрибутное моделирование с элементами планирования эксперимента. Но об этом не сегодня.