Goblin Game: Перезапуск тестов

вторник, 26 февраля 2013 г.

Перезапуск тестов

Время от времени различные уважаемые люди и конторы озвучивают довольно странную для меня мысль - "если тест упал, то запусти его второй раз, вдруг не упадет". Эдакий способ экономить время на разборе результатов тестов. Примерно в этом месте я вижу чудовищную логическую дыру. И, чтобы не спорить с ветряными мельницами в виде выдранных из контекста аргументов в пользу перезапуска тестов, я просто изложу свою точку зрения.

У автоматического теста есть всего один полезный выхлоп - падение теста. Все остальное время автоматические тесты просто греют воздух укрепляя в нас уверенность в нашем продукте (не всегда обоснованную, но это другая история). Это нагревание воздуха, безусловно, полезно для процесса и так далее, но большую часть времени никакой полезной информации не несет. Примерно как ребята в аэропортах, которые могут каждый год рапортовать, что в 100500 проверенных за год пар обуви ни одной бомбы не обнаружено. Работа, безусловно, полезная, но самое крутое что они могут сделать - это, как ни странно, исполнить свое предназначение и найти уже наконец эту чертову бомбу в этих чертовых ботинках. И перезапуск теста это примерно как "ой, кажется у вас в ботинках бомба, пройдите, пожалуйста, повторный досмотр - вдруг мы ошиблись?".

Но у подобных проверок есть ряд концептуальных проблем дизайна. Например, там могут быть ложные "тест прошел" и ложные "тест упал". Первые отлавливать крайне сложно - вы не можете себе позволить перепроверять сотни и тысячи автоматических тестов - теряется весь смысл. Вторые проверяются банальным анализом полученного выхлопа. И перезапуск упавших тестов приводит к увеличению ложных "тест прошел". Да, вы, возможно, спасете себе кучу времени на разгребании ложных падений, но это экономия ставит под сомнение самый полезный результат тестов.

И что же означает это падение тестов? Обычно причины две:

Баги в продукте
Нестабильные тесты/Баги в тестах/Нестабильное тестовое окружение

Второе в одной группе, т.к. это, как правило, и является основным объяснением перезапуска тестов. И если мы начинаем перекладывать падение наших тестов на второй пункт, то мы попадаем в страну, где хреновые тесты - это норма, и где-то прячутся баги, которые мы могли бы найти раньше (и мы их, возможно, нашли, но успешно проигнорировали).

Но хороший тестировщик не должен полагаться на тесты с сомнительной репутацией. Задача, как правило, в том, чтобы каждое падение обозначало проблему в продукте и любой тест, который падает по какой-либо иной причине, должен тут же внимательно обследоваться и исправляться - или, как минимум, обрастать дополнительным кодом, который помог бы дать быстрый ответ о причинах падения. Иначе нет смысла в тестирвании, которое полагается на автоматизацию, выхлоп которой никого не волнует, а упавшие тесты не подвергаются детальному анализу каждый раз когда они валятся.

Да, я понимаю, что у всех своя специфика, уникальный внутренний мир проекта, сроки горят, начальство негодует и KPI не выполняется. Все это может заставить вас игнорировать какие-то упавшие тесты. Как правило это просто пустые отмазки. Как правило, но далеко не всегда. Но тем не менее не позволяйте нестабильным, хреново написанным тестам становиться нормой. Не делайте нормой нестабильное тестовое окружение. Это все инженерные задачи - они решаются (не всегда легко, но тем не менее решаются). Если, конечно, суть вашей работы не заключается в том, чтобы демонстрировать пару тысяч зеленых квадратиков on commit.

41 комментарий:

Анонимный26 февраля 2013 г. в 00:50
ох ох
ОтветитьУдалить
Ответы
Maxim Shulga (aka MaxBeard12)26 февраля 2013 г. в 01:14
Имхо, не можешь починить - выкинь нафиг и проверяй руками. Иначе никакого доверия.
ОтветитьУдалить
Ответы
Анонимный26 февраля 2013 г. в 13:21
А ещё есть вещи, которыми управлять трудно: шаренные виртуальные хосты с непредсказуемой загрузкой, переключение сетевого оборудования на какие-то ночные или дневные работы. И даже если тест выжил, но показал другое время, ещё надо разобраться, от внешнего воздействия было такое изменение или от бага в продукте.
ОтветитьУдалить
Ответы
PapaMinos26 февраля 2013 г. в 15:44
Вот хотел написать "Подписываюсь под каждым словом" и ничего более, но...

"Да, я понимаю, что у всех своя специфика, уникальный внутренний мир проекта, сроки горят, начальство негодует и KPI не выполняется."
Вот вся эта уникальность она обычно сводится к бытовому раздолбайству на уровне маленьких проблем не решенных вовремя, которые теперь чинить всем лень(потому что привыкли жить с ними) и дорого.

В остальном - подписываюсь под каждым словом.

ОтветитьУдалить
Ответы
Анонимный26 февраля 2013 г. в 19:21
"Если проблема в инфраструктуре, то ее нужно устранять."
Ок, назначаю тебя своим бесплатным консультантом.

У нас есть проблема в инфраструктуре: несоответствие рекомендуемых и реальных характеристик железа на котором эмулируется работа продукта.
У нас есть результат, таймаут на работу third party приложения.
У нас есть подсчитанная вероятность того, при каком разумном таймауте вероятность его срабатывания становится меньше десятой доли процента.
У нас есть пара тысяч тестов и пара падающих каждую ночь тестов на каждый запуск.

Как в данном случае поступил бы падаван боевой школы магической QA поняши?
Закупил бы рекомендуемое железо?
Разбирал бы каждый запуск тестов?
Поставил бы в тесте таймаут в 6 часов?
Сделал бы автоматический перезапуск теста при диагностировании конкретного ексепшна?
Сделал бы объединение ексепшнов в группы и разбирал бы их в группах?
Перестал бы работать с third party бэкендом и заменил бы всё на заглушку?
Уволился бы и уехал в развитую страну, в которой все наши проблемы уже решены?
Написал бы патч к закрытому коду third party продукта известного вендора?
Что делал бы падаван, если тысяча тестов у нас ходит каждую ночь на 100 конфигурациях?

Напоминаю для тех, кто забудет мой позапрошлый пост, 100 конфигураций не у нас и тесты мы не перезапускаем.
ОтветитьУдалить
Ответы
Анонимный26 февраля 2013 г. в 19:35
Я даже конкретизирую свой интерес.

С моей точки зрения перезапуск теста из за медленной инфраструктуры (over9000 компаний разработчиков софта так тестируют, я гарантирую это) мало отличается от увеличения таймаута до статистически заметных величин. Порождает точно такой же positive false.
Когда ты напишешь пост про недопустимость в тестах таймаутов больше трех секунд или сколько у нас там современный сферический пользователь в вакууме вебстраницу ждёт?

Перезапуск тестов в случае если их свалилось менее пары процентов, как в известной нашей презентации, над которой вся прогрессивная общественность изрядно посмеялась, увеличивает вероятность Positive False, которую лично я смело оцениваю в проценты, на эту самую пару процентов.
Когда будет статья о недопустимости отсутствия анализа возможных Positive False на каждый запуск?

Лично я считаю, что обе описанные мной проблемы вносят тот же порядок деструктивного хаоса в продукт и я жду от тебя привлечения внимания к этому вопросу, поскольку ты крупный деятель твиттера и авторитет.
ОтветитьУдалить
Ответы

Добавить комментарий

вторник, 26 февраля 2013 г.

Перезапуск тестов

41 комментарий:

вторник, 26 февраля 2013 г.