Глава 5. Динамические ряды Динамический ряд – это ряд величин, показывающий изменение какого-то явления во времени, т.е. в динамике. Динамический ряд может строиться из абсолютных величин, относительных, средних, индексов и т.д. Желательно, чтобы величины ряда характеризовали явление за равные промежутки времени (каждый год, каждое пятилетие). Если каждая величина ряда характеризует явление в определенный момент времени, такой ряд называется моментным ряд (это могут быть сведения на конец года, месяца, другого периода). В моментном ряду каждый предыдущий член ряда входит составной частью в последующий. Например, динамика числа коек на территории Н: год 1960 1970 1980 1990 2000 число коек 100 150 180 200 220 Если величины ряда характеризуют явление за определенный период, то такой ряд называется интервальным. Каждую величину такого ряда можно дробить, разбивать на более мелкие периоды.. Например, динамика числа родившихся в городе К.: год 1998 1999 2000 2001 число 15000 15200 14500 14000 родившихся По этим данным можно определить, сколько в среднем детей рождалось ежемесячно в 2000 г. или ежедневно в 1998 г. и т.д. Основная цель изучения и анализа динамических рядов – выявление тенденций, закономерностей в изменении явления. Если таковые будут выявлены за известный (базисный) период, то можно предположить, что они сохранятся какое-то время и в будущем. На основании этого возможно прогнозирование развития явления, а следовательно – и планирование определенных видов работ, связанных с данным явлением. Прежде чем прогнозировать, необходимо проанализировать ряд, определить его параметры, по которым и выявляются закономерности изменения величин ряда. 5.1. Основные параметры динамического ряда. Наиболее распространенные характеристики динамических рядов рассмотрим на примере. Имеются сведения за 8 лет о числе случаев определенного заболевания в коллективе работников предприятия Х.. Построим по этим данным динамический ряд (см. 1 – 2 строки таблицы 5.1.1.) и рассчитаем показатели прироста, темпа роста и темпа прироста этого ряда (см. 3 – 5 строки таблицы 5.1.1.). Каждый член ряда называется уровнем ряда. Выделяют начальный – первый и конечный – последний уровни, а также средний уровень – среднюю хронологическую ряда ( ), которая рассчитывается в моментных рядах по формуле: 0,5 а1 + а2 + а3 +……0,5 аn = ------------------------------------- n - 1 в интервальных:  = -------------- n Таблица 5.1.1. Динамика числа заболеваний в коллективе работников предприятия Х. и основные параметры динамического ряда Годы | | | | | | | | | Уровни ряда | | | | | | | | | Прирост | - | | -30 | | | -30 | | -20 | Темп роста (%%) | - | | | | | | | | Темп прироста (%%) | - | | -60 | | | -50 | | -29 | Прирост представляет собой разность между интересующим уровнем и предыдущим: выражается в тех же единицах, что и уровни; может быть положительным (если интересующий уровень больше предыдущего), отрицательным (если интересующий уровень меньше предыдущего) или нулевым (при равенстве сопоставляемых уровней). Темп роста показывает, сколько процентов составляет интересующий уровень от предыдущего: если больше 100% - интересующий уровень превышает предыдущий, если меньше 100 % - не превышает, а составляет лишь часть от него. Методика расчета темпа роста ясна из определения: предыдущий уровень принимается за 100%, интересующий - за х %, далее определяется величина х. Темп прироста говорит о том, на сколько процентов изменился интересующий уровень по сравнению с предыдущим. При этом знак (+) означает увеличение, знак (-) – уменьшение интересующего уровня. Для расчета темпа прироста необходимо за 100 % взять предыдущий уровень, за х% - прирост интересующего года. Но если уже был определен темп роста, темп прироста легко найти путем вычитания из этого показателя числа 100. Так для 1994 г. темп прироста будет: 40 – 100% (50 - 40) - х (50 - 40) х 100 х = --------------------- = 25 % или 125 % - 100% = 25 % Необходимо помнить, что для начального уровня ряда прирост, темп роста и темп прироста не вычисляются и в соответствующих клетках таблицы ставятся прочерки. Было бы ошибочно ставить здесь нули, т.к. последние означали бы равенство начального уровня с предыдущим, который неизвестен. Перечисленные в разделе 5.1. характеристики называются цепными, т.к. при их расчете последовательно сопоставляются каждый уровень с предыдущим. Возможно иное сопоставление - каждого уровня только с одним, принимаемым за базис. Полученные в этом случае показатели будут называться базисными, и техника их расчета совпадает с техникой расчета цепных. 5.2. Прогнозирование динамических рядов. В принципе существует три основных способа прогнозирования: экспертные оценки, математическое моделирование, экстраполяция. Экспертная оценка – прогнозирование на основании мнений экспертов, т.е. людей, знающих, разбирающихся в данном вопросе, специалистов в данной области. Процедура экспертной оценки, хотя и включает обязательное использование статистики, имеет специфические особенности, требующие ее отнесения в раздел научного управления и нецелесообразно ее разбирать в настоящем пособии. Математическое моделирование – это описание процессов и явлений с помощью математических формул. Для математического моделирования нужна не только достаточно обширная база статистических данных, но и соответствующий математический аппарат, описание которого требует специальной подготовки. Экстраполяция (с греч. «экстра» – вне, «полире» – гладкий) – нахождение по известному ряду величин значений подобных величин, лежащих вне этого ряда[6]. Экстраполяция, как и математическое моделирование, требует определенных баз данных и знаний. Но некоторые элементы, используемые при экстраполяции, довольно просты и доступны в понимании, что позволяет рекомендовать их читателю, недостаточно подготовленному для восприятия более сложных статистических выкладок. Анализ изменений параметров динамических рядов, приведенных в разделе 5.1., во многих случаях позволяет уже делать прогнозы. Так, если выявляется, что показатели темпа роста ежегодно сокращаются на 5 – 10 %, то можно и в дальнейшем ожидать такого же сокращения. Однако далеко не всегда удается сразу выявить какие-либо закономерности, поэтому следует соблюдать несколько требований, позволяющих приблизиться к построению прогноза. Первое требование – наличие не менее чем трех точек отсчета в базисном периоде. Если известны лишь две или одна точки, то через них можно провести бесчисленное множество линий и невозможно решить, какая из них отражает закономерности динамики явления. Три точки позволяют хотя бы грубо, приближенно решить, развивается динамика по прямой линии или кривой и если кривой – то какой формы, направления и пр. Втрое требование – учет возможности изменения выявленной тенденции. Закономерности, определяемые при анализ динамических рядов, не могут быть вечными. Так, уровень детской смертности в стране какое-то время снижался, затем стал расти; средняя продолжительность жизни росла, затем стабилизировалась и даже стала уменьшаться. Исходя из этого, во всех случаях экстраполяции в здравоохранении следует указывать: «При сохранении выявленных тенденций ожидается…» и далее прогноз. Третье требование – необходимость иметь относительно плавное, без скачков, изменение уровней ряда в базисном периоде. Если обратиться к динамическому ряду на табл. 5.1.1., то видно, что величины ряда скачкообразно колеблются. Определить хотя бы ориентировочно, будет число больных расти или уменьшится, в таком ряду невозможно. Для получения плавно изменяющейся кривой применяют специальные способы выравнивания. Мы рассмотрим простейшие из них, являющиеся одновременно и способами прогнозирования тенденций ряда. 5.2.1. Выравнивание динамических рядов. Первый способ - укрупнение интервалов. В динамическом ряду в таблице 5.1.1. каждый уровень ряда характеризует явления за год. Возьмем отрезки времени по два года, а если тенденция еще не проявится - по четыре года: год 1993 1994 1995 1996 1997 1998 1999 2000 уровни за год 40 50 20 50 60 30 70 50 за 2 года 90 70 90 120 за 4 года 160 210 Можно отметить, что за первые 4 года зарегистрировано меньше заболеваний, чем за последующие. Если эта тенденция сохранится, то в принципе число заболеваний будет расти. Это не означает, что уровень 2001 г. обязательно превысит таковой в 2000 г., ибо мы выявили лишь тенденцию, общую направленность процесса. Необходимо заметить, что приведенный способ столь же прост в реализации, сколь и неточен, приблизителен. Им можно пользоваться для ориентировки и при невозможности применять другие способы. Второй способ – выравнивание ряда с помощью скользящей средней. Алгоритм преобразований ряда следующий: а) образуется группа из нечетного числа уровней в начале ряда (если ряд короткий – в группу целесообразно включить 3 уровня, если длинный – можно и больше); б) определяется средняя арифметическая величина для этой группы; в) эта величина обозначается под средним членом группы; г) образуется новая группа уровней путем исключения первого уровня и прибавления ближайшего последующего уровня. д) весь алгоритм повторяется с пп. б до тех пор, пока не будет пройден весь ряд. Проиллюстрируем методику на том же примере из табл. 5.1.1.: год 1993 1994 1995 1996 1997 1998 1999 2000 фактические уровни за год 40 50 20 50 60 30 70 50 выровненный ряд уровней 37 40 43 46 53 50 40 + 50 +20 50 + 20 + 50 -------------- = 37; --------------- = 40 и т.д. 3 3 В полученном ряду по сравнению с первоначальным потеряна информация за первый и последний годы, но зато получена достаточно плавная кривая базисного периода, позволяющая сделать заключение: если сохранится тенденция, наблюдавшаяся с 1993 по 1999 гг., то ожидается дальнейший рост числа заболеваний; но данные последнего года позволяют усомниться в этом и допустить возможность изменения тенденции. Для уточнения прогноза целесообразно дождаться сведений 2001 года и решить, является ли снижение числа заболеваний в 2000 г. случайным или это – начало новой тенденции. 5.2.2. Прогнозирование с помощью показателя среднего прироста. Метод используется в монотонно изменяющихся рядах, т.е. в рядах, каждый последующий уровень которых больше (или меньше) предыдущего на определенную величину. Поскольку в жизни такие ряды встречаются редко, условно монотонными рядами будем считать ряды, в которых каждый последующий уровень больше (меньше) предыдущего. В монотонном ряду средний прирост ( ) находят по формуле: аn – а1 = ---------------, n - 1 где аn – последний уровень ряда; а1 - первый уровень ряда; n – число уровней. Пусть имеется информация о заболеваемости какого-то контингента населения по годам: год 1997 1998 1999 2000 2001 заболеваемость (%о) 1200 118911801171 1160 1160 – 1200 ---------------- = -10 5 - 1 Вывод: на протяжении базисного периода заболеваемость сокращалась ежегодно в среднем на 10%о.При сохранении этой тенденции в 2002 году можно ожидать снижение уровня заболеваемости: 1160 – 10 = 1150%о. Следует помнить, что прогнозировать можно не более чем на 1/3 часть базисного периода. В разобранном примере нельзя дать прогноз на 2 года, т.е. на 2003 г., т.к. 1/3 часть от 5 лет составит 1,7 года, что меньше двух лет. Прогнозировать с помощью среднего прироста можно и при наличии немонотонных рядов, если в них можно выделить монотонный участок. Так, если с 1980 г. по 1985 г. наблюдался рост заболеваемости, с 1986 г. по 1992 г. – снижение, а с 1993 г. по 2000 г. – опять рост, то на 2001 г. можно дать прогноз по тенденции 1993 – 2000 гг., взяв при этом уровень заболеваемость в 1993 г. за а1, а уровень заболеваемости в 2000 году за аn. Некоторые явления имеют многолетние колебания: в течение нескольких лет наблюдается подъем, затем снижение уровня явления, затем все повторяется. Для выявления таких многолетних циклов необходимы сведения за период времени, охватывающий минимум три цикла – при пятилетних циклах – 15 лет, при десятилетних циклах – 30 лет и т.д. 5.2.3. Определение численности населения между переписями и после последней переписи. Наиболее точно численность населения, как известно, определяется в процессе переписей. Однако ориентироваться на данные переписи через несколько лет уже нельзя без учета динамики численности населения. Существуют несложные методики, позволяющие приблизительно определять эту численность как между двумя переписями, так и после последней из сравниваемых. Ограничением для использования методик является требование о плавном, постепенном изменении численности населения на изучаемой территории, что устанавливается эмпирически (на опыте). Если происходило резкое изменение численности населения в результате миграционных или других процессов, методики не должны применяться. Численность населения определяется по формулам: между сравниваемыми переписями - Р2 - Р1 Р = Р1 + Т х ---------- n после последней из сравниваемых переписей - Р2 - Р1 Р = Р1+ Т х ----------, n где Р – искомая численность населения; Р1 - численность населения по первой из сравниваемых переписей; Р2 - численность населения по второй из сравниваемых переписей; Т – порядковый номер года, на который рассчитывается численность населения от года переписи (соответственно первой или второй); n - период времени между переписями. Пусть в городе по переписи 1991 г. насчитывается 300000 чел. (Р1), а через 9 лет (n = 9) по переписи 2000 г. – 390000 чел. (Р2). Нужно узнать, какова численность населения: - в 1997 г. (Т = 1997 – 1991 = 6) - в 2004 г. (Т = 2004 – 2000 = 4) Для 1997 г.: 3900000 - 300000 Р = 300 000 + 6 х ----------------------- = 360000 чел. Для 2004 г.: 3900000 - 300000 Р = 390 000 + 4 х ----------------------- = 430000 чел. 5.3. Сезонность. Сезонность – это связь динамики явления с временем года. Многие процессы и явления в природе (а следовательно – в здравоохранении и медицине) имеют сезонные колебания, т.е. в одни месяцы года выражены больше, а в другие меньше. При изучении таких явлений основными вопросами можно считать следующие: - Есть ли сезонные колебания? - Какая часть явления обусловлена сезонными причинами? 5.3.1. Выявление сезонных колебаний. Для выявления сезонных колебаний необходимо иметь сведения об изучаемом явлении за несколько лет (не менее трех). Пусть имеются сведения о числе зарегистрированных случаев определенного заболевания среди жителей города У (имеется в виду, что численность населения стабильна; в противном случае методика модифицируется, о чем будет сказано ниже). Порядок действий будет следующим. 1) Расположить показатели числа заболеваний соответственно по месяцам и за год (таблица 5.3.1.1.). 2) Определить среднедневное число заболеваний (С) по формуле: Н С = --------- Д где Н – число заболеваний за месяц (год); Д – число дней в месяце (году). 3) Рассчитать коэффициенты наглядности или индексы сезонности (К), приняв за 100 % среднедневное годовое число заболеваний (Сr) и определив от него уровень среднедневного числа заболеваний за каждый месяц (См): См х 100% К = ---------------- Сr Таблица 5.3.1.1. Выявление сезонных колебаний Месяц (с1 по 12) | Число заболеваний (Н) | Структура | Среднедневное число заболеваний (С) | Коэффициент наглядности или индекс сезонности (К) | I | | 5,33 | 24,2 | 62,9 | II | | 8,89 | 44,6 | 115,8 | III | | 11,03 | 50,0 | 129,9 | IV | | 10,67 | 50,0 | 129,9 | V | | 8,54 | 38,7 | 100,5 | VI | | 6,4 | 30,0 | 77,9 | VII | | 6,04 | 27,4 | 71,2 | VIII | | 6,76 | 30,6 | 79,5 | IX | | 8,89 | 41,7 | 108,3 | X | | 9,96 | 45,2 | 117,4 | XI | | 11,03 | 51,7 | 133,0 | XII | | 6,4 | 29,0 | 75,3 | Год | | 100% | 38,5 | 100% | Величина К>100% указывает на превышение в данном месяце среднегодового уровня заболеваемости, о ее подъеме. Анализ всего ряда показателей К позволяет сделать заключение о двух подъемах заболеваемости в изучаемом году с достижением пика (максимума) в марте – апреле и ноябре. Далее необходимо аналогичные расчеты провести за прочие годы и сопоставить их. Если ежегодно примерно в одни и те же месяцы будут наблюдаться пики заболеваемости – можно говорить о сезонных колебаниях. Если же подъемы заболеваемости в различные годы не совпадают – сезонности нет. Если численность населения значительно изменяется год от года, предлагаемая методика должна несколько измениться. При этом возможны две модификации. Первая – расчет числа заболеваний на определенную численность населения (10 тыс., 100 тыс.) и расчеты по методике в описанной уже последовательности. Вторая – суммирование числа заболеваний за несколько лет по одноименным месяцам и за годы в целом – и реализация методики по этим данным. Поясним второй вариант примером. Имеются сведения о числе заболеваний: | январь | февраль | … | за год | 1999г. | | | … | | 2000г. | | | … | | 2001г. | | | … | | Сумма | | | … | | | Ся = --------- = = 72,6 | Сф = ----------- = = 133,9 | … | Сг = ------------ = = 115,6 | 72,6 х 100 Кя = --------------- = 115,6 = 62,9 | 133,9 х 100 Кф = --------------- = 115,6 = 115,9% | …. | Кг = 100,0% | 5.3.2. Выявление доли заболеваний, обусловленных сезонными причинами. В формировании годового уровня заболеваемости могут участвовать три составляющих: - круглогодичные причины, действующие с постоянной интенсивностью в течение всего года; - сезонные причины, действующие в определенные времена года; - случайные причины, влияние которых не поддается описанию. Заболевания, вызванные случайными причинами, принято сразу отсекать от общей массы заболеваний: они требуют специфических подходов к анализу, связанных с выявлением факторов, их спровоцировавших, и возможностей повторного появления. Из оставшейся совокупности необходимо выделить части, вызванные сезонными и круглогодичными причинами. Такое разделение позволит установить, на сколько максимально можно снизить заболеваемость, если ликвидировать все сезонные причины (или, наоборот круглогодичные), и затем соответственно планировать работу. Разберем методику определения доли заболеваний, вызванных сезонными причинами, с помощью примера (таблица 5.3.2.1.). Таблица 5.3.2.1. Определение доли заболеваний, вызванных сезонными причинами месяц | Число заболеваний | I | | II | | II | | IV | | V | | VI | | VII | | VIII | | IX | | X | | XI | | XII | | Год | | Период подъема – 3089 случаев Доля заболеваний, вызванных сезонными причинами (Д), определяется по формуле: А – В (В - --------------- х М) х 100 12 - М Д = --------------------------------------- (%), А где А – число заболеваний за год; В – число заболеваний за период подъема; М – длительность подъема в месяцах. 4189 – 3089 (3089 - ------------------ х 4) х100 12 - 4 Д = --------------------------------------------- = 60,7 Вывод: 60,7% всех заболеваний обусловлены сезонными причинами; если полностью исключить влияние сезонных причин, заболеваемость может снизиться не более чем на 60,7%. Ежегодное определение величины Д позволяет не только наблюдать динамику борьбы с сезонными причинами заболеваемости, но и оценить эффективность этой борьбы. Рассмотрим в связи с этим пример. Пусть по данным нескольких лет определено, что в среднем Д = 60%. Далее в результате целенаправленной профилактической работы удалось снизить Д до 20%, т.е. доля заболеваний, вызванных сезонными причинами, не превышает теперь 20%. Но может наступить «неблагоприятный" год, характеризуемый большим подъемом общего уровня заболеваемости. И тут возникает вопрос – а какова же роль проводимой профилактической работы? Оценить эту роль можно по таким выкладкам: - если в данном году Д = 20%, то из каждой 1000 заболеваний 800 (80%) вызваны круглогодичными причинами, 200 (20%) – сезонными; - если бы профработа не проводилась, то Д = 60%, и, следовательно, круглогодичными причинами вызывалось бы 40% заболеваний; - те же 800 случаев данного года составляли бы не 80%, а 40%; - отсюда можно определить, как возросло бы общее число заболеваний: 800 случаев – 40% х – 100% 800 х 100 х = ------------------- = 2000 случаев, т.е. вместо 1000 было бы 2000 заболеваний! Следовательно, заболеваемость возросла бы в 2000 : 1000 = 2 раза! В заключение требуется отметить, что иногда предлагается упростить расчет Д и проводить его, исходя из пропорции: 4186 случаев – 100% 3089 случаев - х 3089 х 100 х = ------------------ = 73,8% Этот расчет тоже верен, но он показывает, сколько процентов заболеваний (вызванных и круглогодичными, и сезонными причинами) зарегистрировано за период подъема всего. А предложенная выше методика расчета Д отделяет сезонную составляющую от круглогодичной. Глава 6. Стандартизация Довольно часто в здравоохранении и медицине встречаются ситуации, в которых качественную оценку результативного показателя проводят путем количественного его сопоставления с каким-то другим. В несколько упрощенном виде это выглядит так: если в больнице А летальность выше, чем в Б, то врачи в А работают хуже. Преждевременность подобного заключения легко проявляется, если задуматься: а в каких условиях работают врачи больниц А и Б? Сопоставимы ли эти условия? Что было бы, если условия были одинаковы, т.е. стандартны? Ответить на поставленные вопросы можно, используя метод стандартизации показателей. Стандартизация– это метод сравнения показателей в качественно неоднородных совокупностях путем элиминирования (устранения) этой неоднородности. Стандарт – это величины, искусственно вводимые в условие решаемой задачи для элиминирования качественной неоднородности сравниваемых совокупностей. Стандартизация позволяет решать три типа задач: 1) сравнивать показатели в качественно неоднородных группах (неоднородность может быть по диагнозам, полу, возрасту, социальному положению и т.д.); 2) получать вывод о влиянии какого-либо фактора на показатель: если после стандартизации по данному фактору результат изменился – влияние есть, если не изменился - нет; 3) устранять влияние какого-либо фактора на результат: если результативный показатель в какой-либо группе наблюдений в значительной мере обусловлен большими отличиями определенного фактора от обычных значений этого фактора, можно провести стандартизацию по данному фактору и проследить, как изменится результат. Существует три метода стандартизации - прямой, косвенный и обратный. В настоящем пособии будет разобран лишь самый простой и точный – прямой. Он применяется, если известен состав изучаемой совокупности (населения, больных и пр.) по градациям исследуемого фактора и известны необходимые результативные показатели по каждой градации. Например, если при изучении заболеваемости известны возрастной состав населения и повозрастные коэффициенты заболеваемости - можно проводить стандартизацию по возрасту прямым методом. Этапы стандартизации: 1. Вычисление обычных показателей. 2. Выбор стандарта. 3. Вычисление ожидаемых величин в соответствии со стандартом. 4. Определение стандартизованных показателей. 5. Сопоставление обычных и стандартизованных показателей. Задача. Через больницу № 1 за год прошло 1476 больных, из них умерли 61 и летальность составила (61 х 100) : 1476 = 4,1%. Через больницу № 2 за тот же срок прошло 1700 человек, умерли 67, летальность составила (67 х 100) : 1700 = 3,9%. Летальность в больнице № 1 выше, чем в больнице № 2. Означает ли это, что в первой врачи работают лучше? Ведь на уровень летальности может влиять состав больных. Для проверки этой гипотезы проведем стандартизацию по структуре больных в разрезе имеющихся в больницах отделений (см. графы 1 – 3 и 5 – 6 табл. 6.1.). Таблица 6.1. Распределение больных и умерших по отделениям больниц №1 и №2 и стандартизация показателей летальности Отделение | Больница № 1 | Больница № 2 | Стан-дарт (структура больных) | Ожидаемые числа умерших | больных | умерших | летальность | больных | умерших | летальность | в больнице №1 | в больнице №2 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | | | | 5,1 | | | 6,0 | | 2,40 | 2,82 | | | | 2,0 | | | 3,0 | | 0,48 | 0,72 | | | | 3,5 | | | 5,3 | | 0,28 | 0,42 | | | | 4,5 | | | 4,5 | | 0,95 | 0,95 | Всего | | | 4,1 | | | 3,9 | 100 (чел) | 4,11 | 4,9 | Примечание: 1 – хирургическое, 2 – терапевтическое, 3 – неврологическое, 2 – травматологическое. В графах 4 и 7 табл. 6.1. приведены обычные показатели летальности по отделениям больницы, вычисленные по общепринятой методике (первый этап стандартизации): 700 – 100% 36 х 100 36 - х х = ----------------- = 5,1% 300 – 100% 18 х 100 18 - х х = ----------------- = 6,0% и т.д. Второй этап – выбор стандарта – целесообразно осуществлять так: - определить общую численность стандартного населения: если показатели рассчитывались на основание 100, взять 100 человек, если на 1000 – 1000 человек и т. д.; - это число (в нашем случае 100) вписать в последнюю строку графы 8; - распределить это число определенным образом по градациям изучаемого признака (в нашем случае - по отделениям); в принципе распределение может быть произвольным, но лучше провести его в соответствии со структурой одной из сравниваемых групп (в нашем случае – структурой больных по отделениям какой-либо из больниц); так, если взять за основу больницу № 1, то в ней (700 х 100) : 1476 = 47% больных прошло через хирургическое отделение, (350 х 100) : 1476 = 24% - через терапевтическое и т.д.; в соответствии с полученными величинами число 100 распределится: 47 человек – хирургической отделение, 24 человека – терапевтическое и т.д. Вычисление ожидаемых чисел (третий этап) основан на следующих умозаключениях. Если стандартную группу в 100 человек поместить в условия больницы № 1, летальность в этой группе будет соответствовать летальности в больнице № 1. Тогда от 47 человек стандартной группы, помещенных в хирургическое отделение больницы № 1, можно ожидать при летальности 5,1%: 100 чел. – 51 случая смерти 47 х 5,1 47 чел. - х х = ----------------- = 2,40 случая смерти; От 24 человек, помещенных в терапевтическое отделение той же больницы при летальности 2,0%: 100 чел. – 2 случая смерти 24 х 2 24 чел. - х х = ----------------- = 0,48 случая смерти и т.д. по всем отделениям больницы № 1, не затрагивая пока строки «Всего» табл. 6.1. Далее, если такую же стандартную группу в 100 человек поместить в больницу № 2, то уровень летальности в этой группе будет соответствовать летальности уже в этой больнице и составит: для 47 человек в хирургическом отделении при летальности 6,0%: 100 чел. – 6,0 случая смерти 47 х 6,0 47 чел. - х х = ----------------- = 2,82 случая смерти; для 24 человек в терапевтическом отделении при летальности 3,0%: 100 чел. – 3,0 случая смерти 24 х 3,0 24 чел. - х х = ----------------- = 0,23 случая смерти и т.д. по всем отделениям больницы № 2. Для определения стандартизованных показателей летальности (четвертый этап) необходимо ожидаемые числа смертей по отделениям каждой больницы (графы 9 и 10 табл. 6.1.) сложить и записать в последние строки соответствующих граф. Это будут ожидаемые числа случаев смерти от 100 человек стандартной группы больных в условиях больниц № 1 и № 2. А поскольку число случаев смерти определено к основанию 100, его можно называть показателем летальности, а именно: стандартизованным показателем летальности в больницах № 1 и № 2. Остается сопоставить стандартизованные показатели с обычными (пятый этап) и сделать выводы. Выводы: 1. Обычные показатели говорят о более высокой летальности в больнице № 1. 2. После стандартизации по структуре больных по отделениям показатель летальности в больнице № 2 стал выше, чем в больнице № 1. 3. Заключение: если бы структура больных в больницах № 1 и № 2 была одинаковой, то летальность была бы выше во второй больнице. У некоторой части читателей может появиться вопрос: каким же показателям верить – обычным или стандартизованным? Какие из них истинны? Истинны, конечно, обычные показатели летальности. Они отражают фактическое состояние дел. Стандартизованные же показатели – это уже анализ, это выявление причин, обусловливающих конечные результаты. В связи с этим требуется сделать несколько замечаний. 1. Сопоставлять друг с другом можно лишь те стандартизованные показатели, которые вычислены с применением одного стандарта. 2. Изменение стандарта всегда приводит к изменению показателей, но при любом стандарте соотношение полученных по данному стандарту показателей будет соответствовать определенным закономерностям, обусловленным качественными различиями сравниваемых групп. 3. Сравнивать с помощью метода стандартизации можно только сопоставимые явления. Так, бессмысленно исследовать зависимость сроков пребывания больных в хирургическом и неврологическом отделениях, т.к. пришлось бы проводить стандартизацию по структуре больных в плане различных нозологий. Но последние как раз и служат причиной госпитализации в то или иное отделение. Можно сравнивать два и более одноименных отделения в разных больницах, территориальные поликлиники, сельские участки и т.п. Глава 7. Средние величины Средняя величина – это сводная обобщающая характеристика статистической совокупности. Она характеризует всю совокупность одним числом, подчеркивая в ней основное, типичное. Средних величин в статистике достаточно много. В настоящем пособии будет рассмотрена самая распространенная в здравоохранении и медицине – средняя арифметическая, к категории которой относятся многие показатели: средняя длительность пребывания на койке, средняя занятость койки в году, среднее число посещений в поликлинику, средняя длительность нетрудоспособности и т.п. Вычислять среднюю арифметическую медицинские работники, как правило, умеют. Однако определение величины средней еще не означает, что все расчеты окончены и полученный показатель можно использовать при отчетах или при анализе. Необходимо решить, можно ли полученной средней пользоваться как обобщающей характеристикой совокупности, типична ли она для данной совокупности, в каких пределах может колебаться? 7.1. Вариационный ряд. Для ответа на перечисленные вопросы необходимо рассчитать целый ряд величин, который получают в процессе обработки вариационных рядов – параметры вариационных рядов. Отсюда происходит и название данного раздела статистики – параметрическая статистика[7]. Вариационный ряд – это числовое распределение предметов или явлений по изучаемому изменяющемуся (варьирующему) признаку. Вариационный ряд выражает зависимость между величиной отдельных значений признака и частотой их проявления. Состоит вариационный ряд из вариант (V) и частот (Р). Варианта – меняющийся признак изучаемого явления (рост, вес, число заболеваний за год и т.п.). Частота – число, указывающее, сколько раз данная варианта встречается в генеральной совокупности. Интервал между минимальной и максимальной вариантой называется амплитудой ряда. Чем больше амплитуда - тем вариабельнее, изменчивее изучаемый признак и тем менее типичной может быть средняя величина. Различают два вида вариационных рядов: дискретные, в которых варианты выражаются только целыми числами (табл. 7.1.1.) и непрерывные, где варианты могут быть дробными числами (табл. 7.1.2.). Таблица 7.1.1. Распределение жителей населенного пункта Н. по числу простудных заболеваний, перенесенных в 1990 г. Число простудных заболеваний за год – V | Число жителей – Р | | | | | | | | | | | | | | | | | Итого | | Таблица 7.1.2. Распределение больных терапевтического отделения по возрасту Возраст – V | Число больных – Р | 10 – 19 | | 20 – 29 | | 30 – 39 | | 40 – 49 | | 50 – 59 | | 60 – 69 | | Итого | | Для того, чтобы уменьшить длину ряда, варианты в нем можно группировать. Так, в ряду из табл. 7.1.1. можно произвести группировку по две варианты (табл. 7.1.3) или более. Таблица 7.1.3. Распределение жителей населенного пункта Н. по числу простудных заболеваний, перенесенных в 1990 г. Число простудных заболеваний за год – V | Число жителей – Р | 0 – 1 | | 2 – 3 | | 4 – 5 | | 6 – 7 | | Итого | | Таким образом, дискретные ряды могут быть сгруппированными или несгруппированными. Непрерывные же ряды изначально являются сгруппированными; при необходимости они могут преобразовываться и далее с формированием более крупных групп вариант. В дальнейшей работе с вариационными рядами придется находить произведения каждой варианты на ее частоту. Эта операция легко осуществляется в несгруппированных рядах, а в сгруппированных невозможна без определения для каждой группы так называемых центральных вариант. В дискретных рядах центральная варианта равна полусумме крайних значений вариант интересующей группы. В группе «0 – 1» это будет (0 + 1) : 2 =0,5; в группе «2 – 3» - (2 + 3) : 2 = 2,5 и т.д. В непрерывных рядах центральная варианта равна полусумме первых значений интересующего и последующего интервалов. Для интервала «30 – 39» - (30 + 40) : 2 = 35; для интервала «60 – 69» - (60 + 70) : 2 = 65, т.к. хотя в ряду и нет варианты «70», имеется в виду, что после группы «60 – 69» должна следовать группа «70 – 79». В заключение раздела 7.1. необходимо отметить, что преобразования дискретных рядов не изменяют их сути. Даже если центральные варианты в них, а в дальнейшем – и средние арифметические, выражаются дробными числами, содержательный смысл первоначальных вариант не изменяется: человек не может заболеть 2,8 раза или пролежать в больнице 12,6 дня (отчетных). В любом случае в указанных рядах варианты будут отмечаться целыми числами. 7.2. Требования, предваряющие определение параметров вариационного ряда. До вычисления средних величин и определения др. параметров вариационных рядов необходимо проверить, соответствует ли анализируемый материал трем обязательным требованиям, нарушение которых так или иначе ведет к ошибкам. Требование первое - качественная однородность единиц, составляющих анализируемую статистическую совокупность. Чтобы сразу стало понятно, о чем идет речь, разберем условный пример. Пусть требуется установить средний срок нетрудоспособности в группе больных. Формально для этого нужно поделить общее число дней нетрудоспособности на число больных, что и делается на практике безо всяких дополнительных размышлений. Но может случиться так, что упомянутая группа состоит из двух частей: больных гепатитом и больных с острыми респираторными заболеваниями (ОРЗ). Первые в массе своей будут иметь длительные сроки нетрудоспособности, измеряемые десятками дней, а у вторых нетрудоспособность будет ограничена несколькими днями. Формальный подход, безусловно, приведет к получению среднего срока нетрудоспособности. Но этот срок не будет типичен ни для всей группы больных в целом, ни для одной из подгрупп. Ориентироваться на такой показатель, строить какие-то планы тут бессмысленно, ибо не достигнута основная цель расчета средней – выявление обобщающей характеристики статистической совокупности. Приведенный пример подобран специально – чтобы выпукло показать необходимость расчета средних величин в качественно однородных совокупностях. И вряд ли требуется кого-то убеждать, что нужно определять отдельно средние сроки нетрудоспособности в каждой подгруппе больных – это естественно и просто соответствует здравому смыслу. Однако в жизни очень часто средние рассчитываются в качественно неоднородных совокупностях! Разберем хотя бы два очень распространенных показателя. Первый – средняя длительность пребывания на койке в стационаре. Если в больнице несколько отделений, то средний показатель по учреждению может быть нетипичным для части из них. Тем не менее в отчетах и при анализе употребляются обобщающие показатели по больнице и много реже – по отделениям или группам больных. Второй показатель – среднее число посещений в поликлинику на одного человека в год. Имеется в виду – на некоего одного усредненного человека. Но при этом теряются различия между молодыми и старыми людьми, хронически больными и здоровыми, имеющими медицинской обслуживание по месту работы и не имеющими. Приведенные и многие другие показатели в обобщающем виде приемлемы при оценке явлений на больших территориях, среди многочисленных контингентов населения. В рамках же отдельного медицинского учреждения они требуют уточнения по группам населения, больных, по подразделениям учреждения и т.п. Требование второе - достаточность наблюдений. Поскольку средние величины призваны обобщать какую-то типичную характеристику совокупности, последняя должна быть достаточной по численности. Методика определения необходимого объема совокупности описана в разделе 2.5.3. Здесь лишь отметим, что совокупности численностью менее 30 считаются малыми и имеют ряд особенностей, учесть которые трудно. По возможности лучше избегать анализа таких малых групп. Требование третье - учет вида распределения. Прежде, чем говорить об учете вида, нужно разъяснить, что такое распределение. Сделаем это с использованием вариационного ряда из таблицы 7.1.1. и изобразим его графически (рис. 7.2.1.). Если в системе координат (по горизонтальной оси которой отмечены варианты, а по вертикальной – частоты) отметить точки, соответствующие этому ряду, а затем точки соединить – получится кривая распределения вариант в соответствии с их частотами. Рисунок 7.2.1. Вид (форма) этой кривой будет нас интересовать в связи со следующими положениями. Большинство явлений в природе имеют в принципе похожее распределение вариант, названное нормальными. Не вдаваясь в математическое описание нормального распределения отметим, что оно характеризуется колоколообразной формой с постепенным увеличением частот от начала до середины ряда и симметричным сокращением частот от середины к концу ряда (см. рис. 7.2.2.). Те методы анализа, которые описываются в главе 7, разработаны для явлений, имеющих только нормальное распределение. Рисунок 7.2.2. Для других видов распределений они не годятся. В связи с этим при расчете средних в здравоохранении необходимо хотя бы приблизительно оценивать вид распределения: если оно приближается к нормальному – пользоваться методами главы 7 можно; если не приближается – нельзя. Так, могут встречаться распределения, имеющие максимальные частоты в начале ряда (рис. 7.2.3) или в конце (рис. 7.2.4.). Их называют пуассоновским распределением и здесь требуются специальные методы анализа.  Рисунок 7.2.3. Рисунок 7.2.4. Особо следует отметить распределения, изображенные на рисунках 7.2.5. – 7.2.6. Если кривая образует два и более горба (рис. 7.2.5) или «плато» (рис. 7.2.6), это, скорее всего, свидетельствует о качественной неоднородности анализируемой совокупности. Рисунок 7.2.5. Рисунок 7.2.6. Так, кривая распределения в примере с группой больных гепатитом и ОРЗ имела бы именно два «горба», образовавшихся в результате смешения двух нормальных распределений. Если построить кривые распределения отдельно для больных с гепатитом и ОРЗ, получится два нормальных распределения. Возвращаясь к рис. 7.2.1. и сравнивая его с рис. 7.2.2. – 7.2.4. можно отметить, что это распределение приближается именно к нормальному. Следовательно, тут применимы все методы анализа явлений с нормальным распределением. 7.3. Алгоритм обработки вариационных рядов. Обобщая уже изложенное и дополняя новыми требованиями, можно построить алгоритм обработки вариационных рядов. 1. Оценка качественной однородности изучаемой группы. 2. Определение достаточности наблюдений. 3. Оценка вида распределения. 4. Если изучаемая группа однородна, достаточна по численности и нормальна по распределению – вычисление средней величины (в нашем случае – средней арифметической - х). 5. Вычисление среднего квадратического отклонения - сигмы ( ). 6. Оценка типичности средней через сигму. 7. Если средняя типична, т.е. удовлетворяет требованиям х > 3 , то расчет средней ошибки средней арифметической (m). 8. Определение границ нахождения истинной величины средней арифметической. Пример. Определить среднюю длительность пребывания больных на койке в терапевтическом отделении. На практике подобные задачи решаются чрезвычайно просто – путем деления общего числа проведенных больными койко-дней на число больных. Если 350 больных провели 6365 койко-дней, то средняя длительность пребывания одного больного составит 6365 : 350 = 18,2 дня. Но такой расчет не позволяет оценить типичность средней, а также полностью исключает возможность получения других параметров, знание которых можно с большой пользой использовать в процессе управления здравоохранением. Для того, чтобы рассчитать нужные параметры построим вариационный ряд (табл. 7.3.1., графы 1 – 2). Таблица 7.3.1. Определение средней длительности пребывания больных на койке в терапевтическом отделении Длительность пребывания - V | Число больных – Р | VР | V Р | | | | | 1 – 5 (3) | | | | 6 – 10 (8) | | | | 11 – 15 (13) | | | | 16 – 20 (18) | | | | 21 – 25 (23) | | | | 26 – 30 (28) | | | | 31 – 35 (33) | | | | Итого: | n = 350 | | | Примечание: в скобках в графе 1 даны центральные варианты соответствующих интервалов (см. раздел 7.1.). Изучаемую группу больных терапевтического отделения будем считать качественно однородной, если впоследствии это не будет опровергнуто при оценке типичности средней. Число наблюдений (n = 350) также пока будем считать достаточным, хотя это утверждение тоже может оказаться неверным. Анализ частот в графе 2 таблицы 7.3.1. показывает, что от начала ряда примерно до его середины идет рост, затем – сокращение чисел. Это позволяет говорить о приближении распределения к нормальному. Удовлетворение требований трех первых шагов алгоритма дает право перейти к расчетам, для чего потребуются произведения вариант на их частоты (графа 3) и произведения квадратов вариант на их частоты (графа 4). Средняя арифметическая (х) находится по формуле: VР 6365 х = ------------------ = -------------- = 18,2 n 350 Сигма ( ): V Р 127865 = ---------------- - х = -------------------- - 18,2 = + 5,8 n 350 Теперь наступает важный момент – оценка типичности средней. Упрощая по возможности расчеты, можно утверждать, что средняя типична, если равна или несколько превышает размер утроенной сигмы: х > 3 . Средняя не типична при х < 3 . В примере: 18,2 > 3 (3 х 5,8 = 17,4), т.е. средняя типична и ею можно пользоваться как обобщающей характеристикой совокупности. Средняя ошибка средней величины (m) определяется так: 5,8 m = ----------------- = ---------------------- = + 0,31 n – 1 350 - 1 Теперь получены все расчетные параметры ряда в соответствии с алгоритмом, и остается определить, в каких границах вокруг вычисленной величины средней арифметической (хв) может находиться истинная величина средней арифметической (хист): хист = хв + t х m, где t – коэффициент достоверности Стьюдента. В примере при t = 2, хист = 18,2 + 2 х 0,31 = 18,2+0,62 или, другими словами: с уверенностью 95% можно утверждать, что истинная величина среднего срока пребывания на койке находится в интервале от 17,58 дня до 18,82 дня. В данном случае разница не представляется существенной. Но нужно помнить, что при анализе другой совокупности она может быть значительно больше, и это немаловажно при пользовании средней величиной. 7.4. Использование среднего квадратического отклонения – сигмы. Незнание работниками здравоохранения основ санитарной статистики в значительной мере обедняет арсенал методов анализа. Очень характерно в этом плане выглядит возможность использования сигмы. Ниже перечислены основные типы задач, при решении которых целесообразно применение сигмы. 7.4.1. Оценка типичности средней арифметической (см. раздел 7.3.). 7.4.2. Вычисление средней ошибки средней арифметической (см. раздел 7.3.). 7.4.3. Расчет коэффициента вариации (V):  V = -------- х 100% х Коэффициент вариации представляет собой процентное отношение сигмы к средней арифметической. Этот показатель удобен при сопоставлении вариабельности средних величин. Например, требуется выяснить, какой признак более изменчив, вариабелен – средняя длительность пребывания на койке (с) или среднее число посещений в поликлиники на 1 человека в год (п)? Если с = 18,2 при = 5,8 дня, а п = 10,1 посещений при = 5,3 посещений, тогда: 5,8 V1 = -------- х 100% = 31,9%; 18,2 5,3 V2 = -------- х 100% = 52,5%. 10,1 Переход от поименованных показателей, выраженных в днях и посещениях, к одноименным – процентам, позволяет сопоставить их и сделать вывод: изменчивость второго показателя намного больше, чем первого. Следовательно, люди по числу посещений могут отличаться значительно сильнее, чем по срокам пребывания на койке. Это нужно учитывать при планировании медицинской помощи. Кроме того, величина V>33% говорит о качественной неоднородности статистической совокупности[8] и, следовательно, нетипичности средней арифметической. 7.4.4. Оценка отдельных вариант относительно средней арифметической. Очень распространенными (и часто не решаемыми на практике) являются задачи, в которых звучит вопрос такого характера: относить ли полученную варианту к большим величинам? или к малым? Например, в 1999 году уровень заболеваемости в городе Н. составил 1150%о. Много это или мало? Обычно в подобной ситуации руководители здравоохранения начинают сравнивать полученный показатель со средним по стране, среднереспубликанским, среднеобластным. Но это не позволяет ответить на поставленный вопрос по крайней мере по двум причинам. Во-первых, если, например, среднереспубликанский уровень составляет 1200%о, сравнение его с 1150%о говорит о том, что в городе Н. заболеваемость ниже, чем в республике. А много ли 1150%о для города Н. или мало – неизвестно. Во-вторых, сопоставление показателя, полученного в рамках какого-то учреждения здравоохранения или населения определенной территории с показателем, вычисленным по другим учреждениям или территориям, имеет относительно меньшую ценность. Более информативно для управления здравоохранением выявление динамики явления именно на данной территории, в данном учреждении. Это важно знать для того, чтобы ретроспективно[9] оценить правильность и эффективность деятельности здравоохранения и планировать работу на перспективу. Итак, первая попытка – сопоставление фактического показателя с какой-то средней величиной – не привела к решению задачи. Второй попыткой, как правило, бывает сопоставление показателя с аналогичным за прошлый год. Пусть заболеваемость в Н. в 1998 г. составляла 1100%о. Можно заключить, что в 1999 г. заболеваемость выше, но много ли это для Н.? Ответить нельзя, и вторую попытку тоже следует признать неудачной. Вместе с тем существует довольно простой способ оценки уровня заболеваемости – при условии применения сигмы. Способ основан на правиле трех сигм: при нормальном распределении к средним вариантам (но не к средней арифметической!) относятся те, которые заключены в интервале от (х - ) до (х + ); малыми будут варианты в интервале от (х - 2 ) до (х - ), очень малыми – от (х -3 ) до (х -2 ); к большим вариантам следует относить те, что находятся между (х + ) и (х + 2 ), к очень большим – между (х +2 ) и (х +3 ); варианты выходящие за пределы х+3 , следует считать выдающимися (возможно «выскакивающими» - см. 7.4.5.) и анализировать специально. Для использования правила трех сигм в нашем примере необходимо иметь сведения о заболеваемости в Н. за ряд лет. По этим данным можно рассчитать средний уровень заболеваемости за ряд лет и определить величину сигмы. Предположим, что средний уровень заболеваемо |