- Правова система ipLex360
- Законодавство
- Наказ
ДЕРЖАВНИЙ КОМІТЕТ СТАТИСТИКИ УКРАЇНИ
Н А К А З
Про затвердження Методики розрахунку системи статистичних ваг для поширення результатів вибіркового обстеження населення (домогосподарств) з питань економічної активності на генеральну сукупність
Відповідно до статті
14 Закону України
"Про державну статистику" та з метою удосконалення системи показників стану економічно активного населення, їх аналізу та використання
НАКАЗУЮ:
1. Затвердити та ввести в дію з 01 грудня 2006 року схвалену методичною комісією Держкомстату Методику розрахунку системи статистичних ваг для поширення результатів вибіркового обстеження населення (домогосподарств) з питань економічної активності на генеральну сукупність (далі - Методика), що додається.
2. Департаменту статистики праці (Григорович Н.В.):
2.1. Запровадити у практику роботи методику, затверджену пунктом 1 цього наказу.
2.2. Довести Методику, затверджену пунктом 1 цього наказу до відома Головних управлінь статистики в Автономній Республіці Крим, областях, у м. Києві та Управління статистики у м. Севастополі.
3. Визнати таким, що втратив чинність з 01 грудня 2006 року наказ Держкомстату України від 09.04.2001 N 185 "Про затвердження методики розповсюдження на генеральну сукупність результатів щоквартального вибіркового обстеження економічної активності населення".
4. Контроль за виконанням цього наказу покласти на заступника Голови Власенко Н.С.
ЗАТВЕРДЖЕНО
Наказ Держкомстату України
14.11.2006 N 520
МЕТОДИКА
розрахунку системи статистичних ваг для поширення результатів вибіркового обстеження населення (домогосподарств) з питань економічної активності на генеральну сукупність
АНОТАЦІЯ
Методика визначає основні принципи та порядок розрахунку системи статистичних ваг домогосподарств та осіб у вибірковому обстеженні населення (домогосподарств) з питань економічної активності України. Система ваг призначена для науково-обґрунтованого поширення результатів обстеження на генеральну сукупність - все населення України у віці 15-70 років - та забезпечує підвищення якості вимірювання основних показників економічної активності населення шляхом урахування імовірностей включення одиниць до вибірки, рівнів відмов від обстеження по групах домогосподарств та осіб, даних демографічної статистики щодо чисельності та розміщення населення, його статево-вікової структури тощо.
Методика ґрунтується на сучасних методологічних засадах поширення на генеральну сукупність результатів вибіркових обстежень населення, що використовуються в міжнародній практиці, і є однією з основних складових методичного забезпечення проведення вибіркового обстеження населення (домогосподарств) з питань економічної активності у 2004-2008 роках. Процедури та алгоритми розроблені з урахуванням вимог використання сучасних комп'ютерних технологій для обробки статистичної інформації, зокрема на основі пакету SPSS.
Дослідження та практичні роботи виконані за підтримки проекту технічної допомоги в галузі статистики Міністерства у справах міжнародного розвитку Сполученого Королівства Великої Британії та Північної Ірландії.
Представлена методика впроваджується в дію замість Методики розповсюдження на генеральну сукупність результатів щоквартального вибіркового обстеження економічної активності населення, затвердженої наказом Державного комітету статистики України від 9 квітня 2001 року N 185.
Методику призначено для використання працівниками органів державної статистики насамперед на державному рівні. Тому, з метою покращення якості інформації про ринок праці на регіональному рівні, в подальшому методика може бути адаптована для впровадження відповідних розрахунків на територіальному рівні, а також є корисною для працівників територіальних управлінь статистики, зацікавлених користувачів статистичної інформації, фахівців наукових організацій і навчальних закладів, що проводять дослідження в галузі методології вибіркових обстежень.
Методику розроблено фахівцями Інституту демографії та соціальних досліджень НАН України В.Г.Саріогло, О.М.Гладуном, О.В.Лисою, А.І.Терещенко, фахівцями департаменту статистики праці Держкомстату України Н.В.Григорович, Н.В.Рубльовою, А.В.Солоп, Р.Я.Колесніченко, за участю фахівців департаменту обстежень домогосподарств І.І.Осипової, С.О.Редченко та завдяки консультативної допомоги п. Пола Сміта (Paul Smith) - Голови центру дизайну вибірки та оцінювання Національного офісу статистики Сполученого Королівства.
ЗМІСТ
Передмова
Перелік умовних позначень та символів. Основні терміни
1. Основні принципи поширення результатів вибіркових обстежень населення (домогосподарств) з питань економічної активності на генеральну сукупність
2. Порядок розрахунку складових системи ваг
2.1. Розрахунок базової ваги домогосподарств
2.2. Врахування теоретичної ймовірності відбору
2.3. Врахування відмов домогосподарств від обстеження
2.4. Врахування відмов осіб від обстеження
2.5. Усунення постстратифікаційних ефектів
3. Об'єднання даних, отриманих за основною вибіркою та за вибіркою обстеження сільськогосподарської діяльності домогосподарств
4. Порядок визначення якості системи ваг
5. Інформаційна база розрахунку системи статистичних ваг
5.1. Характеристики вибіркової сукупності домогосподарств
5.2. Результати обстеження
5.3. Додаткові дані
Заключні положення
Перелік посилань
Додаток
ПЕРЕДМОВА
Одним з визначальних факторів, що обумовлює зростаючу популярність вибіркових обстежень населення, як ефективного способу вимірювання найважливіших соціально-економічних і демографічних показників, є можливість обґрунтованого поширення результатів обстежень на генеральну сукупність. Ця можливість базується на принципі репрезентативності, який вимагає незміщеності (близькості) розрахункових оцінок показників (зокрема щодо зайнятості та безробіття), отриманих на основі вибіркових даних, по відношенню до параметрів генеральної сукупності. Принцип репрезентативності вибірки ототожнюється з принципом ймовірності вибірки, за яким кожний елемент генеральної сукупності повинен мати відому позитивну імовірність потрапити до вибірки при її формуванні.
Поширення результатів вибіркового обстеження населення (домогосподарств) з питань економічної активності (далі - ОЕАН) на генеральну сукупність здійснюється шляхом реалізації процедури їх статистичного зважування. При розрахунку системи ваг в ОЕАН проблема полягає в тому, що репрезентативність вибірки необхідно забезпечувати в умовах не лише складного дизайну вибірки, а й при неоднорідних за регіонами та групами населення рівнях відмов від обстеження, в умовах застосування складних методів оцінювання і узгодження результатів обстеження з наявною зовнішньою інформацією.
Основні переваги зважування характеризуються наступними положеннями:
- процедури зважування призначені для врахування реальних ймовірностей включення одиниць до вибірки, що особливо важливо при нерівних ймовірностях відбору;
- ваги дозволяють врахувати фактичні рівні участі одиниць спостереження в обстеженні;
- шляхом зважування зменшується вплив на результати обстеження не вибіркових похибок;
- через систему ваг реалізують процедури поліпшення якості оцінювання показників шляхом використання складних оціночних функцій (оцінки за відношенням, оцінки за регресією тощо) та узгодження результатів обстеження з зовнішньою інформацією (зокрема з застосуванням процедур калібрації);
- системи ваг дозволяють об'єднувати результати різних вибіркових обстежень на нижчих рівнях агрегації даних та на мікрорівні.
В той же час процес зважування ускладнює процедуру обробки даних, зокрема, вимагає більших витрат часу на обробку та аналіз даних. Одночасно зазначений процес зважування може призвести до зниження надійності оцінок показників і є додатковим потенційним джерелом помилок при обробці даних вибіркових обстежень.
Слід зазначити, що для сучасних вибіркових обстежень населення переваги зважування значно перевищують недоліки.
Розрахунок ваг здійснюється з метою визначення результуючої ваги кожної одиниці спостереження, що була обстежена.
Дана методика визначає основні методологічні положення та порядок розрахунку системи статистичних ваг обстежених одиниць (домогосподарств та осіб) при поширенні результатів ОЕАН на генеральну сукупність.
Методика складається з передмови, п'яти розділів заключних положень, переліку використаних джерел та додатку.
У першому розділі розглянуті основні методологічні положення щодо поширення результатів ОЕАН на генеральну сукупність.
У другому розділі представлено безпосередній порядок розрахунку відповідних складових системи ваг, особливості реалізації окремих етапів побудови їх системи та наведені конкретні приклади розрахунків.
Третій розділ присвячений процедурам коригування ваг при об'єднанні даних, отриманих по сільській місцевості за вибіркою ОЕАН та за вибіркою обстеження сільськогосподарської діяльності домогосподарств.
У четвертому розділі розглянуті основні характеристики якості системи статистичних ваг, принципи їх розрахунку та використання.
У п'ятому розділі розглянуті питання інформаційного забезпечення розрахунку системи ваг.
У заключних положеннях обговорюються особливості реалізації процедур розрахунку системи статистичних ваг та напрямки їх подальшого удосконалення.
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ ТА СИМВОЛІВ ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНІВ
Умовні позначення:
ПТОВ - первинна територіальна одиниця вибірки;
ВТОВ - вторинна територіальна одиниця вибірки;
ОЕАН - обстеження економічної активності населення;
ОСГД - обстеження сільськогосподарської діяльності населення.
Основні терміни [1, 2]:
Відбір імовірнісний - відбір, оснований на об'єктивних правилах випадкового відбору, під час якого кожна одиниця сукупності має відомий ненульовий шанс бути включеним до вибірки.
Відбір багатоступеневий - відбір, який відбувається у кілька послідовних ступенів (етапів): на першому ступені з основи вибірки відбираються певні відносно великі одиниці; на другому ступені всередині кожної відібраної на першому ступені одиниці формується своя основа вибірки, з якої відбираються свої одиниці, і так далі за кількістю ступенів відбору.
Вибіркова сукупність (вибірка) - сукупність одиниць спостереження, відібраних із генеральної сукупності за певними правилами, які забезпечують репрезентативність вибірки, для проведення статистичного спостереження.
Вибіркове обстеження населення (домогосподарств) - науково-обгрунтований вид несуцільного спостереження, при якому обстежуються не всі одиниці сукупності, а лише певним чином відібрана їх частина, а одиницею спостереження є особа чи домогосподарство.
Вторинна територіальна одиниця вибірки (ВТОВ) - територіальна одиниця, яка відібрана на другому ступені формування територіальної вибірки при застосуванні багатоступеневого територіального відбору.
Генеральна сукупність - множина одиниць, характеристики яких необхідно дослідити і щодо яких буде зроблено узагальнення за результатами вибіркового обстеження.
Дизайн (план) вибірки - організаційно-логічна модель структури вибіркової сукупності та принципи її формування. Якістю плану вибірки в значній мірі визначається репрезентативність вибіркової сукупності, отриманої за визначеними у плані правилами.
Імовірність - число, яке характеризує ступінь можливості настання певної події. Розраховується як відношення кількості випадків настання події до всіх можливих варіантів.
Калібрація - трансформація (коригування) системи ваг для одиниць спостереження, які прийняли участь у вибірковому обстеженні, шляхом мінімізації функції відстані між калібраційними вагами та вагами, що коригуються, за умови, що калібраційні ваги дають точні оцінки зовнішніх змінних, відомих для генеральної сукупності або її частин.
Обсяг вибірки - кількість одиниць у вибірковій сукупності. Необхідний для забезпечення репрезентативності та належної якості результатів вибіркового обстеження обсяг вибірки розраховують в залежності від способу відбору та типу вибірки. Величина обсягу вибірки залежить від варіації досліджуваних ознак та припустимої похибки вибірки.
Одиниця відбору - одиниця генеральної сукупності чи їх група, або одиниця основи вибірки, яка має ймовірність бути включеною до вибірки при реалізації процедури відбору.
Одиниця вибірки - одиниця відбору, яка увійшла до складу вибірки.
Основа вибірки - упорядкований певним чином перелік, список одиниць відбору. При використанні багатоступеневого відбору на кожному ступені формується своя основа вибірки.
Одиниця спостереження - первинна одиниця, від якої мають бути одержані необхідні статистичні дані. Вибір одиниці спостереження залежить від мети та конкретних умов проведення спостереження.
Первинна територіальна одиниця вибірки (ПТОВ) - територіальна одиниця, яка відібрана на першому ступені формування територіальної вибірки при застосуванні багатоступеневого територіального відбору.
Постстратифікація - трансформація (коригування) системи ваг одиниць спостереження шляхом забезпечення відповідності оцінок показників за результатами вибіркового обстеження зовнішній інформації по певних стратах генеральної сукупності.
Репрезентативність - властивість вибіркової сукупності повно та адекватно відображати основні характеристики генеральної сукупності.
Ротація - заміна частини діючої вибіркової сукупності (або для окремих вибіркових обстежень - її повна заміна) за розробленими схемами при проведенні чергових раундів вибіркового обстеження, яке проводиться на постійній основі.
Статистична вага - 1) кількість одиниць генеральної сукупності, які репрезентує (представляє) одна одиниця вибірки; 2) величина, обернена до ймовірності відбору одиниці вибірки.
Стратифікація - поділ генеральної сукупності (або її частини) на групи, однорідні за певною ознакою.
Територіальна вибірка - відібрані за певною процедурою територіальні одиниці, в яких проводиться вибіркове обстеження.
Територіальна одиниця - адміністративно-територіальна одиниця України (наприклад: міста, селища міського типу, райони, сільради, тощо) або локальна територія, створена в межах адміністративно-територіальної одиниці (наприклад: переписні відділи, інструкторські дільниці, створені для проведення Всеукраїнського перепису населення; виборчі дільниці; території, що обслуговуються поштовими відділеннями, тощо).
1. ОСНОВНІ ПРИНЦИПИ ПОШИРЕННЯ РЕЗУЛЬТАТІВ ВИБІРКОВИХ ОБСТЕЖЕНЬ НАСЕЛЕННЯ (ДОМОГОСПОДАРСТВ) З ПИТАНЬ ЕКОНОМІЧНОЇ АКТИВНОСТІ НА ГЕНЕРАЛЬНУ СУКУПНІСТЬ
Державні статистичні спостереження - вибіркові обстеження населення (домогосподарств) з питань економічної активності в Україні проводяться на основі опитування сукупності неінституційних домогосподарств, що формується за процедурою стратифікованого багатоступеневого випадкового відбору. З 2004 року обсяг щомісячної вибірки становить 18,5 тис. домогосподарств, з яких 7,4 тис. домогосподарств відбираються з вибіркової сукупності домогосподарств обстеження сільськогосподарської діяльності в сільській місцевості. При цьому вибіркова сукупність домогосподарств представлена шістьма приблизно рівними частинами - ротаційними групами, кожна з яких є репрезентативною вибіркою з генеральної сукупності. Щомісяця дві ротаційні групи (третина вибіркової сукупності) за спеціальною схемою заміщуються двома іншими групами - однією новою та ротаційною групою, що була обстежена у відповідному місяці минулого року [3].
У кожному домогосподарстві, яке взяло участь в обстеженні, збирається демографічна інформація по всіх членах домогосподарства і спеціальна інформація щодо економічної активності, зайнятості та безробіття членів домогосподарств віком 15-70 років.
Для науково-обґрунтованого поширення результатів ОЕАН на генеральну сукупність розраховується система статистичних ваг обстежених осіб. Статистичні ваги призначені для врахування загальних імовірностей включення домогосподарств до вибірки, врахування фактичних рівнів відмов домогосподарств та окремих осіб від участі в обстеженні, гармонізації результатів обстеження з даними демографічної статистики щодо чисельності та статево-вікової структури населення тощо [4-6].
У загальному випадку кінцева вага i-ої особи, обстеженої в ОЕАН, розраховується як добуток базової ваги домогосподарства та відповідних вагових коефіцієнтів (коефіцієнтів коригування ваг) за формулою:
w = w * k * ... * k , (1)
i Bi 1i Ei
де w - кінцева вага особи; w - базова вага
i Bi
домогосподарства, членом якого є особа; k , .., k - вагові
1i Ei
коефіцієнти, E - кількість етапів коригування статистичних ваг.
Система вагових коефіцієнтів повинна відображати ефекти впливу всіх етапів коригування ваг на кінцеві ваги осіб.
Для ОЕАН у 2004-2008 роках розрахунок системи статистичних ваг складається з наступних основних етапів:
- розрахунок базових ваг домогосподарств;
- коригування базових ваг для врахування відмінностей між теоретичною та фактичною кількостями відібраних домогосподарств;
- коригування ваг для врахування ступеня участі домогосподарств в обстеженні;
- коригування ваг для врахування ступеня участі осіб в обстеженні;
- коригування ваг для узгодження результатів обстеження з наявною зовнішньою інформацією;
- контроль якості системи ваг.
Етап розрахунку системи базових ваг домогосподарств є визначальним. Як уже відмічалось, призначення базових ваг - це врахування реального дизайну вибірки - принципів побудови, механізмів відбору тощо.
Базова вага є результатом певної послідовності розрахунків. Дизайн вибірки для ОЕАН у 2004-2008 роках обумовлює використання для побудови базових ваг наступних складових [3]:
- імовірність відбору одиниць першого ступеню P (1);
1i
- імовірність відбору одиниць другого ступеню P (2);
2i
- імовірність відбору домогосподарств у межах одиниць вибірки
другого ступеню по міських поселеннях P .
3i
---------------
(1) Одиницями відбору першого ступеню є міські поселення - окремі міста (міськради) або селища міського типу (селищні ради) та сільські ради по сільській місцевості.
(2) По міських поселеннях це інструкторські дільниці (або сукупності інструкторських дільниць), сформовані для проведення Всеукраїнського перепису населення 2001 року, у сільській місцевості - домогосподарства.
Базовою вагою домогосподарства, до якого належить i-та особа, є обернена величина добутку зазначених імовірностей:
-
| 1
| ---------------, по міських поселеннях;
| P * P * P
1 | 1i 2i 3i
w = - = < (2)
Bi p | 1
i | ---------, по сільській місцевості;
| P * P
| 1i 2i
-
В ОЕАН величина загальної імовірності відбору p визначається
i
виходячи з того, що кожне домогосподарство при відборі повинне
мати однакову ймовірність потрапити до вибірки. Вибірка, яка
побудована з урахуванням зазначеної умови, є самозваженою. Для
забезпечення самозваженості вибірки ОЕАН величина p визначається
i
за наступною формулою:
-
| P * P * P , по міських поселеннях;
| 1i 2i 3i
p = f = < (3)
i | P * P , по сільській місцевості;
| 1i 2i
-
де f - частка відбору домогосподарств, яка для самозваженої
вибірки дорівнює відношенню її обсягу до загальної кількості
n
домогосподарств у генеральній сукупності (f = - ). Величина,
N
обернена до f, дорівнює кількості домогосподарств генеральної
сукупності, яку репрезентує одне відібране домогосподарство при
плануванні вибірки.
У відповідності з формулою (3) кількість домогосподарств, які відбираються на останньому етапі формування вибірки по територіальній одиниці h, до якої належить i-та особа, (n ) визначається за наступним теоретичним співвідношенням:
h(i)
-
| p * N f * N
| i 3i 2i
| -------- = ---------, по міських поселеннях;
| P * P P * P
| 1i 2i 1i 2i
n = < (4)
h(i) | p * N f * N
| i 2i 1i
| -------- = ---------, по сільській місцевості;
| P P
| 1i 1i
-
де N - загальна кількість домогосподарств у територіальній
2i
одиниці другого ступеню, до якої належить i-те домогосподарство,
по міських поселеннях; N - загальна кількість домогосподарств у
1i
територіальній одиниці першого ступеню, до якої належить i-те
домогосподарство, по сільській місцевості.
Базові ваги розраховуються на весь термін експлуатації вибірки. Територіальна вибірка для ОЕАН розрахована на п'ять років: 2004-2008 роки.
Теоретична кількість одиниць, яку необхідно відібрати по кожній територіальній одиниці при побудові вибірки і яка забезпечує самозваженість вибірки, залишається саме теоретичною, оскільки на практиці доводиться враховувати такі фактори, як умови роботи статистиків з проведення вибіркових обстежень населення, домогосподарств (далі - статистиків з обстежень) (3), очікувані рівні участі домогосподарств та осіб в ОЕАН, а також виправляти певні похибки в основі вибірки або у процедурах відбору. Тому необхідно скоригувати базові ваги з урахуванням фактичної кількості відібраних домогосподарств. Це здійснюється шляхом введення спеціального коефіцієнту коригування ваг для врахування фактичної кількості відібраних домогосподарств.
---------------
(3) Наприклад, забезпечувати їх рівномірну завантаженість.
Якість результатів ОЕАН може суттєво погіршуватися внаслідок впливу такого явища як відмови домогосподарств та осіб від обстеження. Це явище призводить до викривлення параметрів вибіркової сукупності, що побудована як самозважена, у порівнянні з параметрами генеральної сукупності. Зокрема, при обстеженнях населення у вибірці спостерігається надлишок представників старших вікових груп обох статей і не вистачає представників молодших вікових груп, серед яких кількість відмов значно вища і, крім того, яких важче застати вдома. Якщо не враховувати ці викривлення, то, відповідно, всі характеристики домогосподарств будуть зміщені в бік домогосподарств, що включають осіб старшого та похилого віку або складаються лише з таких осіб. Особливо це стосується територій зі значними рівнями відмов.
Одним з найбільш розповсюджених і теоретично обґрунтованих методів врахування випадків неодержання відповідей при обробці даних вибіркових обстежень є коригування статистичних ваг, сутність якого полягає в завищенні ваг одиниць, які мають характеристики, аналогічні характеристикам одиниць, що не були обстежені.
Коригування ваг для компенсації відмов включає розділення вибірки на систему комірок (класів зважування) та розрахунок коефіцієнту для коригування ваг одиниць по кожній комірці як частки відповідей. Процедура коригування ваг включає наступні кроки:
- розділення вибіркової сукупності домогосподарств на групи (комірки зважування), що охоплюють всю цю сукупність і не перетинаються;
- обчислення ступеня участі одиниць в обстеженні для кожної комірки;
- визначення єдиного коефіцієнту коригування ваг для всіх одиниць комірки як величини, оберненої до рівня участі домогосподарств в обстеженні по комірці.
Комірки для коригування ваг формуються як за змінними дизайну вибірки (тобто, на основі зовнішньої інформації, що використовується при формуванні вибірки, прикладами якої є: адміністративно-територіальний поділ України, тип населених пунктів тощо), так і за змінними, визначеними за результатами обстеження (тип домогосподарства, кількість членів домогосподарства тощо).
Для узгодження результатів вибіркового обстеження з наявною додатковою інформацією щодо певних характеристик генеральної сукупності здійснюється спеціальне коригування системи статистичних ваг.
Доцільність узгодження результатів обстеження з зовнішньою інформацією обумовлюється такими обставинами:
1) оцінки показників за результатами вибіркового обстеження завжди характеризуються певною похибкою, джерелами якої є несуцільність обстеження (похибка вибірки) і наявність так званих невибіркових похибок;
2) вибіркове обстеження населення не може забезпечити оцінок певних характеристик генеральної сукупності, наприклад, оцінки загальної чисельності населення або загальної кількості домогосподарств. Хоча ці оцінки й отримуються за результатами обстеження, вони відображають головним чином параметри, що були закладені при формуванні вибірки;
3) основні характеристики генеральної сукупності змінюються у часі і відповідно окремі з них на момент завершення обробки даних обстеження дещо відрізняються від таких, якими вони були під час організації обстеження.
Найбільш обґрунтованим шляхом вирішення всіх цих проблем є коригування статистичних ваг домогосподарств. Статистико-математичні методи, що застосовуються в теперішній час для коригування системи статистичних ваг з метою узгодження результатів обстежень з додатковою інформацією, мають загальну назву методів калібрації [7]. Калібрація системи статистичних ваг полягає у її трансформації (коригуванні) шляхом вирішення математичної задачі мінімізації спеціальної функції відстані між калібраційними вагами та вагами, що коригуються, за умови, що калібраційні ваги забезпечують оцінки показників для генеральної сукупності або її частин, які відомі з зовнішніх даних. Окремим спрощеним варіантом калібрації є метод постстратифікації, який застосовується у випадку, коли наявні надійні зовнішні дані по певних стратах (комірках) генеральної сукупності, які охоплюють всю сукупність і не перетинаються. Зазначені страти, як правило, відрізняються від страт, що були побудовані при формуванні вибіркової сукупності. За таких умов коефіцієнти для коригування системи ваг визначаються по кожній страті окремо, як відношення значення показника за зовнішніми даними до оцінки показника за результатами обстеження або як коефіцієнти, що приводять структуру генеральної сукупності за результатами обстеження до її структури за зовнішніми даними.
За останні роки розроблено методологічні основи, методики, процедури, що дозволяють ефективно коригувати статистичні ваги для забезпечення узгодженості результатів обстеження з додатковою інформацією, накопичено значний досвід з питань аналізу зовнішніх джерел даних.
Для постстратифікації статистичних ваг в обстеженнях економічної активності використовуються, насамперед, дані демографічної статистики щодо чисельності, розміщення та статево-вікової структури населення у працездатному віці.
Важливою перевагою використання системи ваг є те, що це дозволяє об'єднувати результати різних вибіркових обстежень на мікрорівні. При обстеженні населення з питань економічної активності об'єднуються щомісячні дані, отримані за різними вибірками. А саме дані, отримані на основі вибірки, побудованої виключно для цілей ОЕАН, з даними, отриманими по сільських домогосподарствах, що крім ОЕАН підлягають обстеженню за програмою вибіркового обстеження їх сільськогосподарської діяльності (ОСГД). Це вимагає відповідного коригування системи ваг.
Для ідеальної самозваженої вибірки (при ідеальній реалізації всіх процедур відбору та всіх етапів обстеження) потреби в аналізі системи ваг немає, оскільки ваги всіх одиниць вибірки однакові. На практиці вибірка завжди відхиляється від стану самозваженості за рахунок таких факторів, як наявність у списках для відбору адрес неіснуючих домогосподарств, відхилення навантаження статистиків з обстежень від теоретично визначеної величини, відмов домогосподарств та одиниць від обстеження, що мають різний рівень в різних територіальних одиницях, тощо. У зв'язку з впливом ваг на якість оцінок показників постає нестандартна проблема жорсткого контролю за якістю самих ваг. У державних обстеженнях населення необхідно аналізувати якість системи ваг і використовувати всі можливості для її поліпшення.
У відповідності з наведеними принципами, побудовано порядок розрахунку системи ваг ОЕАН, який схематично представлений на рис. 1.
за вибіркою ОЕАН за вибіркою ОСГД
--------------------------------- ---------------------------------
| Розрахунок базових ваг | | Розрахунок базових ваг. |
| | | Контроль якості базових ваг |
--------------------------------- ---------------------------------
| |
--------------------------------- |
|Коригування ваг домогосподарств| |
| для врахування фактичних | |
| імовірностей відбору. | |
| Контроль якості ваг | |
--------------------------------- |
| |
--------------------------------- ---------------------------------
|Коригування ваг домогосподарств| |Коригування ваг домогосподарств|
| для врахування відмов | | для врахування відмов |
|домогосподарств від обстеження.| |домогосподарств від обстеження.|
| Контроль якості ваг | | Контроль якості ваг |
--------------------------------- ---------------------------------
| |
--------------------------------- ---------------------------------
| Коригування ваг осіб для | | Коригування ваг осіб для |
| врахування відмов осіб від | | врахування відмов осіб від |
| обстеження. | | обстеження. |
| Контроль якості ваг | | Контроль якості ваг |
--------------------------------- ---------------------------------
| |
--------------------------------- ---------------------------------
| Коригування ваг осіб для | | Коригування ваг осіб для |
| врахування статево-вікової | | врахування статево-вікової |
| структури. | | структури. |
| Контроль якості ваг | | Контроль якості ваг |
--------------------------------- ---------------------------------
| |
| ЗЛИТТЯ ДАНИХ |
| |
----------------- ------------------
| |
---------------------------------------
|Коригування ваг при об'єднанні даних,|
| отриманих за вибіркою ОЕАН |
| та за вибіркою ОСГД |
---------------------------------------
|
---------------------------------------
| Коригування ваг осіб для врахування |
| статево-вікової структури. |
| Контроль якості ваг |
---------------------------------------
Рис. 1. Етапи розрахунку статистичних ваг для ОЕАН
2. ПОРЯДОК РОЗРАХУНКУ СКЛАДОВИХ СИСТЕМИ ВАГ ОЕАН
2.1. Розрахунок базової ваги домогосподарств
2.1.1. Розрахунок базової ваги домогосподарств міських
поселень
Визначення імовірності відбору одиниць першого ступеня P
1i
А. Саморепрезентативні міські поселення
Великі міста
Саморепрезентативними є одиниці відбору першого ступеня з
розміром (чисельністю населення) вище встановленого порогу
саморепрезентативності. Для таких одиниць відбору P = 1.
1i
Порогове значення чисельності n визначається за формулою:
p
N
n = - * m * m ; (5)
p n f
де n - обсяг квартальної вибірки, домогосподарств; m -
квартальне навантаження статистика з обстежень (кількість
домогосподарств, яка має бути обстежена одним статистиком з
обстежень протягом одного кварталу), домогосподарств; m -
f
середній розмір домогосподарства, осіб; N - обсяг генеральної
сукупності, домогосподарств.
Для міських поселень з чисельністю населення 100 тис. осіб
параметри ОЕАН мають наступні значення: загальна кількість
неінституційних домогосподарств в Україні N = 17609000; обсяг
вибірки ОЕАН n = 31800; навантаження статистика з обстежень в
ОЕАН
ОЕАН m = 72 домогосподарства; середній розмір домогосподарства
ОЕАН
m = 2,62 особи. Поріг саморепрезентативності:
f
n = 553,75 * 72 * 2,62 приблизно = 104500 чол. (6)
p
Таким чином, міські поселення з чисельністю населення n >= 104,5 тис.чол. (саморепрезентативні міста) включалися у вибірку з імовірністю, рівною одиниці.
Малі міста
Враховуючи, що за принципами організації ОЕАН квартальне
навантаження статистиків з обстежень у малих містах нижче, ніж у
великих, відповідно 54 і 72 домогосподарства, то необхідно
виділити саморепрезентативні малі міста, які також включаються до
вибірки з імовірністю рівною одиниці. Для малих
m = 54 домогосподарства; середній розмір домогосподарства
ОЕАН
m = 2,65 особи.
f
Поріг саморепрезентативності n :
p2
n = 553,75 * 54 * 2,65 приблизно = 79242 чол. (7)
p2
Таким чином, у вибірці 2004-2008 років для ОЕАН представлені
всі міські поселення з чисельністю населення більше 79 тисяч осіб.
Б. Несаморепрезентативні міські поселення
Несаморепрезентативні міські поселення відбирались по кожному
регіону (по кожній страті) окремо. Кількість
несаморепрезентативних міст (a), яку необхідно відібрати у
регіоні, визначалась шляхом ділення чисельності населення всіх
несаморепрезентативних міст регіону на навантаження статистика з
обстежень в цих містах (m = 54 домогосподарства) та середній
ОЕАН
розмір домогосподарств в них (m = 2,65 особи).
f
Для міських поселень з населенням менше 79 тисяч осіб імовірність відбору у регіоні розраховується за формулою:
M
альфа
P = (a * ------------), (8)
1i S M
альфа альфа
де: a - кількість відібраних малих міст у регіоні;
M - чисельність населення міста, для якого розраховується
альфа
P ; S M - загальна чисельність населення
1i альфа альфа
несаморепрезентативних малих міст у регіоні; S - знак суми.
Визначення імовірності відбору одиниць другого ступеня P
2i
Імовірність відбору одиниць другого ступеня P (по
2i
міських поселеннях - це території інструкторських дільниць,
створених для проведення Всеукраїнського перепису населення
2001 року) розраховується за формулою:
M
бета
P = (b * -----------), (9)
2i S M
бета бета
де: b - кількість ВТОВ, відібраних у конкретному місті;
M - чисельність постійного населення за даними перепису у
бета
ВТОВ, для якої розраховується P ; S M - загальна
2i бета бета
чисельність населення у відібраному місті; S - знак суми.
Якщо розміри територіальних одиниць другого ступеня суттєво
відрізняються у межах міста, може виникнути ситуація, коли
ймовірність відбору P буде дорівнювати, або перевищувати
2i
одиницю. У такому випадку ймовірність відбору ВТОВ приймається за
одиницю, її чисельність населення віднімається від загальної
чисельності населення міста, а при розрахунку ймовірності відбору
інших ВТОВ, b зменшується на одиницю. Тобто, така велика за
чисельністю населення ВТОВ враховується як саморепрезентативна.
Загальна імовірність включення до вибірки ВТОВ розраховується
як добуток імовірностей P і P для кожної ВТОВ. При
1i 2i
формуванні вибірки необхідно аналізувати загальні імовірності
відбору ВТОВ для виявлення можливих похибок, які відображаються,
зокрема, у вигляді окремих нестандартних значень (аутлайєрів), що
суттєво відрізняються від середнього значення імовірності і можуть
призвести до погіршення якості системи ваг.
У випадку виявлення аутлайєрів застосовуються спеціальні процедури їх коригування, зокрема, процедури імпутації.
Визначення імовірності відбору домогосподарств P
3i
Теоретична імовірність відбору i-го домогосподарства в межах відібраної ВТОВ розраховується, виходячи з формули:
f
P = -----------, (10)
3i (P * P )
1i 2i
де f- частка відбору домогосподарств.
За таких умов базова вага, однакова для всіх домогосподарств, визначається за формулою:
1 1
w = --------------- = -. (11)
Bi P * P * P f
1i 2i 3i
2.1.2. Розрахунок базової ваги домогосподарств сільської
місцевості
Визначення імовірності відбору одиниць першого ступеня P
2i
Імовірність включення до вибірки одиниць першого ступеня
відбору у сільській місцевості (сільських рад) P по кожному
1i
району розраховується за формулою:
M
c
P = (c * ----), (12)
1i S M
c c
де: c - кількість відібраних сільських рад у районі;
M - кількість домогосподарств відібраної сільської ради, для
c
якої розраховується P ; S M - загальна кількість домогосподарств
1i c c
у сільському районі; S - знак суми.
Визначення імовірності відбору домогосподарств P
2i
Теоретична імовірність відбору i-го домогосподарства відібраної сільської ради розраховується за формулою (див. формулу 3):
f
P = ---. (13)
2i P
1i
За таких умов базова вага, однакова для всіх домогосподарств, дорівнює:
1 1
w = --------- = -. (14)
Bi P * P f
1i 2i
2.1.3. Розрахунок частки відбору домогосподарств f
При формуванні вибіркової сукупності домогосподарств для ОЕАН
n
ОЕАН 31800
у 2004 році частка відбору дорівнювала f = ----- = --------.
N 17609200
Ця величина розрахована як відношення обсягу вибіркової сукупності
ОЕАН (визначеного з урахуванням рівня надійності результатів
обстеження, який необхідно забезпечити, вартості обстеження та
очікуваного рівня участі домогосподарств та осіб в обстеженні), до
оцінки загальної кількості неінституційних домогосподарств в
Україні (визначеної з використанням даних Всеукраїнського перепису
населення, даних демографічної статистики, даних соціальної
статистики, даних попередніх обстежень ОЕАН та ОУЖД та ін.). Таким
чином, базова вага домогосподарств в ОЕАН дорівнює
1
w = - приблизно = 554.
Bi f
Доцільно зазначити, що величина частки відбору
домогосподарств f за своїм змістом суттєво відрізняється від
величини загальної імовірності включення домогосподарства до
вибірки p , хоча для самозваженої вибірки ОЕАН і приймається,
i
що p = f. При розрахунку системи статистичних ваг ОЕАН
i
використовується, насамперед, величина p та її складові. Це
i
пояснюється тим, що в процесі побудови вибірки необхідно
контролювати величини імовірностей відбору одиниць різних
ступенів, оцінювати відхилення теоретичних імовірностей відбору
домогосподарств від фактичних тощо.
2.2. Врахування фактичної імовірності відбору
Фактичні імовірності відбору домогосподарств в межах територіальних одиниць можуть відрізнятися від теоретичних, оскільки на практиці необхідно враховувати різницю в умовах роботи статистиків з обстежень. Наприклад, в ОЕАН прийнято, що у великих містах квартальне навантаження статистика з обстежень складає 72 домогосподарства, він обстежує дві ВТОВ, в кожній з яких відбирається по 36 домогосподарств, а у малих містах - 54 домогосподарства, статистик обстежує дві ВТОВ, в яких відбирається по 27 домогосподарств (див.
рис. 2).
Тому необхідно скоригувати базові ваги домогосподарств з урахуванням фактичної імовірності відбору.
2.2.1. Розрахунок коефіцієнтів врахування фактичної імовірності відбору домогосподарств
Коефіцієнт урахування фактичної імовірності відбору i-го домогосподарства k розраховується за формулою:
1i
-
| P
| 3i
| --- по міських поселеннях
| P
| fi
k = < , (15)
1i | P
| 2i
| --- по сільській місцевості
| P
| fi
-
де P - фактична імовірвірність відбору домогосподарства
fi
в межах територіальної одиниці. Величина P визначається
fi
за формулою:
n
f
P = ----, (16)
fi N
f
де n - фактична кількість домогосподарств, що відібрані
f
для обстеження у територіальній одиниці; N - загальна кількість
f
домогосподарств у територіальній одиниці.
2.2.2. Розрахунок ваг домогосподарств з урахуванням фактичних
імовірностей відбору домогосподарств
Після визначення коефіцієнтів коригування ваг k
1i
розраховуються нові ваги домогосподарств w за формулою:
1i
w = w * k . (17)
1i Bi 1i
Статистичні ваги після врахування фактичних імовірностей відбору домогосподарств однакові в межах кожної окремої міської ВТОВ і кожної окремої сільської ПТОВ.
2.3. Врахування відмов домогосподарств від обстеження
Для врахування відмов домогосподарств від обстеження будується спеціальна система комірок. Система комірок - це система ознак для групування за ними одиниць генеральної та (або) вибіркової сукупностей. Головні завдання, що вирішуються при побудові системи комірок, це врахування при коригуванні статистичних ваг домогосподарств особливостей територіального охоплення вибірки і забезпечення певної кількості домогосподарств у кожній комірці.
При побудові системи комірок в ОЕАН використовуються наступні класифікаційні змінні:
- регіон - 27 дискретних значень (Автономна Республіка Крим, 24 області України, м. Київ, м. Севастополь);
- тип місцевості - 2 дискретних значення (міські поселення, сільська місцевість).
Крім того, враховується ступінь територіальної близькості груп домогосподарств, що включені до певної комірки.
Використання зазначеної вище інформації при побудові системи комірок реалізується шляхом об'єднання окремих територіальних одиниць за спеціальною схемою: відповідно ВТОВ у міських поселеннях і ПТОВ у сільській місцевості.
Встановлена мінімальна кількість домогосподарств, що були обстежені в кожній комірці, дорівнює 50. Якщо у деякій комірці кількість опитаних домогосподарств менша встановленої величини, ця комірка об'єднується з іншою (суміжною), що відноситься до тієї ж адміністративно-територіальної одиниці. Таким чином для кожного конкретного обстеження будується окрема система комірок для коригування статистичних ваг домогосподарств.
Загальна кількість домогосподарств у комірці n визначається
l
за результатами проведення відбору домогосподарств по
територіальних одиницях. При цьому з загальної кількості
домогосподарств у комірці виключаються нежитлові приміщення,
зачинені приміщення та неіснуючі адреси.
2.3.1. Розрахунок коефіцієнтів врахування відмов
домогосподарств від обстеження
Коефіцієнт урахування відмов домогосподарств від
обстеження k розраховується по кожній l-ій комірці за формулою:
2i
n
S w * лямбда
i=1 1i li
k = --------------------------, (18)
2i n
S w * лямбда * ета
................Перейти до повного тексту