Странните данни на НСИ и причината за тях

Какво пречи на родната статистика да ни представи реална картина за социалното и икономическото развитие на страната

Качеството на статистическите данни е нещо изключително важно. От него зависят целите и адекватността на политиките, информираността на гражданите, решенията на бизнеса и инвеститорите, както и обективността на медиите.

От личния ми опит в работата с експерти и служители в Националния статистически институт (НСИ) съм останал само с добри впечатления. Там работят много специалисти, чийто усет към данните и умения за боравене с тях са на изключително високо ниво.

Въпреки това понякога се сблъсквам с данни, които мога да определя единствено като „странни”. Някои са очевидни технически грешки, които лесно могат да бъдат отстранени. Други са следствие от недостатъчната (от практична, а не толкова от статистическа гледна точка) представителност на някои от проучванията на НСИ. Трети са необясними за мен, но се надявам, че отговорът е „някъде там” и може би този материал ще ми помогне да стигна до него.


Болшинството от най-очевидните проблеми са в регионалната статистика (на областно ниво), а тук ще представя пет от тях:

1. Кърджали | Графика 1

Личното ми усещане е, че при повечето аномалии с данните за област Кърджали, проблемът произтича от знаменателя на уравнението, а именно - броят на местното население. За съжаление явно никой не знае колко хора живеят в Кърджали.

През последните няколко години НСИ често поставя звездичка (*) след стойността на някои от индикаторите за областта. Това означава, че статистиката не счита данните за достатъчно представителни.

И не е трудно да видим защо:

  • В целия период 2001-2014 г. (с изключение на 2005 и 2012 г.) безработицата в Кърджали е не само по-ниска от средната за страната, но и по-ниска от тази в столицата (на графиката). Според официалните данни безработицата в Кърджали през 2014 г. е едва 4,9% - стойност, на която дори някои немски провинции биха завидели. Обяснение за това може да се търси в по-ниската икономическа активност на населението, но дори тогава – липсва логично издържан отговор на въпроса защо безработицата в Кърджали е по-ниска от тази в много други области със сходна (и дори по-ниска) икономическа активност, където безработицата е много по-висока от тази в столицата.
  • През 2014 г. механичният прираст на населението е положителен – 12‰. Това е най-високата стойност за цялата страна в периода от 2006 г. насам. Коефициентът на механичен прираст* на населението показва промяната на броя на населението (за всеки 1000 души) в следствие на разликата в броя на заселилите се и напусналите дадена територия лица. В резултат на това, според оценката на НСИ за средногодишното население на областта, броят на населението нараства с 356 души, въпреки негативния естествен прираст (разликата между новородени и починали). През същата година средногодишното население нараства в само 3 други области – София (столица), Варна и Бургас, като Кърджали е на второ място след столицата по ръст на населението.
  • Според официалните данни на НСИ делът на домакинствата с достъп до интернет в областта се увеличава от 45,8% през 2013 г. до 65,8% през 2014 година. В същото време делът на лицата на възраст 16-74 години, използвали интернет, спада от 42,1% на 39,5%. Обяснение нямам.
  • Съпоставка на ИПИ между броя на здравноосигурените лица в областта (според НАП) и броя на средногодишното население, показва, че през 2013 г. здравноосигурено е 100,4% от средногодишното население на областта. Изкривяването идва през 2009 г., когато „здравноосигурените скачат” от 86,1% на 107,2% от населението, след което следва период на плавен спад. Тук проблемът е по-скоро в данните на НАП, тъй като данните на НСИ за броя на средногодишното население не показват резки промени.
2. Доходите в Сливен и София през 2014 | Графика 2
  • Според официалните данни на НСИ средногодишният доход на глава от населението в Сливен се покачва от 3 014 лв. през 2013 г. до 4 017 лв. през 2014 година. Това е ръст от 1 003 лв. или близо 33%. 
  • В същото време средногодишният доход на глава от населението в София (столица) спада от 7 441 лв. през 2013 г. на 6 890 лв. през 2014 година. Това е спад от 551 лв. или 7,4%.

Лично аз не мога да открия обяснение за тази динамика, въпреки факта, че брутните възнаграждения в Сливен нарастват с 1 процентен пункт по-бързо от тези в София (столица). Подобни аномалии не са прецедент, но в този случай просто са прекалено очевидни, за да бъдат подминати и трябва да бъдат обяснени от НСИ.

3. БВП на Перник (2007-2009) | Графика 3

Според официалните данни на НСИ брутният вътрешен продукт (БВП) на човек в област Перник нараства от 6 085 лв. през 2007 г. на 10 343 лв. през 2008 година. Това е ръст от 69,9%. Следва спад от 45,8% до 5 607 лв. през 2009 година. Този срив намира следното „обяснение” на стр. 25 от „Стратегията за развитие на област Перник 2014-2020”:

„Макар че през 2008 г. БВП на човек от населението в областта надвишава с 10% средната стойност на показателя за страната, кризата засяга драстично повече област Перник – БВП на човек от населението за България регистрира минимален спад от 1% или 50 пъти по-малко от областта.”

Съвсем „случайно” приложената на стр. 26 графика, която визуализира феномена, започва именно от 2008 г. и продължава до 2010 година. С други думи анализира се спадът от 45,8%, а не ръстът от 69,9% от предходната година, който дори не е визуализиран. В допълнение, в деветия слайд на „аналитичната част” на презентация, посветена на стратегията, е посочено, че:

„наблюдаваме огромен кризисен ефект, дължащ се на слабата диверсификация на икономическите дейности”.

Колкото и абсурдно да е това съждение, в него има някакъв резон, който обаче е убягнал на авторите на презентацията, тъй като и те говорят за „двойно свиване на БВП” (през 2009 г.) и игнорират необяснимия ръст на БВП през 2008 година. Ако разгледаме данните на НСИ за брутната добавена стойност (БДС) по икономически сектори, виждаме, че огромната разлика между 2007 г. и 2008 г. е в сферата на индустрията, където БДС се покачва от 352 млн. лв. на 778 млн. лв. Именно там е регистрирана и огромната част от последвалия спад – до 239 млн. лв. през 2009 година.

Убеден съм, че тази аномалия има своето логично обяснение и се надявам НСИ да го предостави, защото подобен тип „отклонения” правят динамичния сравнителен анализ на областите в България непосилно предизвикателство. Тук със сигурност има нещо, което, както аз, така и областната администрация на Перник, пропускаме, но нямам представа какво е то.

4. Население, живеещо с материални лишения (2007-2012) | Графика 4

Тук нещата са сравнително ясни. Така наречените SILC (Social inclusion and living conditions) данни се добиват посредством мащабно изследване и последваща обработка, което означава сериозен разход на труд, финанси и време. На областно ниво данните просто не са представителни и до ден днешен не съм срещнал статистик, който да твърди обратното.

Може би най-смущаващи са често цитираните от медиите данни за дела на населението, живеещо с материални лишения. Тук трябва да имаме предвид две неща:

  1. Цялостната методология за оценка на дела на населението, живеещо с материални лишения. е нещо трудно приложимо в родните условия, ако човек иска да постигне някакъв представителен резултат. Тъй като методологията е общоевропейска, като „материални лишения” се възприемат обстоятелства, с които болшинството от домакинствата у нас се сблъскват всеки месец. Трудно е да виним родната статистика.
  2. Значителните промени през годините свидетелстват за ниското качество на информацията, която този индикатор ни дава. Например, в Силистра през 2009 г. с материални лишения живее 64,0% от населението, при 45,7% средно за страната, а през 2010 г. – едва 36,4% от населението, при 43,6% за страната. Не знам дали областните управители и кметовете са били преизбрани, но съм сигурен, че подобни данни биха възмутили и най-оптимистичните и проспериращи жители на областта. Приложени са данни още за „промяната” във Велико Търново, Кърджали, Смолян и Ямбол.
5 . Достъп до интернет в Столицата и София (област) | Графика 5

Това е (почти) със сигурност техническа грешка, която обаче стана част от демонстрацията на възможностите за визуализация на отворени данни, представени по време на монументалното във всеки смисъл на думата събитие в Министерски съвет под надслов „Данни канят”. Разменени са данните за столицата и областта, които са на съседни редове.

На визуализацията ясно се вижда как столицата от областта с най-висок достъп до интернет, изведнъж „избледнява” през 2014 г. до нивата на области като Ловеч и Видин, докато София (област) рязко потъмнява. Още по време на събитието стана въпрос, че достъпността на данните и тяхното качество трябва да вървят ръка за ръка. В противен случай, от достъпността няма как да бъде извлечена максимална полза.

Трябва да отбележим, че данните за достъпа на домакинствата до интернет са крайно противоречиви и в други области като например Бургас и Разград.


Вместо заключение

Точната статистика е скъпо удоволствие, но евтината статистика може да излезе скъпо. Много от данните, цитирани по-горе, се използват при изработването на общински и областни планове и стратегии за развитие. Някои от показателите са индикативни за постигането на целите на стратегията „Европа 2020”. Това са данни, на чиято база се разпределят национални и европейски средства, което предполага, че трябва да бъдат достатъчно представителни и дори по-важно – свързани с реалността, за да могат да дадат представа за ефекта от прилаганите политики.

В противен случай една добра политика може да бъде изоставена, заради необяснимо влошаване на даден показател, а неефективна политика може да бъде продължена, заради неговото неочаквано подобрение.

През последните година-две ръководството на НСИ полага видими усилия за повишаване на качеството не само на статистическите данни, а и на цялостното изживяване на техния потребител. НСИ има нов сайт с подобрена функционалност, включително някои интерактивни елементи и подобрена (според мен) структура. Разбира се, има още върху какво да се работи, но голяма част от проблемите биват адресирани дори в момента.

Част от обяснението зад някои от „странните данни” на НСИ се крие в липсата на достатъчно средства за провеждането на по-мащабни извадкови наблюдения. Независимо дали от чисто статистическа гледна точка резултатите на едно такова изследване са „приемливи” или не, последващият, дори повърхностен преглед на постигнатите резултати, трябва да включва опит за откриване на поне някаква социална или икономическа логика в тях. В случаите, в които това е невъзможно, трябва да бъде открит начин за подобряване на качеството на крайния продукт на статистическата дейност. Ревизиите на данните не могат и не трябва да бъдат анатема. В случая със статистическите данни – това е за доброто на цялото общество.


* Първоначално материалът съдържаше невярна информация за начина на изчисляване на механичния прираст. Грешката е коригирана. - бел. Явор Алексиев