Работать с открытыми данными не так страшно, как кажется

Истории прячутся и в цифрах. Они помогают увидеть картину целиком, подтверждают или опровергают обещания и гипотезы. Данные способны рассказать то, о чем никто
не расскажет. Только надо знать, где и как их искать.
  • Алеся Мароховская
    дата-журналистка «Новой газеты»
    Журналистика данных — это не про занудство с компьютером, это такая же журналистика, только ты задаешь вопросы не людям, а цифрам. Данные тоже могут врать, как и люди, информацию так же нужно перепроверять.
Работа с открытыми данными — направление в российской журналистике молодое. Немногие СМИ берутся анализировать информацию в цифрах. Немногие журналисты, несмотря на «гуманитарность» ума, готовы изучать язык программирования и искать истории в данных. И зря.
  • Анастасия Валеева
    директор департамента «Журналистика и массовые коммуникации» в Американском университете в Центральной Азии и соосновательница Общественного фонда «Школа данных»
    Журналистам может казаться, что они гуманитарии, математику знали плохо, поэтому работа с данными не для них. Но журналист может переучиться и находить в цифрах хорошие истории. Отдельные ситуации отдельных людей не показывают картину целиком. Дата-журналистика помогает найти ответы в статистике, демонстрирует, что происходит и что нужно изменить.

4 примера, как журналисты используют данные в работе

Что такое открытые данные?

Медиаюрист Наталья Якимовская объясняет: понятия «открытых данных» в российском законодательстве нет, но есть определение понятия «общедоступная информация» — «информация, размещаемая ее обладателями в сети «Интернет» в формате, допускающем автоматизированную обработку без предварительных изменений человеком в целях повторного ее использования, является общедоступной информацией, размещаемой в форме открытых данных».

Понятие «открытые данные» раскрывается на сайте Экспертного совета по открытым данным — это информация, которую раскрывают государственные органы и местные власти и которая отвечает трем требованиям:
Свобода доступа
Данные могут найти и скачать все, чтобы их получить платить не надо;
Свобода использования
У них отсутствуют авторские права, значит, каждый может их анализировать, использовать, распространять и при необходимости зарабатывать;
Автоматическая обработка (машиночитаемость)
Они размещены в структурированном виде (обычно под этим подразумевают таблицы. Примеры машиночитаемых форматов: CSV, XML, JSON, ODS и другие).
Информация, полученная по запросу, открытыми данными не считается. Нельзя так называть декларации чиновников или информацию на сайте госзакупок. Эти данные соответствуют двум «показателям» из трех.
  • Но у нас в сообществе не сильно придерживаются правильного определения. Мы уже радуемся, если где-то на каком-то сайте открыто лежит информация, с которой можно работать.

Способы получения данных

Если читаете материал с мобильного, листайте вправо.
Журналисту нужно владеть навыками работы с Excel и программирования (например, Python), чтобы обрабатывать данные.
Если читаете материал с мобильного, листайте вправо.
Технологическое решение: парсинг данных с сайтов, мониторинг изменений на сайтах. Журналисту нужно владеть умением анализировать данные и находить ошибки, уметь работать с Excel и программировать (например, на Python), чтобы структурировать данные.

Где искать данные

Как получать информацию с сайтов автоматически

Парсинг — автоматический сбор информации с сайта, позволяющий сохранить и получать ее на почту в структурированном виде.

Парсинг оперативно «рассказывает» обо всех изменениях, опубликованных на сайте. Например, о появлении новых постановлений, распоряжений, положений. Парсить можно и коммерческие сайты, и сайты объявлений, и сайты предприятий, и социальные сети.

Преимущества парсинга:
  • быстро пройдется по тысячам интернет-страниц,
  • разделит технические данные и нужную человеку информацию,
  • отбросит ненужное, оставив только то, что необходимо,
  • произведет упаковку данных в необходимый для пользователя вид.

Как работать с данными

Дата-журналистика хоть и молодое направление, но сообщество специалистов сформировалось. «Нельзя сказать, что мы работаем в вакууме», — говорит Алеся Мароховская. Новичкам дата-журналистка рекомендует подписаться на OpenDataRussiaChat или на DDJ Russian в Телеграме, где сидят не только журналисты, работающие с данными, но и специалисты, которые занимаются подготовкой информации. Здесь и помогут, и подскажут.

Получить данные — полдела. Нужно еще их правильно интерпретировать. Проверяйте себя, советуйтесь со специалистами, обязательно смотрите методологию, где прописано, как данные собирались, что учитывалось.
  • Анастасия Валеева
    директор департамента «Журналистика и массовые коммуникации» в Американском университете в Центральной Азии и соосновательница Общественного фонда «Школа данных»
    Задавайте вопросы данным: кто их собрал, с какой целью? Доверяете ли вы источнику данных? Где статистику собирали? Когда? Как? Подробно читайте методологию и сверяйтесь. Любой ответ можно перепроверить в других источниках.

Четыре правила работы с данными

  • Не теряйтесь в таблице
    Чтобы не запутаться и не потеряться в строках и столбцах, закрепите первую строчку, чтобы она не «уехала». Тогда вы всегда будете понимать, какая строка к какому показателю относится.
  • Избавьтесь от лишнего
    Не факт, что для анализа вам потребуется вся таблица целиком. Возможно, вам нужны лишь несколько показателей. Очистите таблицу от лишнего.
  • Сохраните оригинал
    Обычно вся работа происходит в excel. Не работайте в оригинальном документе, создавайте его копию и работайте с ней. Обязательно создайте вкладку с мета-данными, где укажите, откуда скачали таблицу, когда, контакты человека, который данные собирал.
  • Создавайте копии
    Удалили лишние столбцы или строки в таблице — создайте копию. Объединили в ней данные — создайте еще одну копию. Дополнили таблицу информацией — копируйте. Все важные шаги фиксируйте подобным образом. Это поможет другим понять, как вы пришли к выводам.

Какие данные под запретом

Запрещено разглашать персональные данные. Остальная статистика формально является открытой.

Размер средней зарплаты — информация открытая. Количество миллионеров в городе, регионе, стране, скорее всего, налоговая служба вам сообщит. Узнать количество людей, зарабатывающих ниже прожиточного минимума, будет сложнее.
Пример из жизни
В 2017 году газета «Знамя Победы» (Сухой Лог, Свердловская область) анализировала жизнь в десяти городах региона по нескольким показателям.

Мария Базунова, в 2017 году главный редактор «Знамя Победы»:
«Просматривая газеты башкирских коллег, увидела хороший материал на любимую мною экономическую тему. Взяли и прикрутили к себе, добавив побольше городов и выводов по экономике. Это было нелегко. Данные из кучи источников плюс помощь коллег по добыче недостающих и «засекреченных» цифр».

Один из показателей — количество людей, зарабатывающих ниже прожиточного минимума. В Краснотурьинске (Свердловская область) таковых оказалось рекордное количество — более 15 тысяч человек. Такую информацию местным журналистам предоставили в налоговой службе. При этом в городе работающего населения на тот момент было 23 тысяч человек.

Когда через год краснотурьинские журналисты вновь запросили данные в налоговой службе, госструктура отказалась их предоставлять.
  • Госструктуры пользуются тем, что многие не знают, какие данные могут быть открыты, поэтому закрывают те, в которых видят угрозу.
По словам дата-журналиста «Новой газеты», иногда ведомства выкладывают интересную информацию, не догадываясь об этом. После того как СМИ ее «нароют», данные экстренно с сайта удаляются.

Самое закрытое ведомство — министерство обороны. «Приоткрытые» сферы — образование, здравоохранение, культура. В их дата-сетах можно откопать жемчужины.
  • Наталья Якимовская
    медиаюрист
    Госорганы сами определяют, что они публикуют в открытых данных, а что нет. Существуют только методические рекомендации и технические требования по их публикации. Законодательно обязать тот или иной госорган опубликовать что-то не получится, так как нет четкого списка, какие данные обязательны к публикации.

    Что делать редакциям, если госструктуры отказывают в предоставлении данных, в том числе по запросу? Можно пожаловаться в вышестоящую организацию или в суд. За непредоставление информации существует как административная, так и уголовная ответственность в зависимости от того, информацию какого рода вы запрашивали, а вам ее не предоставили.
Штрафом от 5 до 10 тысяч рублей чиновника накажут за несвоевременное предоставление или за предоставление заведомо ложной информации (ст. Ст. 5.39 КоАП РФ «Отказ в предоставлении информации»).

Штраф до 200 тысяч рублей чиновник рискует заплатить, если:
  • отказал сообщать данные, которые затрагивают права и свободы гражданина;
  • предоставил неполную или заведомо ложную информацию, чем навредил правам и законным интересам граждан (ст. 140 УК РФ «Отказ в предоставлении гражданину информации»).

Когда в данных нужно сомневаться

  • Распространенный случай, когда собираешь данные из разных источников, и они не совпадают. Все дело в том, кто и как информацию собирал. Чтобы понять, почему данные отличаются, нужно смотреть методологию. Если данные открытые, то там указаны контакты ответственного. С ним можно связаться и уточнить, что учитывали, что не учитывали.
Статистика, которую разглашают различные государственные ведомства и учреждения, является официальной. Однако не всегда нужно верить ей безоговорочно. Показывать реальность невыгодно и цифрами тоже можно манипулировать.

Например, государству невыгодно показывать статистику смерти от туберкулеза, в цифрах ее можно уменьшить, увеличив количество смертей от ВИЧ. Только от вируса иммунодефицита человека не умирают. От туберкулеза умирают. Умерших пациентов, имеющих оба диагноза, можно «перекидывать» в угоду желаемой статистике.
  • Анастасия Валеева
    директор департамента «Журналистика и массовые коммуникации» в Американском университете в Центральной Азии и соосновательница Общественного фонда «Школа данных»
    Государство — основной поставщик данных. В таком масштабе и в таком количестве ему нет равных. Поэтому с этими данными необходимо работать. Просто не стоит им слепо доверять, надо применять критическое мышление.
Пример истории, которая может родиться из данных, и критического подхода к цифрам в своем посте привел Виталий Обедин, заместитель главного редактора газеты «Якутск Вечерний».
  • Виталий Обедин
    заместитель главного редактора газеты «Якутск Вечерний»
    Хроника сплошных побед! Тут вот какое дело. Я разбирался с цифрами по бедности, которые озвучивались 23 сентября в парламенте Якутии. И очень меня засмущали слова про то, что власть героически снизила в прошлом году бедность в Якутии с 20,1% до 19%.

    Почему меня это смутило? Потому что я помню, как в 2017-м году чиновники рассказывали в интервью, как они сократили бедность до 18%, и собираются понижать эту цифру дальше за счет «комплексных мер».
    Как же это так? Как власти боролись с бедностью так, что она стала больше?

    Озадаченный я начал поднимать цифры по количеству бедняков и обнаружил, что они везде, во всех документах разные. Отчаявшись понять, где реальные цифры, а где приписки, решил взять за основу те показатели по бедности, что власть включает в свои ежегодные отчеты перед населением.

    Во-первых, это сводный документ, который готовят все ведомства республики, включая те, что отвечают за социальную политику. Во-вторых, этот документ утверждает правительство Якутии. В-третьих, ну не врут же они нам каждый год?!

    И, знаете что? Хроника побед, о которых рапортуют каждый год — уникальна! Сами зацените:
    • 2014 г. — 17,4% граждан живет ниже прожиточного минимума;
    • 2016 г. — 19%;
    • 2017 г. — 19,8%;
    • 2018 г. — 20,3%.
Министр экономики Якутии Майя Данилова в комметариях к посту сообщила, что данные в официальном отчете правительства некорректные, так как их могут уточнить и через год. «Это издержки методологии, о которых потребитель обычно предупреждается в сносках».

Вскоре после поста Виталия Обедина чиновники уточнили данные по количеству бедных: в 2017 году их стало больше, а в 2018 году меньше. Но опять же предварительно.

Как увидеть истории в данных

  • Не могу сказать, что журналист с нуля начнет работать с открытыми данными, через два месяца у него откроется чакра, и он будет видеть истории в цифрах. Это такой же талант, как находить тему, поговорив с человеком.

    Я бы советовала первое время идти от обратного: не пытаться найти историю в данных, а пытайся подтвердить ими свою гипотезу. Думая над гипотезой, надо понимать, насколько реально получить данные и где. Еще важно иметь критическое мышление, спрашивать себя, а что стоит за каждой цифрой?

    Условно, появилась информация, что в России столько-то человек имеют высшее образование. Можно просто эту цифру сообщить читателям, а можно всматриваться в колонки и думать, что эти данные могут дать. Сейчас очень много людей имеют высшее образование, значит, здесь есть потенциальная история про его обесценивание.

    Когда-то оно считалось ценным, считалось, что его необходимо получить, чтобы чего-то добиться в жизни. Но когда его получили все, оказалось, что оно ничего не стоит. Работодатель чаще смотрит не на диплом, а на опыт. Возможно, сейчас стало слишком много вузов, и их надо сокращать. И это можно увидеть в данных.
  • Александр Малютин
    главный редактор информационного агентства «Москва»
    Сто лет назад я занимался дата-журналистикой — выискивал прикольные закупки на федеральном сайте и постил их в ЖЖ. Это было очень весело — пока не стало ясно, что это не то, что нужно для счастья человечества. Чтобы не тянуть кота за хвост, давайте на примерах.

    Пример первый. Закупка пива и водки учреждением ФСИН — сибирской колонией. У жж-юзеров бугага — зэки закупают бухла на НГ, ну явно будет веселый праздник! Когда выяснили у живых людей, в чем дело — оказалось, что для бугага вообще нет оснований. Просто колонии разрешили перепродавать бухло и тратить прибыль на покупку продуктов для зэков — бюджетных денег даже на картошку не хватало.

    Пример второй. Закупка презервативов для санатория одной важной госструктуры. В ЖЖ опять бугага — ну ясно же теперь, чем чинуши занимаются в санаториях! Выясняешь — оказывается, изделия нужны для аппаратов для ректальных и вагинальных исследований. Рабочий орган аппарата, который вводят, закрывают презервативом сугубо для гигиены. Все прозаично и никаких жареных фактов.

    Данные из баз еще не делают историю. Данные из баз — это только наводка и помощь в том, чтобы задать людям, которые в теме, нужные вопросы. И вот историю нужно строить уже на основе их рассказов.