данных
открытых
День
<онлайн>
1 марта 2025 года
#OpenDataDay
#ODD2025
#BetterTogetherThanAlone
Инфокультура приглашает
на День открытых данных 2025
Это событие — часть международной инициативы International Open Data Day, которая помогает продвигать концепцию открытых данных и информационной прозрачности деятельности органов государственной власти, бизнеса, некоммерческих организаций и других участников.
Трансляция
Программа
6 марта, 11:00-14:30, сессии докладов и презентаций
11:00
Открытие
11:15 - 11:45
Российская база бухгалтерской отчетности
Дмитрий Скугаревский, Ассоциированный профессор по эмпирико-правовым исследованиям им С.А. Муромцева Европейского университета в Санкт-Петербурге
Представляем Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. Теперь отчетности всех компаний можно загрузить тремя строками на Python. Наша база собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений.
11:45 - 12:15
Поиск по данным с помощью Dateno
Иван Бегтин, Директор АНО «Инфокультура», Основатель Dateno
Что такое Dateno и почему поиск по данным отличается от других поисковых задач. Как мы анализировали тысячи источников данных, собирали метаданные, исследовали первоисточники и собрали один из крупнейших поисковых индексов по датасетам.
12:15 - 12:45
Фрагментарность открытых данных об образовании и их диспропорция
Ирина Дворецкая, PhD, научный сотрудник, Институт образования НИУ ВШЭ
В современной России ежегодно собираются огромные объемы данных в сфере образования, что требует значительных ресурсов. Есть исследования и в контексте других образовательных систем, которые показывают схожие тенденции (см. Selwyn, 2020, Pangrazio, 2024). Сбор цифровых данных в школах, сбор данных про образовательные системы требует усилий — от официально признанных трудовых функций до менее заметных работ по обслуживанию и «ремонту» инфраструктуры данных. Однако существенная часть этих данных остается ""запертой"" в системах сбора и не становится инструментом для развития образования. Даже те данные, которые агрегируются и публикуются, например национальными статистическими службами, часто обладают небольшой аналитической ценностью, низкой чувствительностью к изменениям и не позволяют глубоко анализировать ключевые процессы, такие как учение и обучение, особенно в цифровой среде (Дворецкая, 2022).
Доклад поднимает вопросы доступности и качества образовательных данных, подчеркивая, что их фрагментарность и ограниченность препятствуют созданию аналитических продуктов, способных реально улучшать образование. Мы предлагаем задуматься: ""А что, если бы данные, которые мы собираем, и цифровые следы, которые мы оставляем, действительно работали на развитие системы образования?""

12:45 - 13:15
Цифровой архив госфинансов: от выцветших страниц до машиночитаемых данных
Ольга Пархимович, руководитель проекта «Госзатраты»
В проекте “Цифровой архив госфинансов и госуправления” мы собираем и делаем доступными исторические документы о госфинансах, госуправлении, экономике и статистике. Главная особенность нашего проекта в том, что пользователь может не только полностью скачать любой опубликованный документ, но и воспользоваться машиночитаемыми данными, созданными на его основе. В презентации мы поделимся опытом сбора и обработки исторических документов из разных источников, создания наборов открытых данных, разработки необходимых классификаторов и взаимодействия с организациями-владельцами документов.
13:15 - 13:45
Современные подходы к визуализации данных по внешней торговле
Алина Владимирова, Руководитель направления сетевого анализа, Институт востоковедения РАН
Как представить сложные взаимосвязи системы международной торговли в наглядной и интерпретируемой форме? Какие инструменты визуальной аналитики помогают исследователям изучать потоки товаров между странами и выявлять ключевых игроков мировой экономики? Для ответа на эти вопросы предлагаем обсудить современные подходы к визуализации данных о внешней торговле, поговорить про их преимущества и ограничения, а также выделить наиболее эффективные инструменты для задач, часто стоящих перед аналитиками в области внешнеэкономической деятельности. Мы рассмотрим несколько практических примеров, посвященных исследованиям торговых потоков и сетевых структур международных отношений, а также уделим особое внимание тому, как подбор подходящих средств визуализации помогают не только анализировать данные, но и делать их доступными для широкой аудитории.
13:45-14:15
Жизненный цикл открытых данных, создаваемых архивными волонтерами и генеалогами, или как не оказаться в цифровой могиле
Татьяна Максимова, MBA, автор телеграм-канала «Клуб генеаголиков», популяризатор архивного волонтерства
В России исследование родословной стало популярным хобби. Многие исследователи составляют не только свое древо, но переводят в машиночитаемый вид информацию о жителях целых деревень и сел за несколько сот лет. Складываются сообщества исследователей приходов, волостей, уездов, губерний. Внутри сообществ создаются базы знаний, появляются краудсорсинговые проекты и наборы данных об архивных документах, родах и персонах.
Эти проекты содержат уникальную информацию по историческим данным, представляющим интерес для многих областей – генеалогии, краеведения, исторической демографии, экономической истории, архивистики, исторической географии, ономастики, др. 
С какими проблемами сталкиваются исследователи? Есть ли единый формат для таких дата-сетов и индексы для унификации данных? Почему люди тратят на это время? Кто и как собирает данные вместе? Почему многие данные исчезают из открытого доступа? Также расскажу о феномене частично-открытых данных, которые имеют для исследователей колоссальное значение, несмотря на то что создаются с коммерческой целью. И о том, как программисты-одиночки стали движущей силой многих глобальных изменений в этой области.

14:15-14:45
Музейные данные: реализация просветительской функции
Мария Сысоева, Управление стратегического планирования (направление цифровизации), ГМИИ им. А.С.Пушкина
Музей объединяет в себе большое количество различных практик: выставочная деятельность, книгоиздание, мероприятия самого разного формата, реклама и сувенирная продукция, изучение и реставрация произведений искусств и многое другое. Каждая из этих практик рано или поздно становится объектом исследования как в научных целях, так и для внутренних бизнес-процессов, и тогда встает необходимость обращения к этим объемным, разноформатным и разрозненным сведениям/данным.
Необходимость отправки данных в реестр музейного фонда Министерства Культуры стимулировала процесс музейной цифровизации и организации баз данных. Часть этой базы данных становится доступна широкой публике в формате электронного каталога.
В докладе будут рассмотрены следующие вопросы:
- какие данные собирают музеи и как организован этот процесс
- форматы электронного каталога для привлечения широкой публики
- варианты (автоматизированного) обогащения базы данных
- перспективы использования музейной базы данных помимо публикации электронного каталога
14:45-15:15
От сырых данных к визуализации. Как превратить данные о 50 млн госконтрактов в понятные дашборды
Орлова Ксения, аналитик данных
Выступление посвящено демонстрации дашбордов, созданных на основе данных госконтрактов проекта «Госзатраты». В основе дашбордов — база данных о госконтрактах по 44 и 223-ФЗ, охватывающая 2014-2024 годы. Всего около 50 млн записей.
Дашборды разработаны с помощью инструмента мониторинга и визуализации данных — Grafana. В этой презентации мы разберем, что требуется для разработки интерактивных дашбордов. Подробно рассмотрим следующие этапы работы над дашбордом:
  1. Написание SQL-запросов к БД для формирования таблиц, необходимых для создания визуализаций.
  2. ETL-процесс для формирования аналитической витрины данных с предрассчитанными показателями.
  3. Создание и настройка графиков и диаграмм.
  4. Настройка фильтров и элементов управления, которые позволяют пользователям менять данные на дашборде в реальном времени, выбирая нужные параметры и срезы данных.
15:15
Закрытие
Спикеры
Зарегистрироваться
Перейти к заказу билетов
Как прошёл
День открытых данных 2023
Организаторы