Мудрый Юрист

Методы анализа и принципы систематизации данных, используемых при подготовке и принятии юридических решений

Булгакова Елена Валерьевна, доцент кафедры правовой информатики Московского государственного юридического университета имени О.Е. Кутафина (МГЮА), кандидат юридических наук, доцент.

Рецензент - Морозов Андрей Витальевич, член редколлегии, заведующий кафедрой информационного права, информатики и математики Всероссийского государственного университета юстиции, доктор юридических наук, профессор.

Цель: Целью статьи является оценка возможности применения технологий "больших данных" в подготовке и принятии юридических решений. Определен перечень направлений юридической деятельности и конкретных задач, которые могут быть решены с применением технологий "больших данных". Обоснована необходимость создания классификатора данных ("открытых данных"), их систематизации, в частности определение совокупности данных для решения отдельных видов юридических задач. Сформулированы требования, предъявляемые к сбору, обработке, хранению данных. Проведено исследование методов анализа "больших данных", средств, пригодных для решения отдельных видов юридических задач, установлены требования к ним. Рассмотрены принципы формирования правового режима доступа к данным и их использования. Рассмотрены отдельные правовые проблемы предоставления правовой информации в формате "открытых данных", обеспечения доступа к ним, использования в свете применения технологий "больших данных".

Материалы и методы исследования: Автор рассматривает и анализирует некоторые аспекты использования возможностей технологий "больших данных" в юридической сфере путем сравнения российского и зарубежного опыта правоприменения.

Результаты: Определены условия применения технологий "больших данных" в юриспруденции и их перспективы.

Ключевые слова: информационное право, открытые данные, большие данные, информационные технологии, Интернет, информационное общество, мультимодальные доказательства, система государственного управления, компьютерная сеть, информационная система, юриспруденция, статистика преступности, электронное правосудие, искусственный интеллект, информационная безопасность, доступ к информации.

Methods of analysis and principles of systematization of data used in the preparation and adoption of legal solutions

E.V. Bulgakova

Bulgakova E.V., associate professor of legal informatics Kutafin Moscow State Law University (MSAL), PhD in Law, Associate Professor.

Reviewer - Morozov A.V., Member of the editorial board, Head of the Chair of Information Law, Computer Science and Mathematics of The Russian Law Academy of the Ministry of Justice of the Russian Federation, Doctor of Law, Professor.

Purpose: The purpose of this article is to evaluate the possibilities of application of technology of "Big data" in the preparation and adoption of legal decisions. The list of the directions of legal activity and specific objectives which can be solved with application of technologies of "Big data" is defined. Need of creation of the qualifier of data ("open data") on various bases, their systematization, in particular definition of a data set for the solution of separate types of legal tasks is proved. Research of methods of the analysis of "Big data" of separate types of legal tasks, suitable for the decision, is conducted. The principles of formation of a legal regime of access to data and their uses are considered. Requirements imposed to collecting, processing, data storage are formulated, considering specifics of preparation and adoption of legal decisions. Separate legal problems of providing legal information in a format of "open data", ensuring access to them, use in the light of application of technologies of "Big data" are considered.

Methods: The author examines and analyzes some aspects of the use of the capabilities of "Big data" in the legal field by comparing the Russian and foreign experience of enforcement.

Results: Conditions of application of technologies "Big data" in law and their prospects are defined.

Key words: Information law, open data, big data, information technologies, Internet, information society, multimodal evidence, the system of public administration, computer network, information system, law, crime statistics, e-justice, artificial intelligence, information security, access to information.

Введение. В информационном обществе в условиях увеличения объема данных [1], постоянного их обновления, разнообразия видов и способов представления, в том числе в формате "открытых данных" для дальнейшей машинной обработки, инноваций передачи, хранения данных, обеспечения доступа к данным возрос интерес к созданию новых инструментов сбора, обработки, управления и анализа "больших данных".

Технологии "больших данных" наращивают свое присутствие в решении задач в системе государственного управления, экономике, образовании, здравоохранении, спорте, экологии, строительстве, культуре, торговле, безопасности и др. и призваны совершить революцию, которая изменит то, как мы живем, работаем и мыслим [2]. К сожалению, примеров использования технологий "Больших данных" в юриспруденции единицы. В качестве положительного примера можно выделить правовую статистику. Так, например, в 2014 году в докладе Генерального секретаря ООН о повышении качества и доступности статистических данных о преступности и уголовного правосудия для разработки политики обозначен переход на дезагрегированные данные. В 2014 - 2015 годах Генеральная прокуратура и Открытое правительство России сделали ряд шагов по повышению открытости данных о преступности. В решении криминологических задач используют математические, статистические методы, модели, которые позволяют получить качественные характеристики преступности, строить прогнозы по развитию уровня преступности, управлять ею посредством принятия решений. Данные криминальной статистики, представленные в формате "открытых данных", возможности современных методов их анализа расширили круг потребителей данных (экономисты, предприниматели, риелторы и др.). Данные на портале стали более детализированными, а возможность анализа дезагрегированных данных привела к повышению спроса и возможности трансформации данных в знания. В частности, широкую известность получила система Blue CRUSH (от англ.: Crime Reduction Utilizing Statistical History - "Снижение преступности на основе статистических данных"), разработанная компанией IBM, которая предоставляет полицейским подготовленные на основе имеющейся статистики совершения преступлений сведения о зонах потенциальной угрозы совершения преступления с указанием места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Подобного рода профилактическое прогнозирование привело к снижению уровня преступности в г. Мемфисе на 31%, из которых 15% приходится на тяжкие преступления [3]. Технические решения, имеющие в своей основе аналитику "больших данных", используются в ряде иных городов США (Нью-Йорк, Сиэтл, Лос-Анджелес и др.), и масштаб их использования возрастает с каждым годом [4, с. 35 - 68].

Методы, технологии, аппаратные решения "больших данных" в юриспруденции. Следует отметить, что мы имеем дело практически с тем же набором методов анализа правовой информации, которые использовались ранее при подготовке и принятии юридических решений и будут адаптированы для использования в свете применения технологий "Больших данных" (кластерный анализ, статистические методы, краудсорсинг, прогнозная аналитика, имитационное моделирование, распознавание образов, визуализация аналитических данных и др.). Созданы технологии и аппаратные решения, которые могут быть адаптированы к применению технологий "больших данных" в решении юридических задач.

Основные проблемы использования технологий "больших данных" в юриспруденции. По мнению автора, главными проблемами применения технологий "больших данных" в решении юридических задач являются незавершенность начатых реформ; проблемы выполнения основных этапов развития информационного общества; проблемы информатизации юридической деятельности (нормативные правовые акты в сфере информатизации постоянно пролонгируются, и выполнение основных задач растянулось на 20 лет); начальный этап открытия данных и перевода их в формат "открытых данных"; проблемы правового и организационно-технического обеспечения передачи и хранения большого объема постоянно обновляемой информации; отсутствие четкой регламентации перечня задач и набора необходимых данных в юридической деятельности и др.

Также к перечню основных проблем использования технологий "больших данных" следует отнести сложность в выявлении закономерностей данных, их определенного набора, вида данных. Так, в правоохранительных органах Германии при расследовании преступлений используется система мультимодальных доказательств и созданы методы их интерпретации. По сути, создана система, позволяющая установить закономерности элементов и определить набор необходимых данных, которые могут быть использованы при подготовке и принятии решений, что как раз и есть основа для применения технологий "больших данных".

До недавнего времени говорить о наличии эффективных механизмов по установлению закономерностей различных юридических процессов, явлений не приходилось. Так, известный ученый-криминалист Р.С. Белкин признал свое "детище" - криминалистическую характеристику расследования отдельных видов преступлений - "фантомом" из-за несовершенства методов анализа криминалистически значимой информации и практически отсутствия возможности установления взаимосвязи между событиями преступления.

Еще одной проблемой является отсутствие единства данных и их источников.

Несмотря на предпринимаемые усилия по обеспечению информационного взаимодействия между гражданами, бизнесом и государством, сегодня не удалось преодолеть сложности обмена данными. Разрозненность систем хранения данных, практически отсутствие системы регулирования предоставления данных, особенно в частном секторе, создает барьер к доступу и использованию данных. Следует согласиться с мнением И.Л. Бачило о наличии разных подходов в государственном и частном секторах доступа к информации, приводящих к ограничению свободы доступа к "...информации, исходящей или содержащейся в собственности государства, власти или в ведении органов государственной власти. Права как бы сосредоточены на стороне граждан, обязанности - на стороне органов государственной власти и, возможно, местного самоуправления. Такой подход к проблеме доступа к информации, кстати идущий из опыта ряда других стран, не представляется наилучшим. Если мы признаем, что около 70% в экономике и социальной сфере составляет частный сектор, то можно без труда понять, сколько информации, нужной гражданам, производится и находится в частном секторе" [5, с. 42 - 44] <1>. В качестве положительного опыта по подготовке условий применения технологий "больших данных" в юриспруденции рассматривается создание государственного сегмента информационных систем, предоставляющих официальную правовую информацию в режиме 24/7, бесплатно, позволяющих юристам, специалистам в области "больших данных" приступить к проектам по подготовке данных к использованию, их систематизации, детализации, переводу в формат "открытых данных". Качество принимаемых в юриспруденции решений напрямую зависит от наличия актуальных, достоверных данных, доступ к которым обеспечивается на основании Федерального закона от 09.02.2009 N 8-ФЗ "Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления", Федерального закона от 22.12.2008 N 262-ФЗ "Об обеспечении доступа к информации о деятельности судов в Российской Федерации".

Востребованность таких данных увеличивается с каждым годом. Однако на настоящий момент более 50% информации, представленной в формате "открытых данных", остается не востребованной, востребованность региональных данных за 2012 - 2013 гг. выше и составляет 72%. В 2015 г. новых наборов не опубликовывали:

Актуализация "открытых данных" на порталах ФОИВ составила всего 32%, по субъектам - 17%. В такой ситуации применение методов "больших данных" значительно затруднено, так как нет актуальной информации для принятия решений. Данные востребованы, но не актуальны.

Стремление открыть как можно больше данных для принятия качественных и своевременных решений вполне объяснимо. При этом не следует забывать о возможных негативных последствиях для граждан при раскрытии данных [6, с. 78 - 86]. Полагаем, что одной их насущных проблем использования технологий "больших данных" в юриспруденции является недостаточно проработанный механизм классификации данных и правового режима доступа к ним и их использования [7, с. 48 - 53]. В частности, уже сейчас возникают проблемы соблюдения ФЗ от 27 июля 2006 г. N 152-ФЗ "О персональных данных" в свете применения технологий "больших данных". Так, применение технологий "больших данных" противоречит принципу ограничения обработки персональных данных заранее определенными целями, указанному в ст. 5 Закона [8, с. 43 - 66]; необходимо истребовать информированное, конкретное и сознательное согласие субъекта персональных данных; обезличивание персональных данных (например, в системе ГАС "Правосудие") не убережет лицо от возможности их открытия через другие корреляционные связи данных. Так, большая часть данных, которая будет произведена в период с 2012 по 2020 год, будет сгенерирована не людьми, а различного рода устройствами в ходе их взаимодействия друг с другом и сетями данных (например, сенсорами, смартфонами, устройствами радиочастотной идентификации (RFID), спутниковыми системами навигации типа ГЛОНАСС или GPS и т.д.) [9, с. 2]. При этом необходимо внимательно проанализировать законодательство, учесть практику зарубежных стран по предотвращению прецедентов, связанных с нарушением прав граждан в данной сфере, и на основе этого разработать классификатор данных, которые будут отнесены либо к общедоступным и переведены в формат "открытых данных" (в понимании 149-ФЗ "Об информации, информационных технологиях и о защите информации"), либо к данным ограниченного доступа (с сохранением возможности машинной обработки и их использования при соблюдении правового режима). При решении целого ряда юридических задач специфичным как раз является симбиоз данных общедоступных и ограниченного доступа, например, при расследовании преступлений.

Приведем пример использования технологий "больших данных" и одновременного использования общедоступных данных и данных ограниченного доступа. Одним из первых крупномасштабных проектов на основе работы с большими объемами данных стало совместное исследование The Guardian и Лондонской школы экономики, в рамках которого они анализировали массовые беспорядки, происходившие в Англии летом 2011 года. Основным результатом работы на втором этапе стала интерактивная визуализация того, как распространялась информация о беспорядках в Twitter. Проанализировав более 2,6 млн сообщений на тему городских беспорядков в Twitter, журналисты смогли детально разобрать то, как в социальной сети распространялись все новые слухи о беспорядках, разбив сообщения в Twitter по ключевым темам ("бунтующие захватили зоопарк и выпускают на волю животных", "бунтующие атакуют детский госпиталь" и др.). В результате удалось создать карту распространения информации по каждой из тем: начиная с того, как очередная тема появляется, как она развивается в дискуссиях на Twitter и как она постепенно идет на спад. Полученная аналитика позволяет получить совершенно новые сведения о распространении информации в социальных сетях и способах ее контроля, в том числе при массовых беспорядках. Для идентификации и привлечения к ответственности лиц, участвующих в беспорядках, правоохранительные органы могут воспользоваться данными с систем видеонаблюдения и сравнить изображения с данными в системе учетов (информация ограниченного доступа).

Тенденции открытия данных наступают, и многие данные ограниченного доступа изменили режим и теперь отнесены к разряду общедоступной информации. Так, например, на портале открытых данных Федеральной службы исполнения наказаний в разделе "Безопасность" размещена статистическая информация о гражданах, отбывавших наказания в исправительных колониях.

Требования, предъявляемые к данным, используемым в решении юридических задач, включают следующие: полнота, релевантность, кумулятивность, первичность, своевременность, доступность, сохранность, пригодность к машинной обработке, отсутствие дискриминации к доступу, отсутствие проприетарных форматов, лицензионная чистота и др.

К перечню основных требований (перечисленных выше), предъявляемых к данным, используемым в решении юридических задач, по мнению автора статьи, следует также добавить: актуальность, достоверность, аутентичность, легальность, конфиденциальность (в случаях, предусмотренных законодательством), верифицируемость, единство данных и их источников.

Полагаем, что сегодня актуальной задачей является создание правового поля, методического обеспечения организационно-технических основ по сбору, передаче, хранению, анализу, использованию данных в юриспруденции. На начальном этапе по установлению направлений юридической деятельности и отдельных задач в свете использования технологий "больших данных", в условиях перехода на дезагрегированные данные, которые могут быть сгенерированы не только человеком, но и машинами, следует разработать алгоритмы с уже известными (установленными теорией и практикой) закономерностями процессов и явлений. На наш взгляд, этой непростой задачей следует заняться, чтобы не "потеряться" в лавине данных, которые каким-то образом могут быть связаны определенными модами, но не относиться к решаемой задаче. С другой стороны, мы не знаем, какие данные нам будут необходимы, пока не проанализируем, насколько они взаимосвязаны. Современные методы и средства позволят решить поставленную задачу путем определения примерного набора данных при принятии конкретного вида юридического решения, а также найти в сети данные, которые мы могли не учесть при принятии решения и которые могут его изменить. Главное для решения поставленных задач - обеспечить единство информационного пространства [10, с. 63] и обеспечить доступ к данным.

К данным, используемым в решении юридических задач, предъявляются особые требования в свете установления пригодности и соответствия данных. Одни данные могут иметь информативный характер, другие могут предстать в качестве доказательств. В этой связи следует также ставить вопрос о классификации данных по различным основаниям. Так, например, необходимо учитывать время и дату создания данных, источник получения данных и др.

Рассуждая о возможностях использования технологий "больших данных", полагаем, что следует выделить направления юридической деятельности, в которых они могут быть использованы: анализ правовой информации на сайтах государственных органов власти; правовой мониторинг, правовая статистика, анализ законодательства, анализ судебной практики, расследование и предупреждение преступлений, анализ данных, размещенных в системе учетов, анализ информации, поступающей из АИС "Безопасный город", противодействие коррупции, анализ данных в ГАС "Выборы", анализ юридической литературы и др.

Для создания условий по применению технологий "больших данных" в юриспруденции должны быть созданы: системы поддержки принятия решений с удобным интерфейсом для пользователя, системы аналитической обработки данных и выявления закономерностей, системы организации и управления данными, ИТ-инфраструктура.

Таким образом, направление по использованию технологий "больших данных" в подготовке и принятии решений по отдельным направлениям юридической деятельности следует признать перспективным. Следует привлечь внимание специалистов для создания профессиональных экспертных систем, компьютерных приложений, позволяющих не только повысить качество принимаемых юридических решений, но и значительно сократить время их подготовки и принятия.

Литература

  1. По данным IDC, в период между 2009 и 2020 годом объем данных увеличится в 44 раза и составит 35 зеттабайт. Gantz J. and Reinsel D. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. December 2012. URL: http://www.emc.com/collateral/analyst-reports/idc-the-digitaluniverse-in-2020.pdf (дата обращения: 01.05.2016).
  2. Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / Виктор Майер-Шенбергер, Кеннет Кукьер; пер. с англ. И. Гайдюк. М.: Манн, Иванов и Фербер, 2014. 240 с.
  3. Thompson T. Crime Software May Help Police Predict Violent Offences // The Guardian. 2010. July 25. URL: http://www.theguardian.com/uk/2010/jul/25/police-software-crime-prediction (дата обращения: 04.05.2016).
  4. Joh E. Policing by Numbers: Big Data and the Fourth Amendment // Washington Law Review 2014. No. 89:35. P. 35 - 68.
  5. Бачило И.Л. Свободный доступ к информации и Интернет // Информационное общество. 2000. Вып. 4. С. 42 - 44.
  6. Булгакова Е.В., Денисов И.С. Правовое регулирование опубликования информации в формате открытых данных в системе "Электронного правосудия" // Сборник Президентской библиотеки им. Б.Н. Ельцина. Серия "Электронное законодательство". Вып. 3: "Получение, хранение и использование информации в электронной среде: публично-правовое и частноправовое регулирование". СПб.: ФГБУ "Президентская библиотека им. Б.Н. Ельцина", 2013. С. 78 - 86.
  7. Bulgakova E.V., Schilichina V.A., Dyachenko A.A. Legality of Placement of Personal Data to International Sites, their Safety and Security // Nauka i Studia. 2012. N 6 (51), p. 48 - 53.
  8. Савельев А.И. Проблемы применения законодательства о персональных данных в эпоху "Больших данных" (BIG DATA) // Право. Журнал Высшей школы экономики. 2015. N 1. С. 43 - 66.
  9. White T. Hadoop: The Definitive Guide. O'Reilly Media, Inc. 3rd ed., 2012. P. 2.
  10. Бачило И.Л., Лопатин В.Н., Федотов М.А. Информационное право: Учебник / Под ред. акад. РАН Б.Н. Топорнина. 2-е изд., с изм. и доп. СПб.: Издательство Р. Асланова "Юридический центр Пресс", 2005. С. 63.

References

  1. Meyer-Shenberger W. Big data. A revolution that will change the way we live, work and think / Viktor Mayer-Shenberger, Kenneth Kukier; translate from English. I. Gaydyuk. M.: Publishing house "Mann, Ivanov and Ferber", 2014. 240 p.
  2. Thompson T. Crime Software May Help Police Predict Violent Offences // The Guardian, July 25, 2010. URL: http://www.theguardian.com/uk/2010/jul/25/police-software-crime-prediction.
  3. Joh E. Policing by Numbers: Big Data and the Fourth Amendment // Washington Law Review. 2014. No. 89:35. P. 35 - 68.
  4. Bachilo I.L. Free access to information and the Internet // Informacionnoe obshchestvo - Information Society. 2000. Vol. 4. P. 42 - 44.
  5. Bulgakova E.V., Denisov I.S. Legal regulation of the publication of information in open data format in the "e-justice" system // Sbornik Prezidentskoj biblioteki im. B.N. Yeltsina. Seriya "Elektronnoe zakonodatelstvo". Vyp. 3: "Poluchenie, hranenie i ispolzovanie informacii v ehlektronnoj srede: publichnopravovoe i chastno-pravovoe regulirovanie" - Proceedings of the Presidential Library named after Boris Yeltsin. "E-law" series. Issue 3: "Preparation, storage and use of information in the electronic environment: public law and private-law regulation" - SPb.: FGBU "Presidential Library named after Boris Yeltsin", 2013. P. 78 - 86.
  6. Bulgakova E.V., Schilichina V.A., Dyachenko A.A. Legality of Placement of Personal Data to International Sites, their Safety and Security // Nauka i Studia. 2012. N 6 (51). P. 48 - 53.
  7. Savelyev A.I. The problems of application of the law of personal data in the era of "Big data" (Big data) // Pravo. Zhurnal Vysshej shkoly ehkonomiki - Law. Journal of Higher school of economics. 2015. N 1.
  8. White T. Hadoop: The Definitive Guide. O'Reilly Media, Inc. 3rd ed., 2012. P. 2.
  9. Bachilo I.L., Lopatin V.N., Fedotov M.A. Information Law: Textbook / Ed. acad. RAS B.N. Topornin. 2nd ed., As amended. and ext. SPb.: Publisher R. Aslanova "Press Law Center", 2005. P. 63.