Что такое eDiscovery и зачем это нужно

При проведении внутрикорпоративных расследований, подготовке ответов на запросы регуляторов или в ходе арбитражных разбирательств перед юристами и сотрудниками служб безопасности компаний часто встает проблема найти, классифицировать и проанализировать разрозненные массивы электронных документов.

Термин eDiscovery (или Electronic Discovery) и соответствующие технологии появились в начале 2000-х готов в Соединенных Штатах как ответ на все возрастающие объемы электронных документов, рассматриваемых в ходе арбитражных разбирательств и необходимость соблюдения принципа пропорциональности (сторона ответчик не может потратить на подготовку ответа на запрос суда больше, чем сумма иска).

Очевидно, что при ручном анализе многих тысяч электронных документов значительно возрастает затрачиваемое сотрудниками время, а следовательно, и стоимость такой работы. И, как очевидный ответ на эту проблему, стали появляться системы автоматизации анализа и классификации электронных доказательств, которые так же начали называть системами eDiscovery.

На первых этапах подобные системы позволяли решать только ограниченный круг задач. Первая из которых – фильтрация и поиск информации в неструктурированных массивах данных.

Система принимает на вход специальным образом подготовленные электронные доказательства (в формате, который позволяет соблюдать принципы неизменности, отслеживаемости и соотносимости), производит начальный анализ и обработку полученных данных и позволяет эффективно производить поиск и фильтрацию загруженных данных.

Таким образом, в неструктурированных данных, можно выделить документы, удовлетворяющие определенным критериям – например, содержатся или нет в документе определенные ключевые слова.
Следующая задача, которую позволяют упростить системы eDiscovery – классификация документов. Если документ содержит определенное ключевое слово, это совершенно не означает что этот документ релевантен области исследования.

Пример


На горячую линию крупной компании поступило сообщение о коррупции. Ко всем электронным письмам, отправляемым на почтовые адреса вне домена компании добавляется подпись, содержащая положения о противодействии коррупции и взяткам. Если производить поиск только по ключевому слову “взятка” – в выборку по этому ключевому слову попадут все письма, когда-либо отправленные “наружу”.

Для того чтобы решить данную проблему – можно (и нужно) уточнять ключевые слова, используемые при поиске. Например, использовать не просто ключевое слово “взятка”, а в сочетании со словами “дать” или “заплатить”, находящимися от него на расстоянии не больше пяти слов.

Но даже это не гарантирует отсутствия ложных срабатываний
Чтобы понять, какие именно из документов действительно содержат релевантную информацию – они должны быть проанализированы и классифицированы человеком.

А так как подобных документов, может быть, несколько тысяч и более необходимо иметь возможность распределять задачи по анализу документов между несколькими сотрудниками и эффективно отслеживать процесс анализа.

Для решения этой задачи в системах eDiscovery применяется несколько различных инструментов:

Тегирование – т. е. возможность присвоить документу определенный маркер. Например “релевантно” (относится к исследуемой области) и “не релевантно” соответственно;
Батчинг – разделение массива исследуемых документов на равные по объему подмассивы, которые поступают на ручной анализ к сотрудникам;
Многоуровневый анализ – документы, проанализированные одним сотрудником и признанные релевантными, поступают на повторный анализ к другому сотруднику.

С развитием алгоритмов машинного обучения и дальнейшим увеличением анализируемых данных в системах eDiscovery начали применяться средства анализа естественных языков и инструменты машинного обучения, которые получили название TAR (Technology Assisted Review).

Эти инструменты и алгоритмы призваны еще более ускорить процесс получения релевантной информации.

Достигнуто это может быть разными способами. Это может быть условная группировка всего объема исследуемых документов по смысловому содержанию или попытка предсказать релевантность документа на основе его содержания и ранее принятых сотрудником решений о том какие документы являются релевантными.

Помимо упрощения процесса анализа данных, системы eDiscovery, призваны упростить так же и процесс предоставления данных. В частности, большинство современных систем предоставляют возможность не только искать документы и анализировать массивы данных, но и производить их редактирование в ручном или полуавтоматическом режимах.

Например, в случае, когда документ не может быть раскрыт в полном объеме, потому что он содержит конфиденциальную информацию (персональная информация физических лиц, не относящихся к запросу, коммерческая тайна и так далее).

В этом случае такая информация может быть скрыта при выгрузке и предоставлена по отдельному запросу.

В заключение можно добавить, что системы eDiscovery применимы не только в ходе внутренних проверок и юридических процессов, но и в некоторых других случаях. В частности, системы eDiscovery используются журналистами при проведении журналистских расследований. А также при анализе массивов связанных с крупными утечками данных.

И если подвести итог, современные системы eDiscovery – это системы, позволяющие быстро и эффективно находить ответы на вопросы, основываясь на больших массивах разнородных и разрозненных электронных документов.