Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ANALYZING A LEGAL DOCUMENT
Document Type and Number:
WIPO Patent Application WO/2023/204724
Kind Code:
A1
Abstract:
The invention relates to digital data processing methods. The present method comprises the steps of: creating reference documents in a digital format or converting reference documents into a digital format, placing documents to be checked into a computer memory, preparing a language vector model on the basis of a corpus of texts having a general lexicon or a lexicon specific to the theme of the reference documents, breaking down the documents to be checked and the reference documents into structural units, creating a vector model of each fragment of each of a document to be checked and a reference text document, comparing the vector model of each fragment of the document to be checked with the vector model of each fragment of the reference document, determining a measure of similarity between each fragment of the document to be checked and each fragment of the reference document, and displaying the field of values of the similarity measure to allow an expert to make a decision.

Inventors:
NAUMOV VICTOR BORISOVICH (RU)
SAVELIEV DENIS ALEKSANDROVICH (RU)
Application Number:
PCT/RU2022/000134
Publication Date:
October 26, 2023
Filing Date:
April 20, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
OBSHCHESTVO S OGRANICHENNOY OTVETSTVENNOSTYU DENTONS EUROPE OOO DENTONS EUROPE (RU)
International Classes:
G06F40/194; G06V30/418
Foreign References:
RU2597163C22016-09-10
RU2722571C12020-06-01
RU2643438C22018-02-01
RU2538303C12015-01-10
US20130054612A12013-02-28
CN106776503A2017-05-31
Attorney, Agent or Firm:
STANKOVSKY, Victor Mikhailovich et al. (RU)
Download PDF:
Claims:
ФОРМУЛА ИЗОБРЕТЕНИЯ

1 . Способ анализа юридического документа для проверки его на соответствие требованиям применимого права , содержащий этапы, на которых : создают образцовые документы в цифровом формате или осуществляют перевод образцовых документов в цифровой формат , помещают проверяемые документы в память ЭВМ для обработки процессором, подготавливают языковую векторную модель на корпусе текстов общей или специфической для темы образцовых документов лексики, выполняют разбивку проверяемых и образцовых документов на структурные единицы (предложения ) , создают векторную модель каждого фрагмента каждого из проверяемого и образцового текстового документа , сравнивают векторную модель каждого фрагмента проверяемого документа с векторной моделью каждого фрагмента образцового документа , определяют меру схожести каждого фрагмента проверяемого документа с каждым фрагментом образцового документа , отображают поле значений меры схожести для принятия решения экспертом .

2 . Способ по п . 1 , в котором разбивка проверяемых и образцовых документов на структурные единицы выполняется на структурные элементы по нумерации и/или абзацы или иные фрагменты, на которые разделяется текст .

3 . Способ по п . 1 , в котором для хранения и обработки проверяемых документов используется локальная база данных и/или удаленный доступ к базе данных .

Description:
ОПИСАНИЕ СПОСОБ АНАЛИЗА ЮРИДИЧЕСКОГО ДОКУМЕНТА

Область техники

Изобретение относится к методам цифровой обработки данных, специально предназначенных для специфических функций, осуществляющих комплексные математические операции для автоматического анализа текста , а более конкретно - к способу проверки текстового юридического документа на соответствие требованиям применимого права . Предлагаемое изобретение относится к области информационных технологий, а именно к способу автоматизированного семантического сравнения текстов на естественном языке .

Предшествующий уровень техники

Особенностью юридических документов является отличие их стилистики от литературного языка и других видов текстовых документов . Это отличие проявляется, в том числе , в отсутствии вопросительных и восклицательных предложений, диалогов , четком структурировании текста на элементы, несущие самостоятельный смысл, использовании однообразных терминов и словосочетаний, их повторов , одинаковых синтаксических конструкций предложений, при котором затруднительно найти отличия и сходства текстов , в особенности , если одна и та же юридическая конструкция описывается разными способами . Однако , известные Заявителю патенты, направленные на действие с правовыми документами, например , [ 1 - 4 ] , а также рассмотренные аналоги и прототип и многие другие патенты указанную особенность не учитывают .

Известно изобретение [ 5 ] , «Способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители» , в котором текст сегментируют в электронной форме на элементарные единицы . Выявляют устойчивые словосочетания , формируют предложения . Выявляют семантически значимые объекты и семантически значимые отношения между ними . Формируют для каждого семантически значимого отношения множество триад, в которых единственная триада первого типа соответствует связи , устанавливаемой семантически значимым отношением между двумя семантически значимыми объектами . Каждая из триад второго типа соответствует значению конкретного атрибута одного из этих семантически значимых объектов . Каждая из триад треть его типа соответствует значению конкретного атрибута самого семантически значимого отношения . Индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты по отдельности . Запоминают в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст , из которого сформированы эти триады .

Недостатком данного способа для юридических текстов является низкая эффективность различения семантики слов и выражений , что приводит к невозможности исполь зования указанного способа в юридической практике .

Известно также изобретение [ 6 ] , в котором в сегментированном тексте определяют функциональную структуру для каждого участка текста и , в каждой функциональной структуре, находят триады, характеризующие предикатные члены, на основе правил переноса линеаризации. Затем выделяют из каждого участка текста такие признаки как: именованная сущность, тождество по референту, лексическая статья, семантикоструктурное отношение. Недостатком данного аналога является ориентирование его только на поисковые задачи.

Известны различные способы автоматизированного смыслового (т.е. семантического) сравнения текстов на естественных языках, которые невозможно осуществлять напрямую, поскольку сравнивать необходимо не наличие конкретных слов, а тот смысл, который стоит за предложениями, абзацами или разделами сравниваемых текстов. Поэтому перед семантическим сравнением тексты подвергают семантической индексации, которая осуществляется различными способами. При этом одно из важнейших условий является устранение семантической неоднозначности этих текстов. Такие способы семантической индексации текстов для их последующего сравнения с устранением семантической неоднозначности описаны, например, в патентах [7- 21] .

Наиболее близким к заявленному изобретению (прототипом) является способ автоматизированного семантического сравнения текстов на естественном языке [22] . Указанный способ заключается в том, что: представляют два сравниваемых текста в цифровой форме, осуществляют индексацию этих текстов в цифровой форме в виде элементарных единиц (слов, словоформ, устойчивых словосочетаний) выявляют частоты встречаемости элементарных единиц ,

- создают цифровая модель текста , сохраняют в базе данных сформированные элементарные единицы с выявленными частотами встречаемости, осуществляют в процессе итеративной процедуры перенормировку упомянутых частот встречаемости в смысловой вес , выявляют для двух сравниваемых текстов степень пересечения ( совпадения ) их семантических сетей .

Степень пересечения семантических сетей двух сравниваемых текстов является величиной , характеризующей семантическое подобие этих текстов .

Недостатком прототипа является невозможность принятия правильного юридического решения , т . к . при сравнении юридических документов на их соответствие нормам права необходимо анализировать отдельные фрагменты текстов с исполь зованием внешних данных , выраженных в подготовленной языковой модели .

Раскрытие изобретения

Технической проблемой , решение которой обеспечивается при осуществлении или исполь зовании изобретения является оптимизация способа анализа юридических текстов на предмет их соответствия применимым нормам права за счет эффективного сравнения юридических текстов с введением в анализ подготовленных образцовых документов и привлечением для анализа подготовленной языковой модели . Техническим результатом является расширение функциональных возможностей за счет получения информации о сходстве или различии проверяемых юридических документов с подготовленным образцовым документом, соответствующим применяемому праву, увеличение скорости анализа юридических документов и получении более точных с позиции применимого права резуль татов , и сокращение итогового времени анализа юридических документов при решении поставленных юридических и иных задач специалистом .

Указанный технический резуль тат достигается сравнением юридических актов из базы данных с эталонным документом, содержащим проверенные правовые положения , соответствующие применяемому праву, подготовленному экспертом, содержащему термины их синонимы и омонимы . При этом меру схожести предлагается определять с помощью векторной модели текстов сравниваемых документов . Краткое описание чертежей

Фиг . 1 - блок- схема способа анализа юридического документа для проверки его на соответствие требованиям применимого права согласно изобретению .

Варианты осуществления изобретения

Способ осуществляются следующими действиями :

1 - размещение проверяемых юридических документов в базе данных или памяти ЭВМ ,

2 - создание образцовых документов в цифровом формате ,

3 - подготовка языковой векторной модели на корпусе текстов общей или специфической для темы лексики ,

4 - разбивка проверяемых и образцовых документов на структурные единицы ( например , структурные элементы по нумерации , абзацы или предложения ) 5 - создание векторной модели каждого фрагмента каждого проверяемого и образцового текстового документа ,

6 - сравнение моделей каждого фрагмента каждого проверяемого документа с каждым фрагментом образцового документа ,

7 - определение мер схожести каждого фрагмента каждого проверяемого документа с каждым фрагментом образцового документа ,

8 - отображение поля значений меры схожести для принятия решения экспертом .

В настоящем изобретении подразумевается , что операции действий осуществляются с запоминанием промежуточных резуль татов , например , в оперативном запоминающем устройстве или базе данных .

Предложенный способ осуществляется следующим образом, например , для проверки договоров купли - продажи . В этом случае выполняется сравнение входящих ( проверяемых ) документов с одним или более заранее разработанными и/или выбранными образцами . Входящими документами являются юридические документы - например, договоры определенного типа , в частности договор купли-продажи . Образцовым документом является заранее подготовленный и/или выбранный образец договора соответствующего предмета и взаимных прав и обязанностей сторон .

Другим примером могут являться заявления , например, письменное согласие субъекта на обработку персональных данных . Входящими ( проверяемыми ) документами могут быть различные согласия на обработку персональных данных от разных субъектов , подлежащие юридической проверке , которые должны соответствовать применимому праву и могут быть сформулированы различными способами, с различной структурой и функциональными элементами и храниться в цифровой форме на удаленных или локальных серверах . Проверочным документом может быть образцовое согласие на обработку персональных данных , сформулированное экспертами в соответствующей области . Проверка соответствия фрагментов проверяемого и проверочного документа даст возможность оценить соответствие проверяемого документа применимому праву, путем выявления расхождений и их дальнейшей экспертной оценке .

При этом проверяемые документы не обязательно должны быть созданы по указанному образцу . Их разработчиками могут выступать различные , не связанные между собою лица , и назначение документов может варьироваться . Они могут включать в себя иную нумерацию и/или разбивку документа на структурные элементы, иметь различный объем и содержание . Создание аналогичных структурных элементов документа может быть осуществлено разными словами ( с использованием синонимов и/или различных словосочетаний, предложений и иных словесных конструкций ) .

Система реализует указанный способ путем выполнения следующих этапов , при реализации способа осуществляется :

1 ) Преобразование входящих (проверяемых) документов известными способами в машиночитаемый вид (например, в формате простого текста без форматирования )

2 ) Приведение слов к начальной форме известным способом .

3 ) Разбиение текстов на структурные элементы ( фрагменты) : абзацы, пункты или отдельные предложения текста .

4 ) Создание известным способом векторной модели языка или предметной области языка , которая представляет собой многомерное векторное пространство, построенное , например, с помощью технологии Doc2Vec ( см . Le Q . , Mi kolov Т . Distributed representations of sentences and documents //International conference on machine learning . - PMLR, 2014 . - C . 1188 - 1196 ) , или ином существующем в настоящем решении , отвечающим задаче определения сходства смыслов текста .

В качестве неограничивающего примера , для создания векторной модели языка или предметной области языка могут применяться алгоритмы машинного обучения, основанные на векторе свойств фиксированной длины . Свойства фиксированной длины могут быть представлены на основе алгоритма , известного как «мешок слов» . Кроме того , может быть использовано так называемое векторное представление параграфа - алгоритм «обучения без учителя», который создает векторные представления объектов фиксированной длины из фрагментов текстов переменной длины, таких как предложения, абзацы и документы . В данном алгоритме каждый параграф отображается в уникальный вектор, представленный столбцом в матрице D, а каждое слово также отображается в уникальный вектор , представленный столбцом в матрице W . Далее выполняется усреднение векторов параграфов и векторов слов и их конкатенация для прогнозирования следующего слова в данном контексте . Рассматриваемые контексты имеют фиксированную длину и получаются в результате выборки в пределах «скользящего окна» по параграфам . Вектор параграфов является общим для всех контекстов , сформированных на основе одного и того же абзаца , но не для различных параграфов . Однако матрица W векторов слов является общей для различных параграфов . Обучение нейросети векторам параграфов и векторам слов осуществляется с использованием методики стохастического градиентного спуска , на каждом этапе которого можно выполнить выборку контекста фиксированной длины из случайного параграфа и вычислить градиент ошибки . Далее осуществляется вычисление вектора параграфа для нового параграфа , что также выполняется на основе градиентного спуска . После обучения векторы параграфов могут использоваться в качестве признаков параграфов ( вместо или в дополнение к упомянутому выше алгоритму «мешка слов» ) в известных алгоритмах машинного обучения , таких как, например, логистическая регрессия, метод опорных векторов или метод К- средних .

5 ) Определение известным способом близости смыслов текстов фрагментов , например, на основании пространственного косинусного расстояния между векторами фрагментов или других технологий аналогичного свойства .

6 ) Получение результатов , характеризующих сходство и различие отдельного проверяемого текста и образца , которые отображаются в удобном для просмотра виде , например , в виде тепловой карты или табличного сравнения .

7 ) Отображение сводных резуль татов сравнения нескольких документов с образцом с учетом статистических мер распределения схожести отдельных фрагментов каждого документа с образцом

8 ) Автоматизированное обучение векторной модели предметной области и/или корректировка настроек системы в зависимости от качества полученных результатов обработки ( сравнения) текстов .

Блок-схема предлагаемого способа указана на Фиг . 1 .

Способ реализуется посредством загрузки текста в память ЭВМ или использования локальной базы данных и/или удаленного доступа к базе данных . При обработке текстов указанным способом результат визуализируется для экспертной оценки. Для осуществления способа применяется программа для ЭВМ, реализующая описанные действия. Визуализация может осуществляться известными способами на экране стационарного, переносного компьютера или мобильного устройства локально или с использованием компьютерных сетей, в том числе сети Интернет.

Список ссылок

1. Патент РФ № 2732071 «Способ и система автоматического принятия правового решения»

2. Патент РФ № 2530307 «Способ точного и полного поиска положений нормативных правовых актов по смысловому содержанию»

3. Патент РФ № 2431188 «Способ визуализации взаимосвязей нормативно-правовых документов в виде графа»

4. Заявка на патент РФ № 2015105920 «Способ автоматизированного создания юридических документов»

5. Патент РФ № 2399959 «Способ автоматизированной обработки текста на естественном языке путем его семантической индексации»

6. Заявка на патент США №2007/0073533 «Способ семантической индексации текста или коллекции текстов (базы данных) на естественном языке»

7. Патент РФ №2242048

8. Патент США №871199

9. Патент США №7024407

10. Патент США №7383169

11. Заявка на патент США №2007/0005343

12. Заявка на патент США №2007/0005344

13. Заявка на патент США №2008/0097951

14. Заявка Японии № 05-128149 15. Заявка Японии №06-195374 (опубл. 15.07.1994)

16. Заявка Японии №10-171806

17. Заявка ЕПВ № 0853286

18. Патент РФ № 2399959 19. Патент РФ № 2242048

20. WO 2009/029905

21. WO 2005/093601

22. Патент РФ № 2538303.