Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM FOR DETERMINING THE SHORT-TERM INTERESTS OF B2B USERS
Document Type and Number:
WIPO Patent Application WO/2024/049322
Kind Code:
A1
Abstract:
A method for analyzing and processing user data comprises the steps of: collecting data about a user by recording an event stream while the user is using a B2B resource; saving an event stream log in a database in the form of a table containing a list of the web pages visited by the user; determining the type of product that interests users with the aid of a neural network implemented using the Python programming language and the Keras library; automatically filling a table of interests for each page of the resource; on the basis of a filled table of interests, automatically selecting from the database users interested in a product; sorting the obtained selection according to an interest rating in descending order of interest. The invention is directed toward providing better quality analysis and processing of user data.

Inventors:
PAVLYUCHENKO SERGEY ANDREYEVICH (RU)
GORLOV ALEKSANDR IGOREVICH (RU)
Application Number:
PCT/RU2022/000296
Publication Date:
March 07, 2024
Filing Date:
September 29, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
LLC M16 TECH (RU)
International Classes:
G06Q30/0203; G06F16/30; G06Q40/04
Domestic Patent References:
WO2021215758A12021-10-28
Foreign References:
CN113159881A2021-07-23
US20180165745A12018-06-14
KR20210022194A2021-03-03
KR20220111592A2022-08-09
CN112464034A2021-03-09
RU2693323C22019-07-02
Attorney, Agent or Firm:
KOTLOV, Dmitry Vladimirovich (RU)
Download PDF:
Claims:
Формула

1. Способ анализа и обработки пользовательских данных, содержащий этапы, на которых: осуществляют сбор данных о пользователе, причем сбор данных осуществляется путем регистрации потока событий в ходе работы пользователя на В2В ресурсе; осуществляют сохранение журнала потока событий в базу данных, в хранилище ClickHouse, в виде таблицы, содержащей перечень посещаемых пользователем веб-страниц; посредством вычислительных мощностей серверной инфраструктуры осуществляют определение вида продукции с помощью нейронной сети, реализованной на языке программирования python и библиотеке keras, в которой на вход нейронной сети передается текст страницы, на выходе сеть классифицирует продукт, содержащийся в тексте, причем нейронная сеть для классификации продукта использует: слой векторного представления (Embedding); рекуррентный слой (LSTM); исключение (Dropout); линейные слои для каждого признака; далее для каждой страницы ресурса, просматриваемой пользователем, посредством вычислительных мощностей серверной инфраструктуры осуществляют автоматическое заполнение таблицы интересов, которая в свою очередь сохраняется в базу данных, и состоит из даты, классифицированного продукта и идентификатора пользователя, который просматривал веб-страницу, содержащую наименование и описание продукта; на основе заполненной таблицы интересов, посредством вычислительных мощностей серверной инфраструктуры, осуществляют автоматическую выборку из базы данных пользователей, интересующихся продуктом; причем по колонке продукт, выявляются все пользователи, которые интересовались продуктом; по колонке идентификатор-пользователя осуществляется группировка записей и подсчет количества строк, представляющих количественный показатель интереса; осуществляется сортировка полученной выборки по показателю интереса в убывающем порядке.

9

2. Способ по п.1 , в котором регистрируемым потоком событий являются посещаемые пользователем ресурсы и продукция, содержащаяся на посещенной веб-странице ресурса.

Description:
СИСТЕМА ОПРЕДЕЛЕНИЯ КРАТКОСРОЧНЫХ ИНТЕРЕСОВ В2В ПОЛЬЗОВАТЕЛЕЙ

ОБЛАСТЬ ТЕХНИКИ

Настоящее техническое решение относится к области вычислительной техники, в частности, к способам анализа и обработки пользовательских данных.

УРОВЕНЬ ТЕХНИКИ

Из уровня техники известно решение, выбранное в качестве наиболее близкого аналога, US 2012022930 А1, опубл. 26.01.2012. Данное решение относится к области электронной рекламы. Способ включает в себя: представление совместно используемого предложения на первом мобильном устройстве первого потребителя в приложении, связанном с системой таргетинга мультимедиа, при этом совместно используемое предложение нацелено на первого потребителя системой таргетинга мультимедиа; предоставление возможности первому потребителю передать совместно используемое предложение на второе мобильное устройство второго потребителя, при этом первое мобильное устройство и второе мобильное устройство сталкиваются для передачи совместно используемого предложения; предоставление второму потребителю возможности сохранить совместно используемое предложение, полученное после столкновения, и связать карту лояльности с сохраненным предложением; а также погашение совместного предложения, когда второй потребитель использует карту лояльности в точке взаимодействия с розничным продавцом.

Предлагаемое техническое решение направлено на устранение недостатков современного уровня техники и отличается от известных ранее тем, что предложенное решение обеспечивает качественный анализ пользовательских данных.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Технической задачей, на решение которой направлено заявленное решение, является создание способа анализа и обработки пользовательских данных.

Технический результат заключается в повышении качества анализа и обработки пользовательских данных.

Дополнительным техническим результатом является увеличение производительности вычислительных систем при решении поставленной задачи (т.е. решение позволяет производить обработку данных с получением результата (продукта) за меньшее количество времени, за счет полной автоматизации процесса), тем самым снижая нагрузку на центральные процессоры вычислительных устройств (серверов), за счет уменьшения количества обрабатываемых запросов.

Заявленные технические результаты достигаются за счет осуществления способа анализа и обработки пользовательских данных, содержащего этапы, на которых: осуществляют сбор данных о пользователе, причем сбор данных осуществляется путем регистрации потока событий в ходе работы пользователя на В2В ресурсе; осуществляют сохранение журнала потока событий в базу данных, в хранилище ClickHouse, в виде таблицы, содержащей перечень посещаемых пользователем веб-страниц; посредством вычислительных мощностей серверной инфраструктуры осуществляют определение вида продукции с помощью нейронной сети, реализованной на языке программирования python и библиотеке keras, в которой на вход нейронной сети передается текст страницы, на выходе сеть классифицирует продукт, содержащийся в тексте, причем нейронная сеть для классификации продукта использует: слой векторного представления (Embedding); рекуррентный слой (LSTM); исключение (Dropout); линейные слои для каждого признака; далее для каждой страницы ресурса, просматриваемой пользователем, посредством вычислительных мощностей серверной инфраструктуры осуществляют автоматическое заполнение таблицы интересов, которая в свою очередь сохраняется в базу данных, и состоит из даты, классифицированного продукта и идентификатора пользователя, который просматривал веб-страницу, содержащую наименование и описание продукта; на основе заполненной таблицы интересов, посредством вычислительных мощностей серверной инфраструктуры, осуществляют автоматическую выборку из базы данных пользователей, интересующихся продуктом; причем по колонке продукт, выявляются все пользователи, которые интересовались продуктом; по колонке идентификатор-пользователя осуществляется группировка записей и подсчет количества строк, представляющих количественный показатель интереса; осуществляется сортировка полученной выборки по показателю интереса в убывающем порядке.

В частном варианте реализации описываемого способа, регистрируемым потоком событий являются посещаемые пользователем ресурсы и продукция, содержащаяся на посещенной веб-странице ресурса.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемым чертежом, который представлен для пояснения сути изобретения и никоим образом не ограничивает область изобретения. К заявке прилагается следующий чертеж:

Фиг. 1 иллюстрирует общую блок-схему способа.

Фиг. 2 иллюстрирует блок-схему нейросети определения продукта в тексте.

Фиг. 3 иллюстрирует пример общей схемы вычислительного устройства.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

Предлагаемый способ позволяет качественно и эффективно анализировать и обрабатывать пользовательские данные/действия, за счет чего появляется возможность предлагать пользователям сайта именно те предложения, которые могут их заинтересовать.

С помощью качественного анализа действий пользователя, можно понять, в какой именно продукции, публикуемой на интернет-ресурсе, заинтересован пользователь.

Результатом предлагаемого способа является определение персонального перечня названий товаров, которые могут интересовать пользователя. Предлагаемый способ также позволяет формировать списки пользователей, которые интересуются заданным продуктом.

В качестве вычислительного сервера может использоваться любая серверная инфраструктура, способная осуществлять необходимую обработку данных. Серверная инфраструктура может состоять из сетевого оборудования, серверного оборудования, дискового и иного хранилища.

Способ анализа и обработки пользовательских данных можно разделить на следующие части.

Часть 1 : Сбор данных и определение продуктов.

Сбор данных о пользователе в виде потока событий в ходе его работы на В2В сайте (Фиг. 1). Регистрируются события, какие веб-ресурсы/веб-страницы открываются пользователем и какую продукцию они содержат. Сохранение журнала производится в базу данных в хранилище ClickHouse, в таблицу, содержащую перечень открываемых пользователем веб-страниц. Определяется вид продукции посредством нейросети, реализованной на языке программирования python и библиотеке keras (Фиг. 2). На вход нейросети передается текст страницы, на выходе сеть классифицирует продукт, содержащийся в тексте.

Таким образом, для каждой страницы, просматриваемой пользователем, в автоматическом режиме заполняется таблица интересов, состоящая из даты, продукта и идентификатора пользователя, который просматривал веб-страницу, содержащую наименование и описание продукта.

Часть 2: Поиск пользователей по продукту и интересы отдельных пользователей (анализ данных).

Поиск пользователей, интересующихся продуктом, осуществляется по таблице. По колонке продукт осуществляется поиск всех пользователей, которые интересовались продуктом. Далее осуществляется группировка записей по колонке идентификатор-пользователя и подсчитывается количество строк. Полученное количество можно обозначить как - показатель интереса. Далее осуществляется сортировка полученной выборки по показателю интереса в убывающем порядке.

Таким образом, вышеуказанная выборка является списком заинтересованных пользователей. Соответственно, можно сделать вывод о том, что чем выше пользователь в данном списке, тем его интерес выше.

Интересы конкретного пользователя можно получить посредством выборки по таблице. По колонке идентификатор-пользователя осуществляется поиск всех записей по продуктам, которые пользователь просматривал на страницах В2В- сайта.

Осуществляется группировка записей по колонке продукт и подсчитывается количество строк. Количество строк можно обозначить как - показатель интереса пользователя к продукту. Осуществляется сортировка полученной выборки по показателю интереса пользователя к продукту в убывающем порядке.

Соответственно, данная выборка является списком возможных интересов пользователя к продуктам, которые он просматривал на В2В-сайте.

Способ применим для В2В-ресурсов (например, для ресурсов, где пользователи продают и покупают продукцию оптом).

Поля таблицы интересов могут отображать следующую информацию:

Дата - время посещения страницы пользователем;

Продукт - продукт, содержащийся в тексте страницы;

Идентификатор пользователя - пользователь, посетивший страницу.

Пример таблицы интересов.

(3 колонки: дата, продукт, id-пользователя): 15.08.2022 12:22 | Свинина, полутуша | 355 15.08.2022 12:23 | Свинина, шпик | 355, т.е. пользователь с id=355 сначала посетил страницу, где был выявлен продукт «Свинина, полутуша», затем открыл страницу с «Свинина, шпик».

В предлагаемом техническом решении используется нейронная сеть для определения продукта в тексте. Сеть построена на языке программирования python и библиотеке pytorch.

Нейронная сеть содержит:

•слой векторного представления (Embedding);

•рекуррентный слой (LSTM);

•исключение (Dropout);

•линейные слои для каждого признака.

Процесс работы нейронной сети. Для обучения нейронной сети создается датасет. Датасет содержит текст страниц и соответствующие признаки продукта. Слова в тексте и признаки продукта заменяются идентификаторами. Длина текста устанавливается фиксированной длины.

Модель принимает в качестве входных данных последовательность идентификаторов слов. Слой векторного представления заменяет идентификаторы слов на вектора. Рекуррентный слой LSTM обрабатывает последовательность и возвращает результат. Слой dropout исключает часть нейронов для уменьшения переобучения сети. Линейные слои классифицируют каждый признак. Выходной слой определяет идентификатор признака продукта.

Таким образом, пользователь, посредством своего вычислительного устройства, посещает веб-ресурс. При каждом посещении страницы, посредством вычислительного сервера, регистрируется событие, которое содержит информацию о пользователе, странице и времени посещения, при этом событие сохраняется в таблицу ClickHouse. Для каждой страницы, посредством вычислительного сервера, определяется продукт. При этом продукт определяется с использованием нейронной сети по тексту страницы. Эта информация сохраняется в базу. На основе этих данных формируется таблица интересов. За счет чего, по таблице появляется возможность осуществлять поиск пользователей, которые интересовались определенным продуктом.

На Фиг. 3 далее будет представлена общая схема вычислительного устройства (300), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (300) содержит такие компоненты, как: один или более процессоров (301), по меньшей мере одну память (302), средство хранения данных (303), интерфейсы ввода/вывода (304), средство В/В (305), средства сетевого взаимодействия (306).

Процессор (301) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (300) или функциональности одного или более его компонентов. Процессор (301) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (302).

Память (302), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Средство хранения данных (303) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (303) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.

Интерфейсы (304) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (304) зависит от конкретного исполнения устройства (300), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (305) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (306) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (305) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (300) сопряжены посредством общей шины передачи данных (310). В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.