Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
重複ウェブページを除去する方法および装置
Document Type and Number:
Japanese Patent JP2017532690
Kind Code:
A
Abstract:
重複ウェブページを除去する方法および装置が開示される。例示的方法は、所定タイプの複数のウェブページを取得することと、現在のウェブページの特徴コードと現在のウェブページ内に含まれるテキスト文字の数とをウェブページ毎に抽出することとを含み得る。本方法はまた、特徴コードがデータ表内に含まれるかどうかを判断するためにデータ表を参照することを含み得る。特徴コードがデータ表内に含まれる場合、本方法は、特徴コードに対応するデータ表内のウェブページのテキスト文字の数を読み出すことと、読み出されたテキスト文字の数と抽出されたテキスト文字の数との差がある範囲内であるときに、現在のウェブページを廃棄することとをさらに含み得る。

Inventors:
Tan, Xiao Pen
Application Number:
JP2017522605A
Publication Date:
November 02, 2017
Filing Date:
October 22, 2015
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
Alibaba Group Housing Limited
International Classes:
G06F17/30
Attorney, Agent or Firm:
Yoshiyuki Inaba
Toshifumi Onuki
Akihiko Eguchi
Kazuhiko Naito