中兴通讯股份有限公司 (中国广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦, Guangdong 7, 518057, CN)
| 权 利 要 求 书 1. 一种网页呈现方法, 包括: 对网页中的各条链接按照兴趣关联规则计算兴趣度; 标示兴趣度高于指定值的链接得到新网页; 呈现所述新网页; 其中, 通过对用户的历史访问记录进行数据挖掘确定所述兴趣关联 规则。 2. 根据权利要求 1所述的方法, 其中, 通过对用户的历史访问进行数据挖 掘确定所述兴趣关联规则包括: 浏览器打开后, 读取所述浏览器緩存中的历史网页数据; 对所述历史网页数据进行数据挖掘, 得到所述兴趣关联规则。 3. 根据权利要求 1所述的方法, 其中, 所述兴趣关联规则存储在指定存储 区, 并每隔指定时长或打开网页的设定次数对所述指定存储区的兴趣关 联规则进行更新; 对网页中的各条链接按照兴趣关联规则计算兴趣度包括: 从所述指定存储区读取用户的兴趣关联规则; 对网页中的各条链接按照所述兴趣关联规则计算兴趣度。 4. 根据权利要求 1所述的方法, 其中, 标示兴趣度高于指定值的链接得到 新网页包括: 按照所述兴趣度对所述各条链接进行排序; 从链接的排序结果中提取出兴趣度高于所述指定值的网页链接, 用 指定颜色标示提取出的网页链接得到新网页。 5. 才艮据权利要求 1至 4任一项所述的方法, 其中, 所述网页呈现方法应用 于移动终端。 6. —种网页呈现装置, 包括: 兴趣度计算模块, 用于对网页中的各条链接按照兴趣关联规则计算 兴趣度; 网页标示模块, 用于标示兴趣度高于指定值的链接得到新网页; 呈现模块, 用于呈现所述新网页; 其中, 通过对用户的历史访问记录进行数据挖掘确定所述兴趣关联 规则。 7. 根据权利要求 6所述的装置, 其中, 所述装置还包括: 规则获取模块, 用于浏览器打开后, 读取所述浏览器緩存中的历史 网页数据; 对所述历史网页数据进行数据挖掘, 得到所述兴趣关联规则。 8. 根据权利要求 6所述的装置, 其中, 所述兴趣关联规则存储在所述装置 的指定存储区, 所述装置还包括: 更新模块, 用于每隔指定时长或打开网页的设定次数对所述指定存 储区的兴趣关联规则进行更新; 所述兴趣度计算模块包括: 获取单元, 用于从所述指定存储区读取 用户的兴趣关联规则; 计算单元, 用于对网页中的各条链接按照所述兴 趣关联规则计算兴趣度。 9. 根据权利要求 6所述的装置, 其中, 所述网页标示模块包括: 排序单元, 用于按照所述兴趣度对所述各条链接进行排序; 新网页获取单元, 用于从链接的排序结果中提取出兴趣度高于所述 指定值的网页链接, 用指定颜色标示提取出的网页链接得到新网页。 10. 居权利要求 6至 9任一项所述的装置, 其中, 所述装置为移动终端。 |
( 1 ) 将兴趣词条定义为节点, 节点以二元组 (t, weight ) 表示, 简记 为 Node ( t ), 其中, weight为词条 t的权重; weight=新鲜度 X频度 ( f;)。 新鲜度反映兴趣词条存在时间的长短, 最近访问页面中的兴趣词条的新 鲜度相对较高, 在预测过程中, 越是最近访问的页面中的兴趣词条对预测起 的作用越大。 新鲜度可以等于保存该词条的时间, 也可以与保存时间具有一 定的线性关系。 fl为词条在页面中出现的频度, 例如, 某个词条在一个页面中出现了 8 次, 该页面中总的词条数为 100 (包括重复), 则 ¾=8/100。 其中, 兴趣词条可以是娱乐、 体育、 新闻、 天气、 咨询和财经等。
( 2 )定义节点之间的联系为兴趣关联规则,用三 组 [ Node( ¾ ), support, Node ( tj ) ]表示, 简 ΐ己为 Rule [ Node ( t ; ), Node ( tj ) ], 其中, support称为 关联支持度, 表示由节点 Node ) 转到节点 Node ( t } ) 的可能性;
( 3 ) 数据预处理, 对页面集合 C 中的各页面抽取词千, 并进行词千切 分, 对应地得到页面 Y k 的词条集合 K ( Y k ) ={ ( ti' , weight ) I ti' T (汉 语词汇;), i ( 自然数) };
K ( Y k ) 表示在 Y k 页面中出现的所有的兴趣词条的集合, t 为其中一 个词条。 緩存 ( Cache ) 中的历史网页数据通常釆用 WWW数据模型表示, 根据 具体实现还可能对 WWW数据模型的历史网页数据进行数据格式转换 ,转换 为所需要的数据格式。 词千的抽取和切分可以参考 IEEE (美国电气和电子工程师协会 )的数据 ¾;掘在网页预耳又中的应用 ( application of data mining in Web pre-fetching )。
( 4 )从页面集合 C中的各页面 Y k 中提取该页面的链接点, 得到页面的 链接点集合 L ( Y k ) ={l k , i I l k , i为页面 Y k 中的链接点 }; 链接集合表示 Y k 页面中所有的可以链接进入的链接点的集 合,通过点击
Y k 页面里的链接就可以进入下一个页面。
( 5 ) 提取页面的链接点的同时, 获取链接点的链接词千, 对链接词千 进行切分, 得到页面中链接点 l k , ,的链接词条集合 Q ( lk, .. stnng ) I tj" 在 l k , i- string中, j N} ; Q ( l k , L stnng ) 表示对 Y k 中的某个链接 l k , ,对其链接词千进行切分后得到 的词条的集合。 通过以上的数据处理得到了四种集合, 分别为: 页面集合、 页面的词条 集合、 页面的链接点集合以及页面中链接点的链接词 条集合。 得到四种集合 是为了下面计算兴趣关联规则 [ Node ( ti ), support, Node ( tj ) ], 即从一个 词条转移到另一个词条的可能性, 进而在计算出从一个页面转移到其中某个 链接的可能性。
( 6 ) 生成兴趣关联规则, 兴趣关联规则的集合构成兴趣关联知识库; 生成兴趣关联规则的具体过程可以包括下述方 法: 遍历页面集合 C, 对于页面 Y k 遍历该页面中的链接集合 L ( Y k ), 逐一 判断其中的链接点的源页面 (链接点所在的页面) Υ」是否属于页面集合 C, 如果属于, 则遍历页面 Y k 和 Υ」的词条集合, 将 Y k 与 Υ」中的词条进行组合, 计算词条组合中从一个词条转移到另一个词条 的转移支持率, 该转移支持率 等于两个词条权重之和, 当词条在多个页面中重复出现时, 则在支持率中累 加词条的权重; 如果链接点的源页面 Yj不属于页面集合 C , 则遍历页面 Y k 和链接点的 链接词条集合,将 Y k 与链接点的链接词条集合中的词条进行组 合, 计算词条 组合中从一个词条转移到另一个词条的转移支 持率, 该转移支持率等于页面 Y k 中词条的权重, 当链接词条在多个链接点的链接词条集合中出 现时, 则转 移支持率累加页面 Y k 中词条的权重。 生成兴趣关联规则的伪代码如下: for保存的页面集合 C 中的每个页面
Y k { for链接集合 L ( Y k ) 中的每个链接 l k , r
{设1]^ r 的目标页面为 Yj ; if Yj e C then { for 页面 Y k 中的词条集 K ( Y k ) 中的每个词条 ( , weightp )
{ for 页面 Yj中的词条集 K ( Yj ) 中的每个词条 ( t q ', weight q ) {
Rule [Node ( t p ' ), Node ( t q ' ) ]的支持度 +=g ( weightp, weightq ) ; ( t p ', weightp ) ≡K ( Y k ), ( t q ', weightq ) ≡K ( Yj )
} }
} else
{ for 页面 Y k 中的词条集合 K (Y k ) 中的每个词条 ( , weightp )
{ for Q (1 k, r- string ) 中的每个词条 t q '
{
Rule [ Node ( t p ' ), Node ( t q ' ) ] 的支持度 +=weight p ; ( t p ', weightp ) e Yi, t q 'eQ ( l k , r . string )
}
}
}
} } 其中, g ( weightp, weightq ) 为函数, 令其为 ( weight p +weight q ), 表示 緩存中的页面的链接点及链接点所指向的页面 对兴趣关联知识库中的兴趣关 联规则的影响。 使用上面的关联规则挖掘算法计算 Rule [Node (¾), Node (tj) ]的支持度, 反映了当前浏览器用户访问网页兴趣和习惯, 作为下一步 计算链接兴趣度的依据。 计算链接兴趣度的方法可以为: 在兴趣关联规则数据库中查找当前访问 页面中的词条与链接词条的兴趣关联规则, 计算兴趣度, 该兴趣度等于当前 访问页面中词条的权重乘以该查找到的兴趣关 联规则中的支持度, 完成兴趣 度的计算后, 对得到的全部链接按照兴趣度进行排序。 步骤 S208 , 通过数据挖掘给出的结果和当前用户访问的网 页, 对计算出 兴趣度高的链接进行标示, 得到新网页。 步骤 S210, 按照标示的链接浏览新网页。 本实施例根据用户当前访问的网页和上述兴趣 关联规则进行计算得到当 前网页链接集合中各个链接的兴趣度后,可以 对各个链接的兴趣度进行排序, 并提取出兴趣度较高的网页链接, 使用突出的颜色进行标示; 并在网页滚动 浏览的时候按照已经标示的链接来滚动浏览和 聚焦。 本实施例通过获取浏览器緩存中保存的历史网 页数据, 这些数据中隐含 着用户的兴趣爱好和访问习惯, 使用兴趣关联规则挖掘, 挖掘出反映用户兴 趣和习惯的兴趣关联规则。 根据兴趣关联规则和用户当前所浏览的网页, 对 当前网页中用户兴趣度高的链接进行标示。 并且在网页滚动浏览的时候, 用 户可以选择按照已经标示网页链接来浏览网页 。 如果用户下一个要浏览的网 页链接 (已经被标示出来的) 的位置在手机当前屏幕内, 则用户下一个要浏 览的网页链接就是屏幕内标示出的网页链接。 用户下一个要浏览的网页链接 位置不在手机当前屏幕内, 在手机的下一个刷新页面, 则浏览器会进行先翻 页, 然后滚动浏览到翻页后标示出的网页链接。 本实施例在呈现网页时, 根据用户访问的历史记录确定各个链接的兴趣 度, 对兴趣度高的链接进行标示, 使用户能够快速浏览到感兴趣的内容, 提 高了手机浏览器在浏览一个大网页时的速度, 进而提升使用浏览器的用户体 验。 实施例 3 参见图 3 , 本实施例提供了一种网页呈现装置, 该装置包括: 兴趣度计算模块 32 , 用于对网页中的各条链接按照兴趣关联规则计 算兴 趣度, 其中, 通过对用户的历史访问记录进行数据挖掘确定 兴趣关联规则; 网页标示模块 34 , 连接至兴趣度计算模块 32 , 用于标示兴趣度高于指 定值的链接得到新网页; 呈现模块 36 , 连接至网页标示模块 34 , 用于呈现上述新网页。 其中, 兴趣度计算模块 32 的具体实现可以参考实施例 2 中的算法, 这 里不再详述。 上述兴趣关联规则可以在每次用户打开浏览器 时进行确定, 基于此, 该 装置还包括: 规则获取模块, 用于浏览器打开后, 读取浏览器緩存中的历史 网页数据; 对该历史网页数据进行数据挖掘, 得到兴趣关联规则。 得到上述兴趣关联规则后, 可以将该兴趣关联规则存储到指定存储区, 用于后续呈现网页时使用。 因此在用户打开浏览器时, 可以到该指定存储区 读取该兴趣关联规则, 该指定存储区中兴趣关联规则可以按照一定的 时间进 行更新, 也可以统计用户打开网页的次数, 当打开网页的次数达到设定次数 时进行更新。 基于此, 该装置还包括: 更新模块, 用于每隔指定时长或打开 网页的设定次数对该指定存储区的兴趣关联规 则进行更新; 相应地, 兴趣度 计算模块 32包括: 获取单元, 用于从指定存储区读取用户的兴趣关联规则; 计算单元, 用于对网页中的各条链接按照兴趣关联规则计 算兴趣度。 参见图 4 , 为本实施例提供的网页呈现装置的具体结构框 图, 该装置包 括: 兴趣度计算模块 32、 网页标示模块 34和呈现模块 36 , 其中, 网页标示 模块 34包括: 排序单元 342 , 用于按照兴趣度对各条链接进行排序; 新网页获取单元 344 , 用于从链接的排序结果中提取出兴趣度高于指 定 值的网页链接, 用指定颜色标示提取出的网页链接得到新网页 。 本实施例提供的装置可以是移动终端, 也可以是其它设备。 本实施例的装置在呈现网页时, 才艮据用户访问的历史记录确定各个链接 的兴趣度, 对兴趣度高的链接进行标示, 使用户能够快速浏览到感兴趣的内 容, 提高了浏览器在浏览一个大网页时的速度, 进而提升使用浏览器的用户 体验。 从以上的描述中可以看出, 本发明实现了如下技术效果: 以上实施例通过基于数据挖掘的方法对网页进 行处理, 得到带有链接标 示的新网页, 呈现该新网页。 可以加快浏览器对于大网页的浏览速度, 并提 高用户体 -险。 显然, 本领域的技术人员应该明白, 上述的本发明的各模块或各步骤可 以用通用的计算装置来实现, 它们可以集中在单个的计算装置上, 或者分布 在多个计算装置所组成的网络上, 可选地, 它们可以用计算装置可执行的程 序代码来实现, 从而, 可以将它们存储在存储装置中由计算装置来执 行, 并 且在某些情况下, 可以以不同于此处的顺序执行所示出或描述的 步骤, 或者 将它们分别制作成各个集成电路模块, 或者将它们中的多个模块或步骤制作 成单个集成电路模块来实现。 这样, 本发明不限制于任何特定的硬件和软件 结合。 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于本 领域的技术人员来说, 本发明可以有各种更改和变化。 凡在本发明的 ^"神和 原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护 范围之内。
Next Patent: MAIL SENDING METHOD FOR MOBILE TERMINALS, AND MAIL SYSTEM
