Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PROGRAM RECOMMENDING DEVICE AND PROGRAM RECOMMENDING METHOD
Document Type and Number:
WIPO Patent Application WO/2012/079254
Kind Code:
A1
Abstract:
A program recommending device and program recommending method are provided in the present invention, which belongs to the field of artificial intelligence research. The device includes: an input unit (100), a program pre-selecting unit (110), a feature extracting unit (120), a machine learning unit (130), a program forecast unit (140) and an output unit (150). The method includes: receiving language information inputted by a user; according to the language information, extracting associated electronic program information from a electronic program list database in which the electronic program information has been stored; selecting features from the extracted electronic program information to obtain feature elements, obtaining the associated information of the feature elements from a knowledge database in which language knowledge has been stored, and constructing a feature set; constructing a statistic model by using the feature set and a machine learning method; matching programs in the electronic program list database by using the statistic model; and exporting a matching result to the user. The present invention resolves a problem of cold startup of a program recommending system, ensures privacy information of a user from leakage, and improves precision, performance and practicability of program recommending.

Inventors:
XU JIN AN (CN)
ZHU ZHENYU (CN)
MAN ZHIYUAN (CN)
ZHAO YUNLONG (CN)
YIN LI (CN)
LIU JUN (CN)
Application Number:
PCT/CN2010/079958
Publication Date:
June 21, 2012
Filing Date:
December 17, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV BEIJING JIAOTONG (CN)
XU JIN AN (CN)
ZHU ZHENYU (CN)
MAN ZHIYUAN (CN)
ZHAO YUNLONG (CN)
YIN LI (CN)
LIU JUN (CN)
International Classes:
H04N7/173
Foreign References:
CN101527815A2009-09-09
CN1524236A2004-08-25
US7685276B22010-03-23
CN101094335A2007-12-26
Attorney, Agent or Firm:
BEIJING SAN GAO YONG XIN INTELLECTUAL PROPERTY AGENCY CO., LTD (CN)
北京三高永信知识产权代理有限责任公司 (CN)
Download PDF:
Claims:
权 利 要 求 书

1、 一种节目推荐装置, 其特征在于, 所述装置包括:

输入单元, 用于接收用户输入的语言信息;

节目预选单元, 用于根据所述输入单元接收的语言信息, 从已存储电子节目信息的电子 节目表数据库中提取相关的电子节目信息;

特征抽取单元, 用于对所述节目预选单元提取的电子节目信息进行特征选取, 得到特征 元素, 并从已存储语言知识的知识库中获取所述特征元素的关联信息, 构建特征集合; 机器学习单元, 用于利用所述特征抽取单元得到的特征集合和机器学习方法, 构建统计 模型;

节目预测单元, 用于利用所述机器学习单元构建的统计模型, 对所述电子节目表数据库 中的节目进行匹配;

输出单元, 用于输出所述节目预测单元匹配的结果给用户。

2、 根据权利要求 1所述的装置, 其特征在于, 所述节目预选单元包括:

第一预选子单元, 用于当所述输入单元接收的语言信息为关键词集合时, 对所述关键词 集合进行逻辑计算后从所述电子节目表数据库中提取相关的电子节目信息。

3、 根据权利要求 1所述的装置, 其特征在于, 所述节目预选单元包括:

第二预选子单元, 用于当所述输入单元接收的语言信息为短语或句子时, 先进行分词处 理, 对分词结果进行计算得到用户喜好的空间模型, 然后计算所述空间模型与所述电子节目 表数据库中的电子节目信息的相似度, 根据所述相似度提取相关的电子节目信息。

4、 根根权利要求 1所述的装置, 其特征在于, 所述特征抽取单元还包括:

反馈子单元, 用于以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目 信息进行检索和评价处理, 并把处理的结果反馈给所述节目预选单元;

相应地, 所述节目预选单元还用于接收所述反馈子单元反馈的结果, 根据所述反馈的结 果从所述电子节目表数据库中提取相关的电子节目信息, 并输出给所述特征抽取单元。

5、根据权利要求 1至 4中任一权利要求所述的装置, 其特征在于, 所述知识库包括词的 同义、 近义、 反义, 概念的相似度, 以及词、 词类和语义属性中的任意的一种或多种。

6、 一种节目推荐方法, 其特征在于, 所述方法包括:

接收用户输入的语言信息;

根据所述语言信息, 从已存储电子节目信息的电子节目表数据库中提取相关的电子节目 信息;

对所述提取的电子节目信息进行特征选取, 得到特征元素, 并从已存储语言知识的知识 库中获取所述特征元素的关联信息, 构建特征集合;

利用所述特征集合和机器学习方法, 构建统计模型;

利用所述统计模型, 对所述电子节目表数据库中的节目进行匹配;

输出所述匹配的结果给用户。

7、 根据权利要求 6所述的方法, 其特征在于, 根据所述语言信息, 从已存储电子节目信 息的电子节目表数据库中提取相关的电子节目信息, 包括:

当所述接收的语言信息为关键词集合时, 对所述关键词集合进行逻辑计算后从所述电子 节目表数据库中提取相关的电子节目信息。

8、 根据权利要求 6所述的方法, 其特征在于, 根据所述语言信息, 从已存储电子节目信 息的电子节目表数据库中提取相关的电子节目信息, 包括:

当所述接收的语言信息为短语或句子时, 先进行分词处理, 对分词结果进行计算得到用 户喜好的空间模型, 然后计算所述空间模型与所述电子节目表数据库中的电子节目信息的相 似度, 根据所述相似度提取相关的电子节目信息。

9、根根权利要求 6所述的方法,其特征在于,对所述提取的电子节目信息进行特征选取, 得到特征元素之后, 还包括:

以所述特征元素为检索关键词对所述电子节目表数据库中的电子节目信息进行检索和评 价处理, 并根据所述处理的结果从所述电子节目表数据库中提取相关的电子节目信息, 然后 对根据所述语言信息提取的电子节目信息和根据所述特征元素提取的电子节目信息进行特征 选取, 得到新的特征元素;

相应地, 从已存储语言知识的知识库中获取所述特征元素的关联信息, 构建特征集合, 包括:

从已存储语言知识的知识库中获取所述新的特征元素的关联信息, 构建特征集合。

10、 根据权利要求 6至 9中任一权利要求所述的方法, 其特征在于, 所述知识库包括词 的同义、 近义、 反义, 概念的相似度, 以及词、 词类和语义属性中的任意的一种或多种。

Description:
节目推荐装置和节目推荐方法 技术领域

本发明涉及人工智能研究领域, 特别涉及一种节目推荐装置和节目推荐方法。 背景技术 说 随着网络技术、 数字电视和通信技术的飞速发展, 当前, 有线数字电视、 网络数字电视、 卫星数字电视和无线数字电视已经发展到了大 规模实用阶段。 数字技术带来电视频道的大量 增加、 尽管 EPG (Electronic Program Guide, 电子节目表)为人们带来了一定的便利, 由于电 书

视节目资源日趋繁多, 导致人们很难快速发现自己真正喜欢的节目。

为了解决信息过载问题, 形式多样的节目推荐系统应运而生, 现有的节目推荐方法主要 包括以下几种: 基于规则的推荐方法、 基于内容过滤的推荐方法、 基于协同过滤的推荐方法 和基于混合策略的推荐方法。

基于规则的推荐方法主要运用各种规则来实现 节目的推荐功能。 规则的获取又可以分为 人工编写的规则或基于关联规则的挖掘技术来 加以实现。 该方法的优点在于规则的制作简单 直接。

基于内容过滤的推荐方法通过比较节目和用户 的描述信息来实现推荐功能。 此方法可以 采用向量空间模型、 贝叶斯方法、 决策树、 支持向量机 (SVM) 等机器学习方法加以实现。 该方法的优点在于方法简单, 可以对用户潜在的需求做出适当的预测。

基于协同过滤的推荐方法根据用户的相似性来 推荐节目。在计算用户之间的相似度方面, 此方法可以采用各种聚类和分类算法, 如 K最近邻法 (KNN)、 K平均 (K-MEANs)、 模糊 聚类、 朴素贝叶斯、 SVM等等来实现。 该方法的优点在于能够为用户发现一部分新的 感兴趣 的节目。

基于混合策略的推荐方法是指综合采用基于内 容过滤的方法和基于协同过滤的推荐方 法。 该方法能综合上述两种方法的优点, 相互取长补短, 形成优势互补, 能够在一定程度上 改善推荐的精度和效果。

在实现本发明的过程中, 发明人发现上述现有技术至少具有以下缺点:

基于规则的推荐方法中规则的主观性较强, 质量难以保证; 规则的增加会导致规则之间 相互冲突, 系统的管理和升级困难等问题。 基于内容过滤的推荐方法对于全新的节目的推 荐 效果和效率不高, 存在 "冷启动" 问题。 基于协同过滤的推荐方法自适应能力低下、 可扩展 性能不高、 不能很好地解决 "冷启动 "问题、 还涉及他人隐私等问题。 基于混合策略的推荐方 法的可扩展性有待进一步提高, 系统抗恶意评分能力差且依旧存在 "冷启动" 的问题。 综上 所述, 现有的节目推荐技术无法在确保不侵犯用户个 人隐私的前提下, 很好地解决节目推荐 系统的 "冷启动" 问题, 极大地影响了节目推荐系统的推荐精度和性能 。 发明内容

为了解决现有技术的问题, 本发明实施例提供了一种节目推荐装置和节目 推荐方法。 所 述技术方案如下:

一种节目推荐装置, 所述装置包括:

输入单元, 用于接收用户输入的语言信息;

节目预选单元, 用于根据所述输入单元接收的语言信息, 从已存储电子节目信息的电子 节目表数据库中提取相关的电子节目信息;

特征抽取单元, 用于对所述节目预选单元提取的电子节目信息 进行特征选取, 得到特征 元素, 并从已存储语言知识的知识库中获取所述特征 元素的关联信息, 构建特征集合; 机器学习单元, 用于利用所述特征抽取单元得到的特征集合和 机器学习方法, 构建统计 模型;

节目预测单元, 用于利用所述机器学习单元构建的统计模型, 对所述电子节目表数据库 中的节目进行匹配;

输出单元, 用于输出所述节目预测单元匹配的结果给用户 。

所述节目预选单元包括:

第一预选子单元, 用于当所述输入单元接收的语言信息为关键词 集合时, 对所述关键词 集合进行逻辑计算后从所述电子节目表数据库 中提取相关的电子节目信息。

所述节目预选单元包括:

第二预选子单元, 用于当所述输入单元接收的语言信息为短语或 句子时, 先进行分词处 理, 对分词结果进行计算得到用户喜好的空间模型 , 然后计算所述空间模型与所述电子节目 表数据库中的电子节目信息的相似度, 根据所述相似度提取相关的电子节目信息。

所述特征抽取单元还包括:

反馈子单元, 用于以所述特征元素为检索关键词对所述电子 节目表数据库中的电子节目 信息进行检索和评价处理, 并把处理的结果反馈给所述节目预选单元;

相应地, 所述节目预选单元还用于接收所述反馈子单元 反馈的结果, 根据所述反馈的结 果从所述电子节目表数据库中提取相关的电子 节目信息, 并输出给所述特征抽取单元。

所述知识库包括词的同义、 近义、 反义, 概念的相似度, 以及词、 词类和语义属性中的 任意的一种或多种。

一种节目推荐方法, 所述方法包括:

接收用户输入的语言信息;

根据所述语言信息, 从已存储电子节目信息的电子节目表数据库中 提取相关的电子节目 信息;

对所述提取的电子节目信息进行特征选取, 得到特征元素, 并从已存储语言知识的知识 库中获取所述特征元素的关联信息, 构建特征集合;

利用所述特征集合和机器学习方法, 构建统计模型;

利用所述统计模型, 对所述电子节目表数据库中的节目进行匹配;

输出所述匹配的结果给用户。

根据所述语言信息, 从已存储电子节目信息的电子节目表数据库中 提取相关的电子节目 信息, 包括:

当所述接收的语言信息为关键词集合时, 对所述关键词集合进行逻辑计算后从所述电子 节目表数据库中提取相关的电子节目信息。

根据所述语言信息, 从已存储电子节目信息的电子节目表数据库中 提取相关的电子节目 信息, 包括:

当所述接收的语言信息为短语或句子时, 先进行分词处理, 对分词结果进行计算得到用 户喜好的空间模型, 然后计算所述空间模型与所述电子节目表数据 库中的电子节目信息的相 似度, 根据所述相似度提取相关的电子节目信息。

对所述提取的电子节目信息进行特征选取, 得到特征元素之后, 还包括:

以所述特征元素为检索关键词对所述电子节目 表数据库中的电子节目信息进行检索和评 价处理, 并根据所述处理的结果从所述电子节目表数据 库中提取相关的电子节目信息, 然后 对根据所述语言信息提取的电子节目信息和根 据所述特征元素提取的电子节目信息进行特征 选取, 得到新的特征元素;

相应地, 从已存储语言知识的知识库中获取所述特征元 素的关联信息, 构建特征集合, 包括: 从已存储语言知识的知识库中获取所述新的特 征元素的关联信息, 构建特征集合。 所述知识库包括词的同义、 近义、 反义, 概念的相似度, 以及词、 词类和语义属性中的 任意的一种或多种。

本发明实施例提供的技术方案的有益效果是: 根据用户输入的语言信息从电子节目表数 据库中提取相关的电子节目信息, 并进行特征选取得到特征元素, 以及调用知识库中存储的 信息对特征元素进行扩充得到用户兴趣爱好空 间的特征集合, 用该特征集合和机器学习的方 法构建统计模型, 以此匹配电子节目表数据库输出匹配结果给用 户, 实现了节目推荐, 解决 了现有技术的 "冷启动" 问题, 而且提高了节目推荐的精度、 性能和实用性。 由于上述装置 位于用户端, 该方法也是在用户侧执行的, 不涉及在网络服务器端或用户端采集用户个人 信 息, 因此, 可以充分保障用户的隐私情报不泄漏, 提高了保密性。 另外, 还可以以特征元素 为检索关键词对电子节目表数据库进行检索和 评价处理, 然后根据处理结果再次进行节目预 选, 从而可以进一步扩大用户兴趣爱好空间, 提高节目推荐的精度。 附图说明

图 1是本发明实施例 1提供的节目推荐装置结构图;

图 2是本发明实施例 2提供的节目推荐装置结构图;

图 3是本发明实施例 3提供的节目推荐方法流程图;

图 4是本发明实施例 4提供的节目推荐方法流程图。 具体实施方式

为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本发明实施方式作进 一步地详细描述。

实施例 1

参见图 1, 本实施例提供了一种节目推荐装置, 包括:

输入单元 100, 用于接收用户输入的语言信息;

节目预选单元 110, 用于根据输入单元 100接收的语言信息, 从已存储电子节目信息的 电子节目表数据库中提取相关的电子节目信息 ;

特征抽取单元 120, 用于对节目预选单元 110提取的电子节目信息进行特征选取, 得到 特征元素, 并从已存储语言知识的知识库中获取特征元素 的关联信息, 构建特征集合; 机器学习单元 130, 用于利用特征抽取单元 120得到的特征集合和机器学习方法, 构建 统计模型;

节目预测单元 140, 用于利用机器学习单元 130构建的统计模型, 对电子节目表数据库 中的节目进行匹配;

输出单元 150, 用于输出节目预测单元 140匹配的结果给用户。

本发明实施例中涉及的电子节目表(EPG), 不仅仅限于电视节目的 EPG, 对其他任何用 电子节目表构成的推荐系统都是可以接受的。

本实施例中, 输入单元 100接收由用户输入的语言, 可以采用多种方式实现, 包括但不 限于: 遥控器、 键盘、 定点装置 (如鼠标)、 手写字符识别、 光学字符读取器等任何通用输入 模块, 或者通过语音识别系统进行语音输入、 以及通过读取文本文件或读取数据库等形式都 是可以接受的。 输入单元 100可以使用任何方法, 只要其执行处理最终获得语言信息的输入 即可。 用户的输入可以是关键词, 也可以是描述用户的喜好的短语或句子。

本实施例中, 节目预选单元 110可以包括:

第一预选子单元, 用于当输入单元 100接收的语言信息为关键词集合时, 对关键词集合 进行逻辑计算后从电子节目表数据库中提取相 关的电子节目信息; 和 /或,

第二预选子单元, 用于当输入单元 100接收的语言信息为短语或句子时, 先进行分词处 理, 对分词结果进行计算得到用户喜好的空间模型 , 然后计算空间模型与电子节目表数据库 中的电子节目信息的相似度, 根据该相似度提取相关的电子节目信息。

具体地, 第一预选子单元可以直接利用关键词集合从 EPG数据库中抽取节目, 关键词集 合中的各个关键词之间可以采用逻辑与、 逻辑或、 逻辑非、 逻辑与非运算等逻辑运算方法加 以实现。

具体地, 第二预选子单元可以采用分词工具进行处理, 然后针对分词结果可以使用计算 词频等方法得到用户喜好的空间模型,再计算 空间模型和 EPG数据库中电子节目信息的相似 度, 然后排序得到推荐结果。

另外, 节目预选单元 110还可以将提取的电子节目信息提供给用户, 由用户对其进行初 期筛选, 然后将用户筛选确认后的结果输出到特征抽取 单元 120。

本发明实施例涉及的 EPG数据库可以由按照一定结构或半结构化的电 子节目表组成。如 现在放送的数字电视包括网络电视和有线电视 等一般能够提供从视听当天开始 2周的节目。 EPG数据库中的数据可以从数字无线电视接收装 置中提取, 也可以从互联网上获得。 EPG— 般包括节目号、 节目名称、 节目介绍、 频道、 起止时间等等信息, 可以根据需要按照一定的 数据格式存储到 EPG数据库中。本发明实施例中, EPG中存取的节目信息可以是过去、现在 或将来的节目信息, 本发明实施例对此不做具体限定。 本发明的 EPG数据库, 允许积累和存 储过去时间的 EPG数据, 如自用户视听当日算起, 过去 1年或半年或 3个月的电子节目, 其 目的在于为用户提供足够的兴趣选择的数据空 间。

本实施例中, 特征抽取单元 120进行特征选取的方法有多种, 包括但不限于: 基于文档 频率的特征提取方法, 信息增益法, X 2 统计方法和互信息方法等等。 特征选取中可以基于特 征权重进行计算, 该特征权重的计算方法也有很多, 如布尔权重、 绝对 TF (Term Frequency, 词步 ]¾)、 IDF ( Inverse Document Frequency,倒排文档步 ]¾度)、 TF-IDF ( Term Frequency and Inverse Document Frequency, 词频和倒排文档频度)、 TFC (Term Frequency Count, 词频计数)、 ITC、 熵权重、 TF-IWF等等, 本发明实施例对此不做具体限定。特征抽取单 元 120从知识库中获取 的特征元素的关联信息包括: 词语的语义、 概念等属性信息, 这些信息可以作为用户的兴趣 和喜好空间的特征集合, 从而为机器学习单元 130提供建模的数据条件和判定依据。

本发明实施例涉及的知识库包括词的同义、 近义、 反义, 概念的相似度, 以及词、 词类 和语义属性中的任意的一种或多种。 知识库不仅可以包含上述语义、 概念等属性特征, 同时 还可以包括与属性特征相关的组织化信息, 该组织化信息是指根据知识库中知识的结构对 特 征元素进行适当的组织化管理后得到的信息, 如确立概念的所属关系和语义的包络关系等。 组织化管理可以根据概念语义网络进行, 同时还可以根据概念语义网络的层次赋予各个 要素 不同的权重处理等, 以提高系统的性能。 知识库可以由人工构建, 也可以利用现有的词典或 义类词典等。 例如英语的 WordNet、 中文的 HowNet、 日语的 EDR电子词典等。 同时, 还可 以利用各种同义词、 近义词电子词典等。

本实施例中, 机器学习单元 130使用的机器学习方法多种多样, 如有监督机器学习方法 或无监督机器学习方法、 以及半监督机器学习方法等; 具体地, 如采用支持向量机 (SVM)、 决策树(decision tr ee )、 贝叶斯、 最大熵以及条件随机场等算法中的任何一种加 以实现, 也可 以使用其中的多个构建混合算法加以实现, 本发明实施例对此不做具体限定。

本实施例中, 节目预测单元 140还可以进一步对匹配的结果进行排序处理, 然后把排序 的结果输出到输出单元 150, 相应地, 输出单元 150再将该结果输出给用户。

本实施例中, 输出单元 150输出节目推荐的结果给用户可以采用多种形 式, 可以是文件 输出, 也可以是显示器输出等等, 其中, 可以以特定格式输出并展现给用户, 最终的表现方 式可以是任意形式的, 比如高亮推荐, 声音提醒等, 本发明实施例对此不做具体限定。 用户 在得到该推荐的节目后, 可以请求播放自己需要的节目, 从而接收相应的数据流进行观看。

本实施例中, 特征抽取单元 120在特征选取之前或之后还可以运用聚类或分 类算法进行 计算, 机器学习单元 130也可以在构建统计模型之前或之后运用聚类 或分类算法进行计算, 从而进一步提高节目推荐的精度, 本发明实施例对此不做具体限定。

本实施例提供的上述装置根据用户输入的语言 信息, 从电子节目表数据库中提取相关的 电子节目信息, 并进行特征选取得到特征元素, 以及调用知识库中存储的信息对特征元素进 行扩充得到用户兴趣爱好空间的特征集合, 用该特征集合和机器学习的方法构建统计模型 , 以此匹配电子节目表数据库输出匹配结果给用 户, 实现了节目推荐, 解决了现有技术的 "冷 启动" 问题, 而且提高了节目推荐的精度、 性能和实用性。 由于上述装置位于用户端, 不涉 及在网络服务器端或用户端采集用户个人信息 , 因此, 可以充分保障用户的隐私情报不泄漏, 提高了保密性。 另外, 还可以以特征元素为检索关键词对电子节目表 数据库进行检索和评价 处理, 然后根据处理结果再次进行节目预选, 从而可以进一步扩大用户兴趣爱好空间, 提高 节目推荐的精度。 实施例 2

在实施例 1 的基础上, 本实施例提供了一种节目推荐装置, 包括: 输入单元 100、 节目 预选单元 110、 特征抽取单元 120、 机器学习单元 130、 节目预测单元 140和输出单元 150, 上述各个单元的功能均与实施例 1中描述的功能相同, 在此基础之上的改进之处在于, 特征 抽取单元 120还可以包括:

反馈子单元 120a, 用于以上述特征元素为检索关键词对电子节目 表数据库中的电子节目 信息进行检索和评价处理, 并把处理的结果反馈给节目预选单元 110;

相应地, 节目预选单元 110还用于接收反馈子单元反馈的结果, 根据反馈的结果从电子 节目表数据库中提取相关的电子节目信息, 并输出给特征抽取单元 120, 从而特征抽取单元 120 可以对根据所述语言信息提取的电子节目信息 和根据所述特征元素提取的电子节目信息 进行特征选取, 得到新的特征元素, 从已存储语言知识的知识库中获取该新的特征 元素的关 联信息, 构建特征集合, 从而可以扩大特征集合, 用户可以更精确地选择自己喜爱的节目, 从而提高系统的预测精度。

进一步地, 特征抽取单元 120还可以先判断是否需要再预选, 如果是, 则执行上述反馈 操作, 否则, 按照实施例 1中的方式继续执行。 其中, 可以采用多种方式判断是否需要再预 选, 如可以预设简单的提问窗口, 问用户是否需要对电视节目进行再预选, 或同时把特征元 素输出为动态的类似于语义网络图形的方式提 供给用户, 供用户进行观察和分析等等, 本发 明实施例对此不做具体限定。 本实施例提供的上述装置根据用户输入的语言 信息, 从电子节目表数据库中提取相关的 电子节目信息, 并进行特征选取得到特征元素, 以及调用知识库中存储的信息对特征元素进 行扩充得到用户兴趣爱好空间的特征集合, 用该特征集合和机器学习的方法构建统计模型 , 以此匹配电子节目表数据库输出匹配结果给用 户, 实现了节目推荐, 解决了现有技术的 "冷 启动" 问题, 而且提高了节目推荐的精度、 性能和实用性。 由于上述装置位于用户端, 不涉 及在网络服务器端或用户端采集用户个人信息 , 因此, 可以充分保障用户的隐私情报不泄漏, 提高了保密性。 另外, 还可以以特征元素为检索关键词对电子节目表 数据库进行检索和评价 处理, 然后根据处理结果再次进行节目预选, 从而可以进一步扩大用户兴趣爱好空间, 提高 节目推荐的精度。 实施例 3

参见图 3, 本实施例提供了一种节目推荐方法, 包括:

S01 : 接收用户输入的语言信息;

S02: 根据该语言信息, 从已存储电子节目信息的电子节目表数据库中 提取相关的电子节 目信息;

S03 : 对提取的电子节目信息进行特征选取, 得到特征元素;

S04: 从已存储语言知识的知识库中获取特征元素的 关联信息, 构建特征集合;

S05 : 利用该特征集合和机器学习方法, 构建统计模型;

S06: 利用该统计模型, 对电子节目表数据库中的节目进行匹配;

S07: 输出匹配的结果给用户, 完成节目推荐。

本实施例中, 由用户对自己感兴趣的节目或自己的兴趣空间 进行输入, 输入的内容可以 是关键词, 也可以是描述用户的喜好的短语或句子。

本实施例中, S02可以具体包括:

S02a: 当接收的语言信息为关键词集合时, 对关键词集合进行逻辑计算后从电子节目表 数据库中提取相关的电子节目信息; 和 /或,

S02b: 当接收的语言信息为短语或句子时, 先进行分词处理, 对分词结果进行计算得到 用户喜好的空间模型, 然后计算空间模型与电子节目表数据库中的电 子节目信息的相似度, 根据相似度提取相关的电子节目信息。

具体地, S02a中可以直接利用关键词集合从 EPG数据库中抽取节目,关键词集合中的各 个关键词之间可以采用逻辑与、 逻辑或、 逻辑非、 逻辑与非运算等逻辑运算方法加以实现。 具体地, S02b中可以采用分词工具进行处理, 然后针对分词结果可以使用计算词频等方 法得到用户的喜好空间模型, 再计算空间模型和 EPG数据库中电子节目信息的相似度, 然后 排序得到推荐结果。

另外, 在 S02中还可以将提取的电子节目信息提供给用户 , 由用户对其进行初期筛选, 然后将用户筛选确认后的结果作为提取的电子 节目信息。

本发明实施例涉及的 EPG数据库可以由按照一定结构或半结构化的电 子节目表组成,具 体同实施例 1中的描述, 此处不再赘述。 本实施例中涉及的知识库包括词的同义、 近义、 反 义, 概念的相似度, 以及词、 词类和语义属性中的任意的一种或多种, 具体同实施例 1中的 描述, 此处不再赘述。

本实施例中, S03 中进行特征选取的方法有多种, 包括但不限于: 基于文档频率的特征 提取方法, 信息增益法, X 2 统计方法和互信息方法等等。 特征选取中可以基于特征权重进行 计算, 该特征权重的计算方法也有很多, 如布尔权重、 绝对词频 TF、 IDF, TF-IDF, TFC、 ITC、 熵权重、 TF-IWF等等, 本发明实施例对此不做具体限定。 S04中从知识库中获取的特 征元素的关联信息包括: 词语的语义、 概念等属性信息, 这些信息可以作为用户的兴趣和喜 好空间的特征集合, 从而为建模提供数据条件和判定依据。

本实施例中, S05 中使用的机器学习方法多种多样, 如有监督机器学习方法或无监督机 器学习方法、以及半监督机器学习方法等;具 体地,如采用支持向量机(SVM)、决策树 ( decision tree) 贝叶斯、 最大熵以及条件随机场等算法中的任何一种加 以实现, 也可以使用其中的多 个构建混合算法加以实现, 本发明实施例对此不做具体限定。

本实施例中, S06中还可以进一步对匹配的结果进行排序处理 , 相应地, S07中把排序的 结果输出给用户。

本实施例中, S07 输出节目推荐的结果给用户可以采用多种形式 , 可以是文件输出, 也 可以是显示器输出等等, 当输出的结果有多个时, 可以一屏显示给用户, 也可以分多屏显示 给用户, 本发明实施例对此不做具体限定。 用户在得到推荐结果后, 可以请求播放自己需要 的节目, 从而接收相应的数据流进行观看。

本实施例中, S03 中在特征选取之前或之后还可以运用聚类或分 类算法进行计算, S05 中也可以在构建统计模型之前或之后运用聚类 或分类算法进行计算, 从而进一步提高节目推 荐的精度, 本发明实施例对此不做具体限定。

本实施例提供的上述方法根据用户输入的语言 信息, 从电子节目表数据库中提取相关的 电子节目信息, 并进行特征选取得到特征元素, 以及调用知识库中存储的信息对特征元素进 行扩充得到用户兴趣爱好空间的特征集合, 用该特征集合和机器学习的方法构建统计模型 , 以此匹配电子节目表数据库输出匹配结果给用 户, 实现了节目推荐, 解决了现有技术的 "冷 启动"问题, 而且提高了节目推荐的精度、 性能和实用性。 由于上述方法是在用户端执行的, 不涉及在网络侧服务器端或用户端采集用户个 人信息, 因此, 可以充分保障用户的隐私情报 不泄漏, 提高了保密性。 另外, 还可以以特征元素为检索关键词对电子节目表 数据库进行检 索和评价处理, 然后根据处理结果再次进行节目预选, 从而可以进一步扩大用户兴趣爱好空 间, 提高节目推荐的精度。 实施例 4

在实施例 3的基础上, 本实施例提供了一种节目推荐方法, 其改进之处在于, 根据得到 的特征元素再次从 EPG数据库中提取电子节目信息, 以此来构建特征集合, 参见图 4, 该方 法具体包括:

S11 : 接收用户输入的语言信息;

S12: 根据该语言信息, 从已存储电子节目信息的电子节目表数据库中 提取相关的电子节 目信息;

S13 : 对提取的电子节目信息进行特征选取, 得到特征元素;

S14: 以该特征元素为检索关键词,对电子节目表数 据库中的电子节目信息进行检索和评 价处理, 并根据处理的结果从电子节目表数据库中提取 相关的电子节目信息;

S15 : 对 S12中根据语言信息提取的电子节目信息和 S14中根据特征元素提取的电子节 目信息进行特征选取, 得到新的特征元素;

S16: 从已存储语言知识的知识库中获取该新的特征 元素的关联信息, 构建特征集合;

S17: 利用该特征集合和机器学习方法, 构建统计模型;

S18: 利用该统计模型, 对电子节目表数据库中的节目进行匹配;

S19: 输出匹配的结果给用户, 完成节目推荐。

进一步地, S14中还可以先判断是否需要再预选, 如果是, 则继续执行 S14以及后续步 骤, 否则, 直接对根据语言信息提取的电子节目信息进行 特征选取, 得到特征元素, 从已存 储语言知识的知识库中获取该特征元素的关联 信息, 构建特征集合, 然后继续执行 S17等后 续步骤。

其中, 上述判断是否需要再预选可以采用多种方式进 行, 如可以预设简单的提问窗口, 问用户是否需要对电视节目进行再预选, 或同时把特征元素输出为动态的类似于语义网 络图 形的方式提供给用户, 供用户进行观察和分析等等, 本发明实施例对此不做具体限定。

本实施例提供的上述方法根据用户输入的语言 信息, 从电子节目表数据库中提取相关的 电子节目信息, 并进行特征选取得到特征元素, 以及调用知识库中存储的信息对特征元素进 行扩充得到用户兴趣爱好空间的特征集合, 用该特征集合和机器学习的方法构建统计模型 , 以此匹配电子节目表数据库输出匹配结果给用 户, 实现了节目推荐, 解决了现有技术的 "冷 启动"问题, 而且提高了节目推荐的精度、 性能和实用性。 由于上述方法是在用户端执行的, 不涉及在网络服务器端或用户端采集用户个人 信息, 因此, 可以充分保障用户的隐私情报不 泄漏, 提高了保密性。 另外, 还可以以特征元素为检索关键词对电子节目表 数据库进行检索 和评价处理, 然后根据处理结果再次进行节目预选, 从而可以进一步扩大用户兴趣爱好空间, 提高节目推荐的精度。 本发明实施例提供的上述技术方案的全部或部 分可以通过程序指令相关的硬件来完成, 所述程序可以存储在可读取的存储介质中, 该存储介质包括: ROM、 RAM, 磁碟或者光盘等 各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的精神和原则之 内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。