Patentics相关度解析


    在使用Patentics智能搜索系统进行搜索时,系统会根据搜索表达式和专利文本含义自动算出两者之间的相关度,并以百分比表示。
    当我们分别用“手机”和“汉字输入法”进行概念搜索,我们发现,与“手机”最相关专利的相关度仅为92%,而“汉字输入法”的最相关专利的相关度却高达99%。

    我们分别查看含有关键字“手机”和“汉字输入法”专利的数量。

    含有关键字“手机”的专利有320499篇,“汉字输入法”有2250篇。
    手机是现在人的生活必需品,在食品、化学、医疗、家居和生物等等领域都有所涉及,衍生出的产品也数不胜数,已不仅仅是最早纯粹的通信工具。如果需要查找手机应用于某领域的专利,我们需要阅读包含“手机”的全部八万多篇专利,犹如大海捞针。为此,用Patentics重排序功能,可对这些含有关键字“手机”的专利进行重排序。
    例如,“b/手机 and r/饭菜”,“b/手机 and r/DNA”。

    用“饭菜”对含有关键词“手机”的专利排序,我们居然发现有许多引用“手机”的专利与“饭菜”最高相关度为82%。

    用“DNA” 对含有关键词“手机”的专利排序,引用“手机”的专利与“DNA”最高相关度为86%。
    查看排在最前面结果,发现不少内容主题的确与“饭菜”和“DNA”相关的专利,同时也引用了关键词“手机”。说明了“手机”主题的发散、不明确性。
    相关度的计算,可以理解为Patentics自动将含有关键字“手机”的专利按主题排序,比如说Patentics发现在全部中国专利申请(目前为止960万)中引用关键词“手机”的多数申请都是与通信相关的。因此当用户仅输入“手机”搜索时,系统自动将最可能(92%)与通信相关的申请排在最前面。打个比方说,快递以前只能靠陆运,随着发展,现在已能够海运、陆运、空运和河运,但绝大多数还是靠陆运。所以提起运输,我们首先想到的还是陆运。但陆运对运输来说,已不是百分之百的选择了。系统将其它主题的申请排在后面。例如,那篇与“饭菜”有关并引用关键词“手机”的申请CN104887021“内置式沸水保温托盘”,被系统以相关度8%排在第258160位。所以当用户输入关键字检索“b/手机”,Patentics已经将检索式自动扩展为“b/手机 and r/手机”。
    同样用“饭菜”对含有关键词“汉字输入法”的专利排序,其相关度最高仅为27%。说明该专利与主题“饭菜”没有关系。而不像“手机”,与“饭菜”的相关度为82%。这反应了引用关键字“汉字输入法”的专利主题的明确、一致性。其中,排在前几位的申请就讲一个主题“汉字输入法”,所以这些申请与“汉字输入法”的相关度很高也是理所当然的。
    Patentics代表新一代智能搜索技术,通过超大规模计算智能,能自动理解上千万篇专利文献中蕴含的各种主题。有些搜索主题很明确、单一,如“汉字输入法”,有些主题模糊、多意,如“手机”。对于后者,如果用户想要搜索与通信不相关的主题,则用户只需添加感兴趣的主题。
    上述分析可以应用到利用公开号进行搜索。有些专利申请全文主题明确清晰,单一,有些申请全文的主题模糊、东拉西扯。对于前者,往往只需输入一个公开号即可找到对应相关对比文献。而后者,则需要一些帮助,限定一个大致范围,这就是我们经常介绍的B/ and R/。
    如果大家希望更详细了解Patentics语义排序,我们有中国发明授权专利“CN101359331B对搜索结果重新排序的方法和系统”和美国发明授权专利“8,126,883 Method and system for re-ranking search results”可以参考。