机器翻译+机器标引+机器语义排序 = EPO特殊检索工具或检索方式



    Patentics有高精度基于对文本意思自动理解的机器标引系统。该机器标引系统不仅能对中国专利全文(中文)进行自动标引,而且还能对美国、EP、WO、JP、KR等进行英文自动机器标引。此外,我们还将1000万篇中国申请全部采用基于语义的机器翻译成英文,对于这些从中文翻译成英文,再对这些中国专利英文全文进行机器标引的准确度如何,我们通过实例来验证。
    EPO做出的检索报告是国际上公认的检索结果相关度高的检索报告。为了缩小差距,研究EPO审查员使用的检索策略,审查员们会对EPO案例进行检索过程的分解,根据EPO的检索结果研究其使用的分类号、关键词、检索式、数据库等内容。
    选取聚氨酯领域的一个EPO案例,通过对技术方案的分析,选择合适的分类号和关键词,对欧洲审查员的检索策略进行了分析和推测,以期对本领域的检索提供指导。
    [案例要点]关键词的积累扩展并注意不同语言中表达方式的异同
    [案情介绍]
    申请号:200980149754.0
    发明名称:一种异氰酸酯三聚催化剂体系,前体制剂,使异氰酸酯三聚的方法,由其制备的硬质多异氰脲酸酯/聚氨酯泡沫体,和制备这种泡沫体的方法
    权利要求: 一种三聚催化剂体系,其包括:
    鏻阳离子;和
    诱导异氰酸酯三聚物的阴离子;
    其中所述三聚催化剂体系的三聚活化温度为小于或等于73℃。
    [IPC分类] IC C08G18/02 IC C08G18/09 IC C08G18/16 IC C08G18/18
    [检索要素]
    确定检索要素时主要应注意对鏻阳离子在关键词上的扩展。活化温度虽然是本发明的改进之处,但除非现有技术中使用与本申请同样的描述,否则对于活化温度在检索中并不容易提炼出合适的关键词。本案为PCT申请,在对中文库进行检索时没有得到合适的对比文件,也没有得到欧专局给出的国际检索报告中的X类文件US4602080A和US3876618A。通过对外文库的检索发现,异氰酸酯三聚之后形成六元环,所以也是一个环化的过程,而US4602080A的摘要中正是记载了“ring”,却没有记载三聚,所以以“ring”为关键词时才能在外文摘要库中检到。对于常用的关键词,US4602080A在全文中使用但不完全且精准,所以即使在外文全文库也不一定能保证检到上述两篇X类文件。推测欧专局可能具有特殊的检索工具或检索方式,所以获得了这两篇文件。
    检索要素表如下:

    [常规检索过程]
    1 CNABS 334 (陶氏 or DOW)/pa and (菲利普or 阿西 or 纳森 or 内森 or 威尔莫特 or 维尔莫特 or 理查德 or 基顿 or 戴维 or 巴布 or 塞西尔 or 波耶 or 博耶 or 蒂莫西 or 莫利)/in
    2 CNABS 3827 ((异氰酸 or 聚氨酯 or (C08G18/02 or C08G18/09 or C08G18/16or C08G18/18)/ic) and 三聚) or 异氰脲酸     3 CNABS 1709 鏻 or (磷 s 三轮)
    4 CNABS 868 诱导 and (阴离子 or 负离子 or 羧酸根 or 甲酸根 or 乙酸根 or 辛酸根 or (乙 s 己酸根) or 苯甲酸根 or 碳酸根 or((酚 or 氨化 or 脒化 or 亚胺 or 磷 or 氟) s (阴离子 or 负离子)) or氰酸)
    5 CNABS 20 3 and (阳离子 or 正离子) and ((活化 s 温) or 低温)
    6 CNABS 61 (1 and 2) or (2 and 3) or (3 and4)
    1 CNTXT 25 (((异氰酸 or 聚氨酯) and 三聚) or 异氰脲酸) and ((鏻or (磷 s 三轮)) p (阳离子 or 正离子)) and 诱导 and(阴离子 or 负离子 or 羧酸根 or 甲酸根 or 乙酸根 or 辛酸根 or (乙 s 己酸根) or 苯甲酸根 or 碳酸根 or ((酚 or 氨化 or 脒化 or 亚胺 or 磷 or 氟) s (阴离子 or 负离子)) or 氰酸) and ((活化 s温) or 低温)
    1 DWPI 292181 +isocyanate+ or +urethane or+isocyanurate or (C08G18/02 or C08G18/09 or C08G18/16 or C08G18/18)/ic
    2 DWPI 578 (+isocyanurate s ring?) or +tirmer+
    3 DWPI 3544151 +cation or +phosphonium+
    4 DWPI 35497 activ+ s temperature
    5 DWPI 59 1 and 2 and (3 or 4)
    6 DWPI 1 5 and us4602080/pn
    1 USTXT 0 us3876618/pn
    [案例启示]
    (1)关键词与分类号仍是主要的检索入口,对于来自欧洲的申请应注意利用EC分类体系进行检索;
    (2)平时应注意积累关键词在不同语言环境下的扩展方式,而且在检索过程中发现检索要素新的表达方式后,应随时调整检索策略。
    注意,关键技术概念“环化”是“通过对外文库的检索发现,异氰酸酯三聚之后形成六元环,所以也是一个环化的过程,而US4602080A的摘要中正是记载了“ring”,却没有记载三聚,所以以“ring”为关键词时才能在外文摘要库中检到”。所以审查员在进行中文检索策略构造时,环化概念都没有考虑。一直要浏览EPO给出的对比文件US4602080A,才能以“+isocyanurate s ring?”为检索要素。
    令人吃惊的是,这些关键技术概念在中文申请200980149754.0的英文全文的机器标引中全部出现。就是说,如果中国专利局审查员点击“英文复制按钮”,浏览该中国申请的英文机器标引“索引”,借助Patentics语义排序,也可以像EPO审查员一样轻而易举找到那2个被“推测欧专局可能具有特殊的检索工具或检索方式,所以获得了这两篇文件”。
    2个点击,快速获取机器翻译+机器标引的英文关键词。

    而这些通过浏览EPO审查员给出的对比文件才得出的关键词,在本申请的机器翻译的机器标引中全部出现。可以说,机器翻译+机器标引并不逊于EPO审查员。

    下面,就用该2个关键词限定检索范围,再通过语义排序将与CN200980149754.0最相关的对比文献排到最前面。
     r/cn200980149754.0 and di/cn200980149754.0 andb/"isocyanate trimer"

     r/cn200980149754.0 and di/cn200980149754.0 andaclm/"isocyanurate ring"

    当然,我们可以和大家透个底,其实EPO也在数个场合被我们的语义检索折服,也在和我们接洽应用我们的语义检索技术!只是我们现在忙着“race to the top of the world”,还顾不上茬。