Zum Inhalt springen
Startseite » Blog » IP Scoring

IP Scoring

Aufbauend auf Erfahrungen mit Patentdaten erhielt ich die Gelegenheit, eine IP Analytics Plattform für ein Patent Scoring zu entwickeln. Ziel war eine Bewertung der Innovationskraft von Unternehmen. Aus einer solchen Analyse kann man Indikationen für zukünftige Wertentwicklungen ableiten und damit Investitionsentscheidungen treffen.

Die dahinter stehende Idee setzt auf den sogenannten Metadaten auf, aus denen man eine relative Bewertung von Patenten und Patentfamilien ableiten kann. Die dafür notwendigen Informationen sind mehr oder weniger frei verfügbar. Aus der Verteilung dieser Rankings für das ganze Patentportfolio des Unternehmens kann man wiederum auf die Innovationskraft folgern.

Der Knackpunkt besteht dabei darin, dass man das Patentportfolio einer Company für diesen Zweck nicht isoliert bewerten darf. Anderenfalls wären die Ergebnisse nicht sinnvoll miteinander zu vergleichen. Die Patente bilden über verschiedene Beziehungen wie Branchenzuordnungen, Zitierungen und Geografie ein komplexes Netzwerk.

Wieder war also ein umfassender Portfolioansatz notwendig, so wie schon früher bei der Modellierung von Kreditportfolios und später bei der Risikooptimierung von Sachwertfonds.

Schnell war klar, dass die Aufgabe einen speziellen Datenhaushalt erforderte. Das Datenmodell musste im Einklang mit den Erfordernissen des Bewertungsalgorithmus stehen, um effiziente Iterationen zu ermöglichen. Aber auch die Updates der Datenbasis selbst mussten ohne Beeinflussung des laufenden Betriebes bewerkstelligt werden.

Dabei entstand ein auf diesen Zweck zugeschnittener lokaler Cluster von Datenbankservern und Rechenmaschinen. Auf einem Datenbestand in der Ordnung einiger Terabyte lief schließlich mehr oder weniger rund um die Uhr der Patent Scoring Algorithmus.

Im Fahrwasser des Projektes entstand darüber hinaus eine Vielzahl weiterer Komponenten, die sich beispielsweise mit Fragen der Datenqualität und -bereinigung auseinandersetzten. Denn der schiere Umfang der verfügbaren Daten war zwar einerseits beeindruckend, andererseits aber gab es aufgrund der Herkunft aus Dutzenden Patentämtern keine einheitlichen IDs für Anmelder, Erfinder und Companies.

Deshalb waren zum Beispiel fortlaufend automatisierte Klassifizierungen notwendig, um teils Hunderten verschiedenen Schreibweisen der gleichen Firma in Folge von Tippfehlern, unterschiedlichen Sprachen, Zeichensätzen und Relikten aus Datenmigrationen begegnen zu können.