Aufbauend auf den Erfahrungen aus der Arbeit mit Patentdaten bei der IP-Bewertungs AG hatte ich bei der Aquila Capital die Gelegenheit, im Kontext des Quant-Investing Teams(1) eine IP Analytics Plattform und einen Patent Scoring Index zu entwickeln.
Ziel des Projektes war die quantitative Bewertung der Innovationskraft von Unternehmen. Aus einer solchen Bewertung kann man Indikationen für zukünftige Wertentwicklungen ableiten(2).
Die dahinter stehende Idee beruht darauf, dass man eine relative Bewertung von Patenten und Patentfamilien aus ihren Metadaten ableiten kann. Die dafür notwendigen Informationen sind relativ frei verfügbar. Aus der Form der Verteilung dieser Bewertungen für das ganze Patentportfolio des Unternehmens kann man wiederum auf die Innovationskraft folgern.
Der Knackpunkt eines solchen Index besteht darin, dass man das Patentportfolio einer Company nicht isoliert bewerten kann. Täte man es doch, wären die Ergebnisse nicht sinnvoll miteinander zu vergleichen. Somit ergab sich die Notwendigkeit, den Bewertungs-Algorithmus auf dem vollständigen Satz aller weltweit verfügbaren Patente aufzubauen. Diese bilden über verschiedene Beziehungen wie Branchenzuordnungen, Zitierungen und Geografie miteinander ein komplexes Netzwerk.
Schnell war klar, dass ein solcher Algorithmus mit dem ursprünglichen Datenhaushalt nicht zu bewerkstelligen war. Die gesamte Datenmodellierung musste im Einklang mit dem Algorithmus stehen, um effiziente Iterationen des Algorithmus zu ermöglichen. Aber auch die umfangreichen Updates der Datenbasis wurden ohne Beeinflussung des laufenden Betriebes bewerkstelligt.
Dabei entstand ein leistungsfähiger lokaler Cluster von Datenbankservern und Rechenmaschinen. Auf einem Datenbestand in der Größenordnung von 8-9TB wurde rund um die Uhr Patent Scoring durchgeführt.
Im Fahrwasser des Projektes entstand darüber hinaus eine Vielzahl weiterer anspruchsvoller Komponenten, die sich beispielsweise mit Fragen der Datenqualität und -bereinigung auseinandersetzten. Denn der schiere Umfang der Daten war zwar einerseits beeindruckend vollständig. Andererseits gab es aufgrund der Herkunft aus Dutzenden Patentämtern keine einheitlichen IDs für Anmelder, Erfinder und Companies. Somit waren umfangreiche fortlaufende Klassifizierungen notwendig, um beispielsweise Hunderten verschiedenen Schreibweisen der gleichen Firma in Folge von Tippfehlern, unterschiedlichen Sprachen und Relikten aus Datenmigrationen begegnen zu können.
(1) Aquila Capital befasst sich seit einer strategischen Neuausrichtung mit Sachwertinvestments, womit die liquiden Quant-Strategien obsolet geworden sind.
(2) Ein ähnlicher, inzwischen deutlich fortgeschrittenerer Ansatz und Stoff zum Weiterlesen ist übrigens der Patent Asset Index der Firma LexisNexis.