Der Join, den sonst niemand macht: Patente an Eigentümer schweißen
Jeder kann das deutsche Register, den GLEIF-Eigentümergraphen und freie Patentdaten herunterladen. Das Produkt ist die Entity Resolution, die sie verschmilzt.
Es gibt einen tröstlichen Mythos in Daten-Startups: das Asset seien die Daten. Für deutsche Unternehmens-Intelligence ist das größtenteils falsch. Der Register-Dump ist offen. GLEIF ist CC0. PatentsView ist gemeinfrei. Du könntest alle drei heute Nachmittag auf deinem Laptop haben.
Was du heute Nachmittag nicht könntest: beantworten, welche privat geführte deutsche Firma diese Patente hält und wem sie letztlich gehört. Denn die drei Datensätze teilen keinen Schlüssel.
Drei Welten, keine gemeinsame ID
Patente nennen den Anmelder als Freitext — „Bosch GmbH, Stuttgart“, „Robert Bosch GmbH“, „BOSCH“. Das Register hat eine kanonische Entität mit Gericht und Registernummer. GLEIF hat eine LEI und eine Konzern-Hierarchie. Nichts verbindet einen Patent-String mit einer Registereinheit mit einem Eigentümer. Genau dieser fehlende Join ist das ganze Problem.
- →Register + Organe: 5,3 Mio. deutsche Entitäten (OffeneRegister, ODbL).
- →Eigentum: GLEIF Golden Copy, LEI-Hierarchie (CC0).
- →Patente: PatentsView / CPC, gemeinfrei.
Wie wir schweißen
Entity Resolution heißt hier Token-Blocking plus IDF-gewichtetes Jaro-Winkler-Matching, dann embedding-basierte Ähnlichkeit für die harten Fälle. Wir blocken Kandidaten nach normalisierten Namens-Tokens und Region, scoren sie und akzeptieren oberhalb eines je nach Use Case justierten Schwellwerts. Ergebnis bisher: 2,46 Mio. aufgelöste Personen-Entitäten und 343k Patente über 664 CPC-Felder verknüpft.
scout(q="solid-state battery", private=true) → VARTA Microbattery GmbH · 67 Patente · ◭ Montana Tech Components AG
Ehrlich über die Fehler
Naives Matching produziert selbstbewussten Unsinn — ein „Samsung … Holding GmbH“-String kann an die falsche Entität geschweißt werden. Intern nennen wir das die ER-v3-Arbeit: Geografie- und Größen-Priors, um False Positives zu killen. Wir labeln Ergebnisse als „patent-verknüpft“, nie als „verifiziert“, und zeigen lieber weniger richtige als mehr falsche Verknüpfungen.
Der Join wächst mit. Jede Korrektur und jede Kundenabfrage verbessert die Auflösung — das ist der Burggraben.
Darum ist der Burggraben verteidigbar. Die Datensätze kommoditisieren — die EU-Initiativen zu High-Value-Datasets und ESAP drängen Basis-Firmendaten Richtung kostenlos. Das senkt den Wert des Weiterverkaufs und hebt den Wert des Joins, der Anreicherung und der Auflösungsqualität. Wir setzen auf den schweren Teil.
Kostenloser Key, keine Karte.