Importieren von Freebase in TripleStore

8

Ich plane gerade ein großes Projekt, das große Datenmengen enthält.

Ich habe die Suche bereits verwendet und alle Ergebnisse zeigen mir, dass es nicht möglich ist, Freebase in einen Triple-Store zu importieren, ohne dass Drittanbieter-Tools wie BaseKB verwendet werden oder Freebase zu RDF

Wie ich sehen kann, ist der Dump bereits als RDF verfügbar. Wo liegt das Problem, wenn ich den Dump in meinen 4store Tripelspeicher importieren und über SPARQL auf die Daten zugreifen möchte?

    
smith64fx 20.07.2013, 09:27
quelle

3 Antworten

3

Für alle, die Probleme beim Import von Freebase Dump haben:

1) Halten Sie Ihren RDF / Turtle Parser auf dem neuesten Stand. (Die neueste Version von Raptor 2 kann das '.' Erkennen, zum Beispiel bei ns: common.topic.notable_for.example

2) Der Speicherauszug muss bereinigt werden, bevor Sie ihn importieren können. Ich habe dieses Skript verwendet: Ссылка (fixit)

3) Die Turtle-Spezifikation erlaubt nur diese Zeichen für URIs:

%Vor%

Daher ist es sehr wichtig, diese Zeile dem Fixit-Skript in Zeile 80 hinzuzufügen:

%Vor%

Als Ergebnis ungültige Syntax wie folgt:

%Vor%

wird

%Vor%     
smith64fx 24.07.2013, 08:25
quelle
2

Sie erhalten wahrscheinlich Suchergebnisse aus mindestens zwei, wenn nicht drei, verschiedenen Datensätzen:

  1. der alte Quad-Format-Dump
  2. die frühen RDF-Dumps
  3. (vielleicht) der aktuelle RDF-Dump

Das Format in # 1 ist die erforderliche Konvertierung. Die frühen RDF-Dumps (# 2) waren syntaktisch ungültig und wurden daher nicht in die meisten Tools importiert. Der RDF-Speicherauszug hat sich im Laufe der Zeit verbessert. Ich bin mir nicht sicher, ob es immer noch zutrifft, dass es überhaupt nicht ohne Vorverarbeitung importiert wird, aber es ist fast immer sinnvoller, wenn Sie es vorarbeiten, um Redundanz zu entfernen, und auf das Format normalisieren, das am besten für Sie funktioniert Anwendung usw.

Haben Sie versucht, den aktuellen Speicherauszug zu importieren? Was waren deine Ergebnisse?

    
Tom Morris 20.07.2013 16:00
quelle
1

Das Problem mit dem Freigabeschildspeicher Turtle ist dies, sie sind nicht konform mit der W3C-Turtle-Spezifikation.

1) nach Ссылка ,    Zeichen "." kann nur am Ende des Triple erscheinen,    aber freebase dump hat viele '.' vor dem Ende des Triple.    Ich habe irgendwo gelesen, dass "/" auch außerhalb von URI nicht erlaubt ist    Stattdessen entschieden sie sich für '.'

Die neueste raptor2-Bibliothek kann das umgehen ('.'), aber nicht die älteren

2) Ich denke, die Art, wie "leerer Knoten" ausgegeben wird, ist auch nicht gültig    für z.B. Linie 141567       ns: m.01000m1 ns: common.topic.notable_for.

    
Dilip Chhetri 24.07.2013 07:21
quelle