Was sind Best Practices zum Sammeln, Verwalten und Sicherstellen der Genauigkeit eines großen Datensatzes?

8

Ich stelle diese Frage auf der Suche nach praktischen Ratschlägen für die Gestaltung eines Systems.

Seiten wie amazon.com und pandora haben und unterhalten riesige Datenmengen, um ihr Kerngeschäft zu betreiben. Zum Beispiel Amazon (und jede andere große E-Commerce-Website) hat Millionen von Produkten zum Verkauf, Bilder dieser Produkte, Preise, Spezifikationen, etc. etc. etc ..

Ignoriert man die Daten, die von Verkäufern von Drittanbietern kommen, und die vom Nutzer generierten Inhalte, müssen all diese "Sachen" irgendwo herkommen und werden von jemandem gepflegt. Es ist auch unglaublich detailliert und genau. Wie? Wie machen Sie das? Gibt es nur eine Armee von Dateneingabeangestellten oder haben sie Systeme entwickelt, um mit der Arbeit fertig zu werden?

Meine Firma ist in einer ähnlichen Situation. Wir unterhalten einen riesigen Katalog von Automobilteilen (10 Millionen von Schallplatten) und die Autos, in die sie passen. Wir sind schon eine Weile dabei und haben uns eine Reihe von Programmen und Prozessen ausgedacht, um unseren Katalog immer weiter zu entwickeln. Es scheint jedoch so zu sein, als würde der Katalog auf x Elemente erweitert, die wir brauchen, um das Team zu y zu erweitern.

Ich muss einige Wege finden, um die Effizienz des Daten-Teams zu erhöhen und hoffentlich kann ich von der Arbeit anderer lernen. Irgendwelche Vorschläge werden geschätzt, obwohl mehr Links zu Inhalten wären, die ich ernsthaft lesen könnte.

    
Kyle West 22.12.2010, 01:38
quelle

7 Antworten

5

Verwenden Sie Besucher.

  1. Auch wenn Sie eine Person pro Artikel haben, wird es falsche Datensätze geben, und Kunden werden es finden. Lassen Sie sie also als "unpassend" markieren und einen kurzen Kommentar abgeben. Aber vergiss nicht, sie sind nicht deine Angestellten, frag sie nicht zu sehr. siehe Facebook "Like" -Button, es ist einfach zu bedienen, und erfordert nicht zu viel Energie vom Benutzer. Gute Leistung / Preis. Wenn es in Facebook ein Pflichtfeld geben würde, das fragt "Warum magst du es?", Sollte niemand diese Funktion verwenden.

  2. Besucher helfen Ihnen auch implizit: sie besuchen Artikelseiten und benutzen die Suchfunktion (ich meine sowohl die interne Suchmaschine als auch externe Suchmaschinen wie Google). Sie können Informationen aus der Aktivität von Besuchern erhalten, sagen wir, richten Sie die Reihenfolge der am meisten besuchten Artikel ein, dann sollten Sie mehr menschliche Kräfte auf den Anfang der Liste und weniger auf den "langen Schwanz" konzentrieren.

ern0 01.01.2011, 14:52
quelle
3

Da es mehr darum geht, das Team / den Code / die Daten zu verwalten als die Implementierung und da Sie Amazon erwähnt haben, denke ich, dass Sie das nützlich finden: Ссылка .

Klicken Sie insbesondere auf den Link zu Werner Vogels Interview.

    
slebetman 22.12.2010 01:50
quelle
3

Bauen Sie es richtig an erster Stelle. Stellen Sie sicher, dass Sie jede in der von Ihnen verwendeten Datenbank verfügbare Methode für die Integritätsprüfung verwenden, je nachdem, was Sie speichern. Besser, wenn ein Upload fehlschlägt, werden schlechte Daten automatisch eingeführt.

Dann sollten Sie herausfinden, was Sie in Bezug auf Ihre eigene Integritätsprüfung tun werden. DB-Integritätsprüfungen sind ein guter Anfang, aber selten sind alles, was Sie brauchen. Das zwingt Sie auch, von Anfang an darüber nachzudenken, mit welcher Art von Daten Sie arbeiten, wie Sie diese speichern müssen und wie Sie fehlerhafte oder fragwürdige Daten erkennen und kennzeichnen oder ablehnen können.

Ich kann Ihnen nicht sagen, wie viel Schmerz ich gesehen habe, als ich versucht habe, alte Systeme voller Mülldaten zu überarbeiten (oder einfach nur täglich mit ihnen zu arbeiten). Es richtig zu machen und es gründlich im Voraus zu testen, mag wie ein Schmerz erscheinen, und das kann es auch sein, aber die Belohnung ist ein System, das zum größten Teil mitsummt und wenig bis gar keinen Eingriff benötigt.

Wenn es jemanden gibt, der über Skalierbarkeit nachdenken und entwerfen muss, ist es Google. Vielleicht finden Sie das lehrreich, es gibt einige gute Dinge, die Sie beachten sollten: Ссылка

    
Todd Allen 22.12.2010 02:15
quelle
2

Stammdatenverwaltung ist eine weitere Alternative zu dem, was vorgeschlagen wurde. Hier ist Microsoft's Artikel "Was, warum und wie der Stammdatenverwaltung". Datenverwalter erhalten die Rechte / Verantwortung, die Genauigkeit der Daten für das Unternehmen zu wahren.

Die Hauptfähigkeit zum Skalieren kommt von der Ausrichtung der Technologie auf das Geschäft, so dass das Datenpersonal nicht die einzigen Personen sind, die die Informationen verwalten können. Tools und Prozesse / Verfahren ermöglichen Geschäftseigentümern die Verwaltung von Unternehmensdaten.

    
Suirtimed 03.01.2011 22:25
quelle
1

Teilen Sie das Datum mit Ihren Lieferanten. Dann werden die Daten einmal eingegeben.

Wenn es wichtig ist, sollte es einmal gemacht werden, sonst gar nicht.

    
ctrl-alt-delor 01.01.2011 00:01
quelle
1

Ich würde stark in Data Mining investieren. Erhalten Sie so viele Feeds wie möglich über die Produkte, die Sie verkaufen möchten. Erhalten Sie Feeds über das Fahrzeug direkt von Anbietern, sowie von Automobil-Reparatur-Unternehmen wie Mitchell und Haynes.

Sobald Sie die Teile kennen, die Sie benötigen, vergleichen Sie diese Teilenummern mit den Teilenummern, die im Internet verfügbar sind. Korrelieren Sie diese Teilenummern auch mit Bildern, Rezensionen und Artikeln. Versuchen Sie, so viele Informationen wie möglich in einer Seite zusammenzufassen, und erlauben Sie schließlich, dass diese Seite von Google indiziert wird.

Ordnen Sie den Produkten basierend auf den Ergebnissen Ihrer Datenaggregation eine Reihe von Gewichtungen zu. Basierend auf dem Wert Ihrer Gewichte geben Sie entweder die Ergebnisse an einen Mitarbeiter weiter und lassen sie den Preis mit den Lieferanten aushandeln, erstellen eine Seite wie sie sind und verlinken zu den Quellen (vorausgesetzt, Sie erhalten eine Provision) oder verkaufen das Teil nicht .

Sobald Sie genügend Produkte an einem Ort haben, können Sie andere Personen unterstützen, die Ihrer Website zusätzliche Produkte hinzufügen möchten. Der Umfang der verfügbaren Ressourcen bei Amazon ist größtenteils darauf zurückzuführen, dass Verkäufer von Drittanbietern unterstützt werden und es diesen Anbietern gestattet wird, diese auf der Amazon-Website zu listen.

Besonders in der Autoindustrie denke ich, dass sie einen großen Wert bei der qualitativ hochwertigen Indexierung haben, die sowohl von Google auffindbar als auch logisch von Personen zu finden ist, die eine bestimmte Komponente ersetzen wollen. Vielleicht möchten Sie auch den Verkauf / die Bereitstellung standortspezifischer Dienste anhand des IP-Geo-Standorts anhand der Komponente, die sie kaufen möchten, prüfen.

    
Claris 02.01.2011 07:51
quelle
1

Viele der von Google verwalteten Daten stammen von Nutzern. Ich gebe meine Daten ein und bin für deren Richtigkeit verantwortlich. Websites haben ihre Daten und werden aus dem Internet erfasst. Suchdaten werden von einer Suche erfasst. Dies unterscheidet sich wahrscheinlich erheblich von dem, was Sie versuchen. Google-Mitarbeiter müssen kaum etwas dagegen tun.

Wenn Sie mit Feeds von Herstellern arbeiten, können Ihre Bemühungen weniger arbeitsintensiv sein. Der Kompromiss besteht darin, in die Datentransformationssoftware zu investieren. Möglicherweise möchten Sie die Quelle für jeden Querverweis erfassen. Dies erleichtert das erneute Laden, wenn Sie Updates erhalten.

Aus meiner Erfahrung haben Sie auch das Problem, dass Querverweise unidirektional sein können. A kann B ersetzen, aber B kann A nicht ersetzen.

Solange Sie eine manuelle Eingabe haben, werden Sie Fehler haben. Alles, was Sie in Ihrer Oberfläche tun können, um diese Fehler zu erkennen, ist die Mühe wert. Eingabevolumen für Mitarbeiter sollte linear skalieren.

Überprüfen Sie die Forschung zu Aufmerksamkeitszyklen, um festzustellen, ob Sie etwas tun können, um die Qualität der Eingabe- und Verifizierungsprozesse zu verbessern. Neuere Untersuchungen im Bereich der Sicherheitsüberprüfung weisen darauf hin, dass Sie möglicherweise periodische Fehler in den Überprüfungsdaten erzeugen möchten.

Wie andere bemerkt haben, ist es eine gute Idee, es Benutzern leichter zu machen, Fehler zu melden.

    
BillThor 04.01.2011 00:45
quelle

Tags und Links