Technik zur Verschleierung von Cluster-Daten und Wahrung der Privatsphäre in r

8

Hintergrund

Ich habe einige private Umfragedaten, die eine Spalte mit vertraulichen Informationen enthalten: den geografischen Standort der Umfrageteilnehmer. Unter keinen Umständen können diese Informationen veröffentlicht werden.

Wie es in der Umfrageforschung üblich ist, damit Benutzer eine Abweichung von meinem Umfragedatensatz korrekt berechnen können, benötigen diese Benutzer entweder diesen geografischen Standort (inakzeptabel) oder alternativ eine Menge von eine Gewichtung replizieren . Ich kann diesen Satz von Wiederholungsgewichten erstellen; Es ist jedoch ziemlich einfach, die Korrelationen zwischen diesen Gewichten zu betrachten und zu berechnen, welche der Umfrageteilnehmer denselben geografischen Standort haben. das ist auch inakzeptabel.

Um mir bei dieser Frage zu helfen, müssen Sie sich nicht mit replicate weights auskennen - denken Sie einfach an sie als ein paar Spalten stark korrelierter gruppierter Daten.

Ich verstehe, dass, wenn ich dieses Clustering beibehalten möchte, ein böser Datenbenutzer immer semi-anständige Vermutungen darüber haben wird, wer geographische Standorte teilt; Ich möchte dieses Ratespiel nur weniger präzise machen. Auf den nicht verschleierten Replikatgewichten kann ein böser Datenbenutzer 100% der Fälle herausfinden.

Anfrage

Ich bin auf der Suche nach einer Technik, die

  • verhindert, dass die Benutzer öffentlicher Dateien die gemeinsame geografische Position aus den Korrelationen zwischen meinen Replikatgewichtungsvariablen
  • leicht ableiten können
  • löscht nicht die Korrelationen zwischen meinen Datenspalten (die Replikatgewichtungsvariablen)
  • kann ohne große Investitionen in ein R data.frame -Objekt implementiert werden

Ich sage geteilt , weil der böswillige Benutzer möglicherweise nicht weiß, wo sich der Standort befindet, aber möglicherweise wissen, ob zwei Umfrageteilnehmer sich am selben Ort befinden - eine inakzeptable Möglichkeit.

was ich versucht habe

Ich möchte das Rad hier nicht wirklich neu erfinden. Ich suche nach R-Syntax, einem R-Paket oder irgendetwas anderem, das relativ einfach zu implementieren wäre. Ich habe eins gefunden, zwei , drei , vier Papiere beschreiben Techniken, die alle für meine Zwecke geeignet wären; Leider war keiner der Autoren bereit, den tatsächlichen Code zu teilen, um sie zu implementieren.

Ich kann einfache Dinge tun, wie zufällige Werte zu meinen replicate weights columns nach einer normalen Verteilung addieren und subtrahieren, aber ich würde lieber auf die Arbeit von jemandem verlassen, der Datenschutzprobleme besser versteht als ich.

Danke !!!!

    
Anthony Damico 13.06.2014, 09:59
quelle

1 Antwort

2

Ich habe dieses Neun-Schritte-Tutorial geschrieben, um durch den Prozess zu gehen, um meine eigene Frage zu beantworten. Ich bin kein Experte auf dem Gebiet der Privatsphäre / Vertraulichkeit und würde gerne sowohl Feedback über diese Idee als auch andere Ideen hören. Danke!

Ссылка

    
Anthony Damico 15.06.2014, 10:38
quelle

Tags und Links