Hintergrund
Ich habe einige private Umfragedaten, die eine Spalte mit vertraulichen Informationen enthalten: den geografischen Standort der Umfrageteilnehmer. Unter keinen Umständen können diese Informationen veröffentlicht werden.
Wie es in der Umfrageforschung üblich ist, damit Benutzer eine Abweichung von meinem Umfragedatensatz korrekt berechnen können, benötigen diese Benutzer entweder diesen geografischen Standort (inakzeptabel) oder alternativ eine Menge von eine Gewichtung replizieren . Ich kann diesen Satz von Wiederholungsgewichten erstellen; Es ist jedoch ziemlich einfach, die Korrelationen zwischen diesen Gewichten zu betrachten und zu berechnen, welche der Umfrageteilnehmer denselben geografischen Standort haben. das ist auch inakzeptabel.
Um mir bei dieser Frage zu helfen, müssen Sie sich nicht mit replicate weights
auskennen - denken Sie einfach an sie als ein paar Spalten stark korrelierter gruppierter Daten.
Ich verstehe, dass, wenn ich dieses Clustering beibehalten möchte, ein böser Datenbenutzer immer semi-anständige Vermutungen darüber haben wird, wer geographische Standorte teilt; Ich möchte dieses Ratespiel nur weniger präzise machen. Auf den nicht verschleierten Replikatgewichten kann ein böser Datenbenutzer 100% der Fälle herausfinden.
Anfrage
Ich bin auf der Suche nach einer Technik, die
data.frame
-Objekt implementiert werden Ich sage geteilt , weil der böswillige Benutzer möglicherweise nicht weiß, wo sich der Standort befindet, aber möglicherweise wissen, ob zwei Umfrageteilnehmer sich am selben Ort befinden - eine inakzeptable Möglichkeit.
was ich versucht habe
Ich möchte das Rad hier nicht wirklich neu erfinden. Ich suche nach R-Syntax, einem R-Paket oder irgendetwas anderem, das relativ einfach zu implementieren wäre. Ich habe eins gefunden, zwei , drei , vier Papiere beschreiben Techniken, die alle für meine Zwecke geeignet wären; Leider war keiner der Autoren bereit, den tatsächlichen Code zu teilen, um sie zu implementieren.
Ich kann einfache Dinge tun, wie zufällige Werte zu meinen replicate weights columns nach einer normalen Verteilung addieren und subtrahieren, aber ich würde lieber auf die Arbeit von jemandem verlassen, der Datenschutzprobleme besser versteht als ich.
Danke !!!!
Ich habe dieses Neun-Schritte-Tutorial geschrieben, um durch den Prozess zu gehen, um meine eigene Frage zu beantworten. Ich bin kein Experte auf dem Gebiet der Privatsphäre / Vertraulichkeit und würde gerne sowohl Feedback über diese Idee als auch andere Ideen hören. Danke!
Tags und Links r privacy obfuscation survey