Большие наборы данных, опасные для конфиденциальности, исследование MIT показывает

Новое исследование большого набора данных, на этот раз транзакций оплаты по кредитной карте, показало, что de-anonymizing пользователи не являются трудными в эру больших данных.Очарование больших данных для компаний и исследователей находится в его способности сделать связи между разрозненными событиями, позволяя лучшее понимание отношений в данных.

Однако для частных лиц, данные которых собраны, большие данные также означают намного меньше конфиденциальности. Последний пример, опубликованный исследователями Массачусетского технологического института, нашел, что четыре даты и расположения недавних покупок – все, что необходимо к идентификационным данным 90 процентов людей, совершающих покупки. Если информация о ценах включена, то только три операции необходимы.

Исследование, опубликованное в последней проблеме Науки, использовало анонимизированные данные по 1,1 миллионам человек и операций в 10 000 складов. Больше чем 40 процентов людей могли быть идентифицированы со всего двумя точками данных, в то время как пять покупок идентифицировали почти всех.Заключение: С большими данными прибывает большая ответственность.«[Мы] действительно полагаем, что это данные имеют большой потенциал и должны использоваться», Ив-Александр де Монжуа, аспирант MIT и основной автор бумаги, заявил. «Мы, однако, должны знать [об] и составить риски переидентификации».

Вместо того, чтобы излагать уникальную проблему, угроза снимания анонимности, кажется, общая опасность проанализировать большие наборы данных. Два года назад де Монжуа сотрудничал с другим университетом для проведения анализа данных мобильного телефона, которые нашли почти идентичные результаты.

Четыре части входных данных этот случай, расположение базовой станции, используемой сотовым телефоном – были достаточны для идентификации 95 процентов людей среди 1,5 миллионов пользователей сотового телефона.Предыдущие исследования, анализируя наборы данных, составленные из пользователей AOL и, в отдельном случае, пользователи Netflix нашли подобное влияние на конфиденциальность: Ряд записей может эффективно de-плащ почти любой пользователь.Поскольку технология становится более повсеместной, и потребительский перенос вокруг многократных устройств, подключенных к Интернету часто, называемому Интернетом вещей многих, не полагают, что их действия теперь отслеживаются многократными третьими лицами, сказал Кен Уэстин, аналитик по ценным бумагам с Растяжкой, eWEEK.«Думайте, сколько устройств мы взаимодействуем с каждым днем, когда мы делаем наши операции», сказал он. «Мы оставляем след в наших электронных документах».

Много компаний «анонимизируют» собранные данные, добавляя неточность в наборы данных. Метод, известный как «укладывание в стеллаж», например, создает дискретные стеллажи, которые соответствуют диапазону ценностей и присваивают записи на те стеллажи. Все же такие методы только увеличивают число операций, необходимых к de-anonymize данные, исследователи MIT нашли. Превращение времени и расположения каждой закупки в недельное число и приблизительный регион, состоящий из 150 складов, например, все еще позволило исследователям идентифицировать 70 процентов пользователей от четырех точек данных.

Исследователи предлагают, чтобы большие наборы данных не были публично выпущены, но сохранены попечителем, который мог тогда позволить исследователям проводить запросы и представлять программы для анализа данных. Они предложили систему, которая сделает точно это.Пользователи должны опасаться любого большого набора данных, даже если компания утверждает, что это было анонимизировано, Лютер Мартин, главный архитектор систем безопасности в безопасности Напряжения, заявленной.

Исследование «предполагает, что, вероятно, лучше прекратить дебатировать точно сколько риска, там находится в наборах данных, которые, может сначала казаться, не содержат уязвимую информацию», сказал он.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Похожие записи