Como anonimiza Google os datos
A anonimización é unha técnica de procesamento de datos que elimina ou modifica a información persoal identificable para obter datos anónimos que non se poidan asociar con ningunha persoa. Ademais, é un compoñente fundamental do compromiso de Google coa privacidade.
Analizar datos anónimos permítenos crear produtos e funcións seguros e valiosos, por exemplo, para completar automaticamente consultas de busca ou detectar mellor as ameazas de seguranza, como os ataques de suplantación de identidade e os sitios de software malicioso, á vez que protexemos a identidade dos usuarios. Tamén nos permite compartir de forma segura datos anonimizados con terceiros de forma que lles resulten útiles sen pór en risco a privacidade dos nosos usuarios.
A continuación detállanse dúas das técnicas que utilizamos para protexer os datos.
Xeneralización dos datos
Hai certos elementos de datos que se poden conectar máis facilmente con determinados individuos. Para protexer a esas persoas, utilizamos a xeneralización a fin de eliminar unha parte dos datos ou substituíla por un valor común. Por exemplo, podemos usar a xeneralización para substituír segmentos de todos os prefixos ou números de teléfono pola mesma secuencia de números.
Coa xeneralización, conseguimos o anonimato k, un termo estándar do sector que se utiliza para describir a técnica de ocultar a identidade das persoas nun grupo de xente similar. A k representa un número que se corresponde co tamaño dun grupo. Un conxunto de datos é k-anónimo se, por cada individuo do conxunto, hai polo menos k-1 individuos coas mesmas propiedades. Por exemplo, pensemos nun conxunto de datos no que k é igual a 50 e a propiedade é o código postal. Se nos fixamos en calquera persoa dese conxunto de datos, sempre haberá outros 49 individuos co mesmo código postal e non poderemos identificar a ningunha persoa unicamente polo seu código postal.
Se todos os individuos dun conxunto de datos comparten o mesmo valor dun atributo sensible, sería posible obter información sensible só con saber que estas persoas forman parte do conxunto de datos en cuestión. Para mitigar este risco, podemos utilizar a diversidade l, un termo estándar do sector que se usa para describir un certo nivel de diversidade dos valores sensibles. Por exemplo, imaxinemos que un grupo de persoas fai unha busca do mesmo tema de saúde sensible (p. ex., os síntomas da gripe) ao mesmo tempo. Se nos fixamos neste conxunto de datos, non poderemos saber quen buscou información sobre o tema grazas ao anonimato k. Non obstante, pode existir un problema de seguranza, xa que todos comparten un atributo sensible, é dicir, o tema da consulta. Grazas á diversidade l, o conxunto de datos anonimizado non incluiría unicamente as buscas relacionadas coa gripe, pois tamén podería incluír outras buscas para protexer a privacidade dos usuarios.
Adición de ruído aos datos
A privacidade diferencial (outro termo estándar do sector) describe unha técnica que consiste en engadir ruído matemático aos datos. Coa privacidade diferencial é difícil verificar se un individuo forma parte dun conxunto de datos, xa que o resultado dun algoritmo determinado terá basicamente o mesmo aspecto tanto se se inclúe información desa persoa coma se non. Por exemplo, imaxinemos que queremos medir a tendencia xeral nas buscas sobre a gripe nunha rexión xeográfica. Para conseguir a privacidade diferencial, engadimos ruído ao conxunto de datos. Isto quere dicir que poderiamos engadir ou quitar o número de persoas que buscan información sobre a gripe nun barrio concreto, pero isto non afectaría á nosa medición da tendencia na rexión xeográfica máis ampla. Tamén é importante ter en conta que, ao engadir ruído a un conxunto de datos, é posible que resulte menos útil.
A anonimización só é un dos procesos que utilizamos para manter o noso compromiso coa privacidade dos usuarios. Ademais, incluímos controis estritos de acceso aos datos dos usuarios, políticas para controlar e limitar a combinación de conxuntos de datos que poidan identificar os usuarios e unha revisión centralizada da anonimización e das estratexias de control de datos para asegurarnos de que o nivel de protección é uniforme en todos os produtos de Google.