美国在线AOL今天干了一件令很多人震惊的蠢事,他们公布了3个月的真实的搜索记录。
根据AOL的网页介绍,所公布的数据是2006年3月1号到5月31号,包括1900万搜索,1080多万不一样的搜索词,还有65万8000个用户ID。
问题是这非常有用的资料也同时可以泄漏用户个人隐私。
有的搜索词本身就含有个人隐私性质,比如可能有的人会搜索”xxx小姐裸照”,或”某某某先生破产记录”,这些搜索本身就可能含有当事人不愿意告诉别人的信息。
大量的搜索记录也有可能与特定的人相联系。虽然用户ID都是匿名的,但是从某个用户ID所做的一系列搜索,可能可以找到这个用户的真实身份。
比如某位用户搜索了”site:xxx.com”,我们可以查一下这个域名的所有人,也许这个用户还搜索过某个具体的人名。这两种搜索都是站长们很常做的,看一下自己网站的收录情况,看一下自己名字在其他地方被提到的情况。如果这位用户同时又搜索了其他不愿意让人家知道的信息,当所有这一系列行动都被公布的时候,隐私就岌岌可危了。
我看了一眼搜索记录其中的一段,举一个例子,一位用户搜索了这些关键词:
- 怎样炸掉一栋楼
- 怎样给别人下药
- 怎样制造炮弹
- 怎样攻入别人的电脑
同一个客户还搜索了几个域名。
AOL公布的信息量非常大,2G多的文字,我只是随机的看了一小段,如果有心人士编个程序分析,得到的资料会相当丰富。
当然AOL发布这个信息几小时后就意识到了这件事的愚蠢,已经把网页撤下了,并公开道歉。可是在网络上覆水难收,这些资料已经被放在了很多地方供下载。
再看几个随机的关键搜索词:
- 怎样杀掉太太
- 怎样杀人不会惹上麻烦
- 怎样成为三级片明星
- 免费照片
- 车祸照片
…
当然这些搜索记录对要进行关键词研究的人实在是无价之宝,因为这是真实的,来自主流搜索引擎的最新资料。
从这个事件,我们也可以看出为什么前一阵Google拒绝美国司法部要求提供搜索信息,得到绝大部分人的叫好。
更新:
纽约时报记者根据搜索数据(地址和名字)轻易地找到一位62岁的老太太,这个老太太证实那些列出的搜索词确实是她搜的。
不知多少人正在挖掘呢。
AOL的蠢事不是今天干的,资料是上个月第放上去的,好象是从techcrunch的一篇文章开始引起了广泛的注意,正如techcrunch所说”The utter stupidity of this is staggering”.我昨天晚上要睡觉前发现了这场大热闹,又下载资料,害我牺牲了许多睡眠时间.哈哈.
EY: 谢谢更正。
里面的信息真是很丰富。建议大家下载来研究一下。
那里说是上个月放上去的?
我也没看到哪提到是上个月放的,不过应该是,因为我帖子里的AOL网页指向的是Google的网页快照,8月1号的。
要是搜索的东西都可以被随意浏览,那实在是太可怕了,现在google做的个性化搜索,已经让我觉得统计学原理的威力……
guy:搜一下,很多可靠的新闻来源都有提到的,比如说华盛顿邮报.今天这事已经上了GOOGLE NEWS首页拉.
这个知道的,简直是可以从这些蛛丝马机重现和追踪一个人呢,造成很多用户心中的不安全感!
提过有趣的,可惜不是中文的。
寒心啊!~~~~~
我也想研究下哦。
他放上去干嘛呢
显示他的用户庞大吗
哪里有下载?
有待于继续深入学习啊。
free world, let’s keep it clean together.
只能一句话说:厉害
看来以后不可以在互联网上随便搜索了,免得60多岁了还被别人人肉搜到!
。。。