日期:2014-05-18  浏览次数:20476 次

和大家谈论一个大数据列唯一性检查的方法!
比如URL地址的唯一性判断,搜索引擎中最常见的问题,上百亿的URL地址.

大家先说说自己的办法,30楼后给出我的方法,不过我估计不用到30楼肯定有人帮我贴答案了.:)



------解决方案--------------------
mark

------解决方案--------------------
这贴至少要顶到30楼。
------解决方案--------------------

------解决方案--------------------
数星星
------解决方案--------------------
还没到
------解决方案--------------------
沉了
------解决方案--------------------
8
------解决方案--------------------
9
------解决方案--------------------
10
------解决方案--------------------
等答案。。。。
------解决方案--------------------
消息-> 老版短消息
提示: Server is too busy
------解决方案--------------------
等待ing
------解决方案--------------------
50
------解决方案--------------------
52
------解决方案--------------------
53
------解决方案--------------------
想想 url唯一。。
域名 + 端口, 不会了。。
------解决方案--------------------
说一下应用场景啊
你的意思是 现在有个URL,需要在一个大大的库中判断她是不是存在

可以这样理解吗?
------解决方案--------------------
上班了,还来得及。等待
------解决方案--------------------
YAHOO是用MD5加密的方法来唯一的,楼主可以试试
------解决方案--------------------
23
------解决方案--------------------
123
------解决方案--------------------
1
------解决方案--------------------
321
------解决方案--------------------
27
------解决方案--------------------
28
------解决方案--------------------
29
------解决方案--------------------
30
------解决方案--------------------
lz可以贴答案了
------解决方案--------------------
31了....我是答案??
------解决方案--------------------
学习了
------解决方案--------------------
学习
------解决方案--------------------
----任何长度的字符串由MD5算法处理后,都能得到固定长度binary(16)的字符串,如:C4CA4238A0B923820DCC509A6F75849B
这时我们再做唯一性判断,效率当然要高很多~~~~


是不是这样理解 : 数字的比较 比字符串的比较效率高?
------解决方案--------------------