Skip navigation.

exploreopera

| Help

Sign up | Help

Frogs Under An Umbrella

蛙仔

STICKY POST

Welcome!


Opera 9 - Your Web, Your choice你是第Free Web Site Counter位访客。
如果你感兴趣请加入QQ群:35667786

西藏独立也不是没有道理的


今天很不幸地又听了我党地电台,听说少林寺在淘宝上开了家店。本来佛门清净地,他爱做什么做什么,我等凡夫俗子也是管不着。不过共产党既然说了这条消息,很多人想不管也不行了。
我们的文化有好有坏,但是无论怎么说,我觉得佛教还是属于好的那一部分。引人向善可不是一件容易的事,佛教经历了千百年才把他的一些思想灌输给普通大众,如今似乎共党的市场经济只用了20年,就快把他给摧毁了。
不过也许该这么说,中国的佛教现在已经不再是属于寺院了,因为现在的和尚(姑且这么称呼)是有培训班的,是要有证书的。记得我初中往上升学是就有很多和尚学校可以报名。一直觉得共党很有一套,他善于保存一些事物最表面的东西,而从内部腐化他们。我们的少林寺就是一个很好的例子。
我该说西藏独立是一件好事,因为至少他们自己决定是不是要市场经济,还是保留他们自己的文化。
想象一下,下次布达拉宫在ebay上卖他们的墙砖。

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。

我们假定常用的汉字在二级国标里面,一共有 6700 个作用的汉字。如果不考虑汉字频率的分布,用键盘上的 26 个字母对汉字编码,两个字母的组合只能对 676 个汉字编码,对 6700 个汉字编码需要用三个字母的组合,即编码长度为三。当然,聪明的读者马上发现了我们可以对常见的字用较短的编码对不常见的字用较长的编码,这样平均起来每个汉字的编码长度可以缩短。我们假定每一个汉字的频率是
p1, p2, p3, ..., p6700
它们编码的长度是
L1, L2, L3, ..., L6700
那么,平均编码长度是
p1×L1 + p2×L2 + ... + p6700×L6700

香农第一定理指出:这个编码的长度的最小值是汉字的信息熵,也就是说任何输入方面不可能突破信息熵给定的极限。当然,香农第一定理是针对所有编码的,不但是汉字输入编码的。这里需要指出的是,如果我们将输入法的字库从二级国标扩展到更大的字库 GBK,由于后面不常见的字频率较短,平均编码长度比针对国标的大不了多少。让我们回忆一下汉字的信息熵(见 http://www.googlechinablog.com/2006/04/4.html),
H = -p1 * log p1 - ... - p6700 log p6700。
我们如果对每一个字进行统计,而且不考虑上下文相关性,大致可以估算出它的值在十比特以内,当然这取决于用什么语料库来做估计。如果我们假定输入法只能用 26 个字母输入,那么每个字母可以代表 log26=
4.7 比特的信息,也就是说,输入一个汉字平均需要敲 10/4.7= 2.1 次键。

聪明的读者也许一经发现,如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关性,以词为单位统计,汉字的信息熵大约是8比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次键。这就是现在所有输入法都是基于词输入的内在原因。当然,如果我们再考虑上下文的相关性,对汉语建立一个基于词的统计语言模型(见http://www.googlechinablog.com/2006/04/blog-post.html),我们可以将每个汉字的信息熵降到 6 比特作用,这时,输入一个汉字只要敲 6/4.7=1.3 次键。如果一种输入方法能做到这一点,那么汉字的输入已经比英文快的多了。

但是,事实上没有一种输入方法接近这个效率。这里面主要有两个原因。首先,要接近信息论给的这个极限,就要对汉字的词组根据其词频进行特殊编码。事实上像王码这类的输入方法就是这么做到,只不过它们第一没有对词组统一编码,第二没有有效的语言模型。这种编码方法理论上讲有效,实际上不实用。原因有两个,第一,很难学;第二,从认知科学的角度上讲,人一心无二用,人们在没有稿子边想边写的情况下不太可能在回忆每个词复杂的编码的同时又不中断思维。我们过去在研究语言识别时做过很多用户测试,发现使用各种复杂编码输入法的人在脱稿打字时的速度只有他在看稿打字时的一半到四分之一。因此,虽然每个字平均敲键次数少,但是打键盘的速度也慢了很多,总的并不快。这也就是为什么基于拼音的简单输入法占统治地位的原因。事实上,汉语全拼的平均长度为 2.98,只要基于拼音的输入法能利用上下文彻底解决一音多字的问题,平均每个汉字输入的敲键次数应该在三次左右,每分钟输入 100 个字完全有可能达到。

另外一个不容易达到信息论极限的输入速度的原因在于,这个理论值是根据一个很多的语言模型计算出来的。在产品中,我们不可能占有用户太多的内存空间,因此各种输入方法提供给用户的是一个压缩的很厉害的语音模型,而有的输入方法为了减小内存占用,根本没有语言模型。拼音输入法的好坏关键在准确而有效的语言模型。

另一方面,由于现有输入方法离信息论给的极限还有很大的差距,汉语输入方法可提升的空间很大,会有越来越好用的输入方法不断涌现。当然,输入速度只是输入法的一项而不是唯一的衡量标准。我们也会努力把谷歌的输入法做的越来越好。大家不妨先试试现在的版本,http://tools.google.com/pinyin/,半年后再看看我们有没有提高。

数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

2007年9月13日 下午 09:00:00
发表者:Google(谷歌)研究员 吴军

前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为基础的。(没有看过暗算的读者可以看一下介绍,http://ent.sina.com.cn/v/2005-10-17/ba866985.shtml
因为我们后面要多次提到这部电视剧。)

密码学的历史大致可以推早到两千年前,相传名将凯撒为了防止敌方截获情报,用密码传送情报。凯撒的做法很简单,就是对二十几个罗马字母建立一张对应表,比如说



这样,如果不知道密码本,即使截获一段信息也看不懂,比如收到一个的消息是 EBKTBP,那么在敌人看来是毫无意义的字,通过密码本解破出来就是 CAESAR 一词,即凯撒的名字。这种编码方法史称凯撒大帝。当然,学过信息论的人都知道,只要多截获一些情报,统计一下字母的频率,就可以解破出这种密码。柯蓝道尔在他的“福尔摩斯探案集”中“跳舞的小人”的故事里已经介绍了这种小技巧。在很长时间里,人们试图找到一些好的编码方法使得解密者无法从密码中统计出明码的统计信息,但是,基本上靠经验。有经验的编码者会把常用的词对应成多个密码, 使得破译者很难统计出任何规律。比如,如果将汉语中的“是”一词对应于唯一一个编码 0543,那么破译者就会发现 0543 出现的特别多。但如果将它对应成十个密码 0543,3737,2947 等等,每次随机的挑一个使用,每个密码出现的次数就不会太多,而且破译者也无从知道这些密码其实对应一个字。这里面虽然包含着朴素的概率论的原理,但是并不科学化。另外,好的密码必须做到不能根据已知的明文和密文的对应推断出新的密文的内容。历史上有很多在这方面设计得不周到的密码的例子。在第二次世界大战中,日本军方的密码设计就很成问题。美军破获了日本很多密码。在中途岛海战前,美军截获的日军密电经常出现 AF 这样一个地名,应该是太平洋的某个岛屿,但是美军无从知道是哪个。于是,美军就逐个发表自己控制的每个岛屿上的假新闻。当美军发出“中途岛供水系统坏了”这条假新闻后,从截获的日军情报中又看到 AF 供水出来问题的电文,美军就断定中途岛就是 AF。事实证明判断正确,美军在那里成功地伏击了日本主力舰队。

事实上,在第二次世界大战中,很多顶尖的科学家包括提出信息论的香农都在为美军情报部门工作,而信息论实际上就是情报学的直接产物。香农提出信息论后,为密码学的发展带来了新气象。根据信息论,密码的最高境界是使得敌人在截获密码后,对我方的所知没有任何增加,用信息论的专业术语讲,就是信息量没有增加。一般来讲,当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使看到一段密码和明码后,不能破译另一段密码。这也是《暗算》里传统的破译员老陈破译的一份密报后,但无法推广的原因,而数学家黄依依预见到了这个结果,因为她知道敌人新的密码系统编出的密文是统计独立的。有了信息论后,密码的设计就有了理论基础,现在通用的公开密钥的方法,包括《暗算》里的“光复一号”密码,就是基于这个理论。

公开密钥的原理其实很简单,我们以给上面的单词 Caesar 加解密来说明它的原理。我们先把它变成一组数,比如它的 Ascii 代码 X=099097101115097114(每三位代表一个字母)做明码。现在我们来设计一个密码系统,对这个明码加密。

1,找两个很大的素数(质数)P 和 Q,越大越好,比如 100 位长的, 然后计算它们的乘积 N=P×Q,M=(P-1)×(Q-1)。

2,找一个和 M 互素的整数 E,也就是说 M 和 E 除了 1 以外没有公约数。

3,找一个整数 D,使得 E×D 除以 M 余 1,即 E×D mod M = 1。

现在,世界上先进的、最常用的密码系统就设计好了,其中 E 是公钥谁都可以用来加密,D 是私钥用于解密,一定要自己保存好。乘积 N 是公开的,即使敌人知道了也没关系。

现在,我们用下面的公式对 X 加密,得到密码 Y。



好了,现在没有密钥 D,神仙也无法从 Y 中恢复 X。如果知道 D,根据费尔马小定理,则只要按下面的公式就可以轻而易举地从 Y 中得到 X。



这个过程大致可以概况如下:



公开密钥的好处有:

1.简单。

2.可靠。公开密钥方法保证产生的密文是统计独立而分布均匀的。也就是说,不论给出多少份明文和对应的密文,也无法根据已知的明文和密文的对应来破译下一份密文。更重要的是 N,E 可以公开给任何人加密用,但是只有掌握密钥 D 的人才可以解密, 即使加密者自己也是无法解密的。这样,即使加密者被抓住叛变了,整套密码系统仍然是安全的。(而凯撒大帝的加密方法有一个知道密码本的人泄密,整个密码系统就公开了。)

3.灵活,可以产生很多的公开密钥E和私钥D的组合给不同的加密者。

最后让我们看看破解这种密码的难度。首先,要声明,世界上没有永远破不了的密码,关键是它能有多长时间的有效期。要破公开密钥的加密方式,至今的研究结果表明最好的办法还是对大字 N 进行因数分解,即通过 N 反过来找到 P 和 Q,这样密码就被破了。而找 P 和 Q 目前只有用计算机把所有的数字试一遍这种笨办法。这实际上是在拼计算机的速度,这也就是为什么 P 和 Q 都需要非常大。一种加密方法只有保证 50 年计算机破不了也就可以满意了。前几年破解的 RSA-158 密码是这样因数分解的

395058745832651445264197678006144819960207764603049364541393760515793556265294
50683609727842468219535093544305870490251995655335710209799226484977949442955603
= 3388495837466721394368393204672181522815830368604993048084925840555281177 ×11658823406671259903148376558383270818131012258146392600439520994131344334162924536139

现在,让我们回到《暗算》中,黄依依第一次找的结果经过一系列计算发现无法归零,也就是说除不尽,我猜她可能试图将一个大数 N 做分解,没成功。第二次计算的结果是归零了,说明她找到的 N=P×Q 的分解方法。当然,这件事能不能用算盘完成,我就不知道了,但我觉得比较夸张。另外我对该电视剧还有一个搞不懂的问题就是里面提到的“光复一号”密码的误差问题。一个密码是不能有误差的,否则就是有的密钥也无法解码了。我想可能是指在构造密码时,P 和 Q 之一没找对,其中一个(甚至两个都)不小心找成了合数,这时密码的保密性就差了很多。如果谁知道电视剧里面讲的“误差”是指什么请告诉我。另外,电视剧里提到冯∙诺依曼,说他是现代密码学的祖宗,我想是弄错了,应该是香农。冯∙诺依曼的贡献在发明计算机和提出博弈论(game theory)。

不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以了。

懒人的私人天气预报员

传统的爱情肥皂剧里常常有这样的镜头,性感漂亮的女主角由于某个原因主观的要去英俊潇洒的男主角的家里去。可是当她踏入那个男人的门后,宽容的心就开始起作用了。脏乱的房子似乎是这类故事中女主角所企盼的。于是故事得以展开,女主角开始整理房屋,将一个垃圾桶般的房间瞬间整理的干净明亮起来。这时候男主角通常会被这场景所感动,似乎他们从来美见过干净的房间应该是怎么样子的,再接着男主角的潜意识中开始爱上了这个主动上门的女主角。
我的故事与之有点类似,只是没有主动上门的女主角和变干净了的房间,当然男主角也不是英俊潇洒,只是个胖胖的小个子。完全与爱情故事情节相符的就是一间脏脏的宿舍。不过这也挺浪漫的,不是吗?
我不知道是从什么时候开始,我的这间房子多了许多新住户的,作为蚂蚁,可能它们并不会占据我太大的空间,不过还是容易让我有七十二家房客般的感觉,毕竟一间原本不大的房间挤了那么多的生命。这些天上海下雨,我妈发消息给我说是台风,叫我晚上不要出去。过于无聊的我晚上本来也没有地方可去。不过每天的早上对我来说也许是最不无聊的时候,每天在宿舍吃完早饭,我就开始了观察食物残渣的去向的科学研究。虽然不如达尔文那般的有天赋,不过似乎上天也不是那么的不公平。下雨时,我发现蚂蚁根本不出来活动。更奇妙的是我发现台风期间,有几天天虽然是阴的,但是蚂蚁依然在我的宿舍里勤劳的工作,然后那几天的白天就没下雨。而一般阴天并且会下雨的话,我是不会看到这些住客的。不用理睬那个可恶的天气预报员就能知道今天会不会下雨这个对我来说可是一个好消息。
有钱人常常会这么说,“我把我的牙科医生介绍给你吧。”。现在我也要说一句,“我把我的私人天气预报员送给你吧。”。不过这次你得邮寄给我个小瓶子,而不是开车去某家牙科诊所。

IT人才市场最看重的12项技能

IT行业很热门,不过前提是你要有所需的技能。如果你想进入这个行业,不妨看看在不久的将来最热门的几项IT技能。

  Kevin Scott是谷歌公司的高级技术经理,也是美国计算机协会专业与教育委

  员会的创始成员,他说: “我在硅谷看到的一切与认为程序员行将消失、其工作外包出去的观点完全相反。从大企业到新兴公司,许多公司都在积极招聘。”

  许多招聘人员认为,现在有更多的空位可供求职者挑选。据美国密尔沃基马奎特大学的IT副教授Kate Kaiser认为,IT人才市场很热门,不过前提是你要有所需的技能。

  1 机器学习

  Scott说,随着许多公司努力开发需要在庞大的数据集中查找数据的软件,譬如协作式过滤、垃圾邮件过滤和欺诈检测等软件,一些观察人士发现,市场对以下这些人才的需求在迅速上升: 具有机器学习知识,或者能够设计及开发可提升计算机性能的算法和技术。不单单对谷歌而言是这样。有许多应用软件包含非常庞大的数据集,这就带来了一个根本问题,即如何组织数据并提供给用户。

  对这种应用软件的需求进一步扩大了对数据挖掘、统计建模和数据结构等其他技能的需求。其中一些问题不是轻松就能解决的——选择的数据结构或者算法之间的细微差异就会决定你得到的是不是合理的解决方案。

  2 把应用软件搬到移动设备上

  Sean Ebner是美国佛罗里达州的招聘公司Spherion Pacific Enterprises负责专业服务的副总裁,他说,人们竞相在移动设备上提供内容的势头就像互联网在上世纪90年代的疯狂时期。而随着黑莓和Treo等设备成为日益重要的一种商业工具,很多公司都需要擅长把ERP、采购和费用审批等应用软件扩展到这些设备上的人才。他说: “许多公司需要有人能把应用软件推广到移动设备上。”

  3 无线网络

  美国计算机技术行业协会负责技能开发的副总裁Neill Hopkins说,随着Wi-Fi、WiMax和蓝牙这些事实上的无线标准迅速流行起来,对物色技术人才的雇主们而言,保护无线传输安全也就成了头等大事。他说: “许多无线技术已经被大家所接受,因而相当多的公司关注它们如何协同工作、又存在哪些安全风险,这些风险与有线网络相比要大得多。”

  Howard Schmidt 是美国信息系统安全协会的会长,也是eBay公司前任首席信息安全官兼首席安全战略师,他同意上述观点。他说: “要是让我来招聘无线技术专家,我也希望对方了解无线技术对安全带来的影响,一开始就加入控制措施。”

  4 人机交互与界面设计

  需求不断看涨的另一个方面是人机交互和用户界面设计,也就是为Web或者桌面应用软件设计用户界面。Scott说: “现在更多的人认识到,工程师再也不能匆匆拼凑出蹩脚的界面了。”由于苹果等公司的存在,所以消费者看到越来越多设计精良的产品,所以,为什么就不能要求所用的软件也这样呢?

  5 项目管理

  总部设在美国堪萨斯城的Intronic Solutions公司的总经理Grant Gordon说: 项目经理一直供不应求,由于现在人们越来越无法容忍预算超支或者失败的项目,所以能够证明自己才能的人非常吃香。他说: “现在需要的是有真才实学的项目经理,而不只是挂着这一头衔的人。雇主需要的是懂得监管、了解项目的生命周期、真正会管理项目的人。”

  这与一年前相比大不相同,当时很容易谋得项目经理职位。而现在,由于雇主要求具有实际经验,所以面试过程变得严多了。合适的应聘者凤毛麟角,而这些人可以对工资和津贴提出较挑剔的要求。

  Gordon筛选应聘者的方式就是,让内部的主题专家(subject-matter expert)组织面试,了解应聘者在过去是如何处理各种情况的,譬如怎样消除团队冲突或者解决问题。“简单机械地复述原理很容易,但开始说到冲突管理等方面,你会开始发现他们是不是知道自己在做什么。”Gordon说。

  Gordon有一次让一名应聘者描述他会如何通过改变高尔夫球表面的浅凹来设计出飞得更远的球。Gordon说: “可以肯定,谁也答不上这样的问题,不过可以从中看出对方的反应有多快、如何把难以理解的问题分成几个比较小的部分。”

  6 一般的网络技能

  现如今,不管在哪里从事IT工作,都再也无法回避网络,因而,像软件工程师这些非网络专业人士也有必要对网络概念有一些基本的了解。他们最

  起码要了解网络的基本知识,如TCP/IP、以太网和光纤,另外还要了解分布式计算和网络计算,并足以应付有关工作。

  Scott说: “对于编写那些需要部署到数据中心的应用软件的开发者来说,现在非常需要他们认识到应用软件如何使用网络。他们需要了解自己设计的程序如何充分利用网络。”譬如说,为了在多台计算机之间划分三层应用软件,开发人员就要知道如何构建及协调这个网络。知道分布式系统基本原理的人非常吃香。

  7 网络融合技术

  据Hopkins介绍,随着更多的公司实施IP语音传输(VoIP),市场日益需要那些了解局域网、广域网、语音网络和互联网等各种网络,并且了解它们如何融合到一起的网络管理员。

  8 开源程序设计

  现在,对招聘开源人才有兴趣的雇主比过去多了。Ebner说: “有些人曾经认为,开源日薄西山,不过现在它又卷土重来了,无论是在操作系统层面,还是应用开发方面。”在Linux、Apache、MySQL和PHP(统称为LAMP)方面有经验的人会发现自己非常紧俏。

  9 商业智能系统

  现在,商业智能方面的发展势头也越来越迅猛,因而也越来越迫切地需要那些在Cognos、Business Objects 和Hyperion等商业智能技术方面具有技能,还懂得把这些技术运用到公司业务上的人员。

  Ebner说: “客户在商业智能方面作了大量投入,但是他们不需要只会创建脚本和查询的纯技术人员。想成为技能娴熟的数据挖掘人员,就要对所分析的业务具备过硬的实用知识。具有这种双重本领的人才是眼下最热门的人才。”

一个可以了解网站流量的网站

http://whois.domaintools.com
一个很酷的网站,可以让你了解某个网站有哪些主要国家在浏览。

虚拟红灯区

http://www.redlightcenter.com/
一个虚拟的网络红灯区游戏,目前貌似免费可以玩一段时间。

数学之美系列二十一 - 布隆过滤器(Bloom Filter)

2007年7月3日 上午 09:35:00
发表者:Google(谷歌)研究员 吴军

在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash table)来存储的。它的好处是快速准确,缺点是费存储空间。当集合比较小时,这个问题不显著,但是当集合巨大时,哈希表存储效率低的问题就显现出来了。比如说,一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件(email)提供商,总是需要过滤来自发送垃圾邮件的人(spamer)的垃圾邮件。一个办法就是记录下那些发垃圾邮件的 email 地址。由于那些发送者不停地在注册新的地址,全世界少说也有几十亿个发垃圾邮件的地址,将他们都存起来则需要大量的网络服务器。如果用哈希表,每存储一亿个 email 地址, 就需要 1.6GB 的内存(用哈希表实现的具体办法是将每一个 email 地址对应成一个八字节的信息指纹 googlechinablog.com/2006/08/blog-post.html,然后将这些信息指纹存入哈希表,由于哈希表的存储效率一般只有 50%,因此一个 email 地址需要占用十六个字节。一亿个地址大约要 1.6GB, 即十六亿字节的内存)。因此存贮几十亿个邮件地址可能需要上百 GB 的内存。除非是超级计算机,一般服务器是无法存储的。

今天,我们介绍一种称作布隆过滤器的数学工具,它只需要哈希表 1/8 到 1/4 的大小就能解决同样的问题。

布隆过滤器是由巴顿.布隆于一九七零年提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。我们通过上面的例子来说明起工作原理。

假定我们存储一亿个电子邮件地址,我们先建立一个十六亿二进制(比特),即两亿字节的向量,然后将这十六亿个二进制全部设置为零。对于每一个电子邮件地址 X,我们用八个不同的随机数产生器(F1,F2, ...,F8) 产生八个信息指纹(f1, f2, ..., f8)。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1, g2, ...,g8。现在我们把这八个位置的二进制全部设置为一。当我们对这一亿个 email 地址都进行这样的处理后。一个针对这些 email 地址的布隆过滤器就建成了。(见下图)



现在,让我们看看如何用布隆过滤器来检测一个可疑的电子邮件地址 Y 是否在黑名单中。我们用相同的八个随机数产生器(F1, F2, ..., F8)对这个地址产生八个信息指纹 s1,s2,...,s8,然后将这八个指纹对应到布隆过滤器的八个二进制位,分别是 t1,t2,...,t8。如果 Y 在黑名单中,显然,t1,t2,..,t8 对应的八个二进制一定是一。这样在遇到任何在黑名单中的电子邮件地址,我们都能准确地发现。

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小。我们把它称为误识概率。在上面的例子中,误识概率在万分之一以下。

布隆过滤器的好处在于快速,省空间。但是有一定的误识别率。常见的补救办法是在建立一个小的白名单,存储那些可能别误判的邮件地址。

中国将首次允许个人直接购买海外证券

英国《金融时报》雅米尔•安代利尼(Jamil Anderlini)北京报道
2007年8月21日 星期二

中国政府昨日宣布,将首次允许个人直接购买海外证券,这标志着中国资本市场朝着与全球其它地区的整合迈出了重要一步。

投资者可以在中国银行(Bank of China)开设账户,交易在香港上市的证券。与内地市场不同,香港市场与全球经济结合紧密。

中国国家外汇管理局(Safe)还表示,根据试点计划,这些投资不受中国居民每年购汇总额不超过5万美元的规定限制。

外管局表示,希望此次开放资本账户将缓解人民币升值压力,同时拓宽中国居民的投资渠道。“此试点对贯彻促进国际收支基本平衡、有序拓宽资金流出渠道、逐步实施资本账户开放的总体要求具有重要意义。”

中国不断增长的巨额贸易顺差对人民币构成了升值压力,但中国政府有管理的外汇体制阻止了人民币过快升值及其对出口商的损害。

尽管这一变化将使中国公民能够直接投资于所有在香港交易的证券,但预计投资者将把目标集中在中资企业——它们目前的市盈率较内地企业平均低50%。

由于中国政府没有限制个人的投资购汇额度,追踪在港上市内地企业的H股指数昨日上涨近9%,至11964点。

瑞士信贷(Credit Suisse)驻香港分析师陈昌华(Vincent Chan)表示:“中国资金对香港市场的影响可能会明显上升。如果这项政策得到全面实施,它将从根本上改变香港市场的状况。”

尽管中国的股票市场早在1990年就已存在,但其基础设施在许多方面一直落后于西方国家,例如,中国一直禁止投资者拥有海外股票,也不准外国人购买内地股票。
July 2008
SMTWTFS
June 2008August 2008
12345
6789101112
13141516171819
20212223242526
2728293031