计算机科学

首页 > 计算机科学

齐夫定律

2018-07-27 10:50:29     所属分类:计算语言学
齐夫定律
齐夫定律的概率质量函数的图像,其中N = 10
横纵坐标均为对数比例下,齐夫定律的概率质量函数的图像,其中N = 10。横坐标是指数k 。(注意,函数仅在k为整数时有定义,图上的连线不代表函数连续。)
概率质量函数
齐夫定律的累计分布函数的图像,其中N = 10
横纵坐标均为对数比例下,齐夫定律的累计分布函数的图像,其中N = 10。横坐标是指数k 。(注意,函数仅在k为整数时有定义,图上的连线不代表函数连续。)
累积分布函数
参数 (实数)
(正整数)
支撑集
概率質量函数
累积分布函数
期望值
众数
信息熵
动差生成函数
特性函数

齐夫定律英语:Zipf's law,IPA/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与幂定律概率分布有关的事物的参考。

目录

  • 1 例子
  • 2 遵循该定律的现象
  • 3 参见
  • 4 延伸阅读
  • 5 外部链接

例子

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

Brown语料库俄语Brown Corpus中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

遵循该定律的现象

  • 单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
  • 网页访问频率
  • 城市人口
  • 收入前3%的人的收入
  • 地震震级
  • 固体破碎时的碎片大小

参见

  • 经验公式
  • 词频效应

延伸阅读

主要:

  • George K. Zipf(1949)Human Behavior and the Principle of Least Effort. Addison-Wesley.
  • George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin.(see citations at http://citeseer.ist.psu.edu/context/64879/0)

次要:

  • Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html
  • Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
  • Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
  • Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
  • Gabaix, Xavier. Zipf's Law for Cities: An Explanation (PDF). Quarterly Journal of Economics. August 1999, 114 (3): 739–67. ISSN 0033-5533. doi:10.1162/003355399556133. 
  • Axtell, Robert L; Zipf distribution of US firm sizes, Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science

外部链接

  • Steven, Strogatz. Guest Column: Math and the City. The New York Times. 2009-05-29 [2009-05-29]. —An article on Zipf's law applied to city populations
  • Seeing Around Corners (Artificial societies turn up Zipf's law)
  • PlanetMath article on Zipf's law
  • Distributions de type "fractal parabolique" dans la Nature (French, with English summary)
  • An analysis of income distribution
  • Zipf List of French words
  • Zipf list for English, French, Spanish, Italian, Swedish, Icelandic, Latin, Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts
  • Citations and the Zipf–Mandelbrot's law
  • Zipf's Law for U.S. Cities by Fiona Maclachlan, Wolfram Demonstrations Project.
  • 埃里克·韦斯坦因. Zipf's Law. MathWorld. 
  • Zipf's Law examples and modelling (1985)
  • Complex systems: Unzipping Zipf's law (2011)
  • Benford’s law, Zipf’s law, and the Pareto distribution by Terence Tao.

显示全文

取消

感谢您的支持,我会继续努力的!

扫码支持
无需打赏可直接关闭阅读全文
1分,2分不嫌少,钱不钱的无所谓,重要的是你的话语激励我前行!

愿你每天温暖如春!!!


上一篇:自然语言理解
下一篇:细胞自动机
相关推荐