计数
(kn)=kn(k−1n−1)
k=0∑nk(kn)=n2n−1
k=0∑m(nn+k)=(n+1n+m+1)
卡特兰数 Cn=(n2n)−(n−12n) 若干实际意义,不必多说
容斥原理:不必多说
若序列长度 >st ,则要么存在长为 s+1 的上升子序列,要么存在长为 t+1 的下降子序列
生成函数
对于数列 {an} 可以定义其生成函数为 A(x)=n=0∑∞anxn 。
性质:任意 Q(x)P(x) 都能写成 ∑(1−αix)kici+R(x) ,其中 P(x),Q(x),R(x) 都是项数有限的多项式。
我们考察斐波那契数列的生成函数。因为 F(x)=1+xF(x)+x2F(x) ,所以可以解出 F(x)=1−x−x21 。
令 1−x−x2=(1−α)(1−β) ,其中 α,β=(1±5)/2 ,我们可以解出 F(x)=51(1−αxα−1−βxβ) ,于是 fn=51(αn+1−βn+1) 。
我们考察划分数的生成函数。发现 A(x)=k=1∏∞1−xk1 。(OIer:我记得有个东西叫五边形数)
两个重要的生成函数:ex 是数列 0!1,1!1,2!1… 的生成函数。ln(1−x1) 是 0,1,21,31,… 的生成函数。
指数生成函数
A~(x)=n=0∑∞n!1anxn 。
例:考察长度为 n 的排列的 EGF,有 S(x)=1−x1 。考察长度为 n 的轮换的 EGF,有 C(x)=ln(1−x1) 。
发现 S(x)=eC(x) ,它的组合意义是枚举排列的轮换个数。(OIer:求 n 个点的无向连通图个数)
一些例子
考察卡特兰数的生成函数。有 C(x)=xC2(x)+1 。
可以解出 C(x)=2x1−1−4x 。
广义的二项式定理:(1+x)α=n=0∑∞n!αnxn 。
我们可以计算 (1−4x)1/2=n=0∑∞n!(1/2)n(−4x)n=−n=0∑∞n!1∗3∗⋯∗(2n−3)(2x)n=−2n=0∑∞(n−1)!n!(2n−2)!xn 。所以进一步能算出 [xn]C(x)=(n+1)!n!(2n)!=n+11(n2n) 。
考察 n 个点的有标号有根树个数。考虑其 EGF,有 T~(x)=xeT~(x) 。
Burnside & Polya
我们先回顾一下群作用 G×X→X 的一些记号:
orbit(x)=Gx={g∘x∣g∈G} 。
StabG(x)={g∣g∘x=x}
xg={x∣g∘x=x}
X/G={Gx∣x∈X} (也就是轨道个数)
burnside 引理:∣X/G∣=∣G∣1g∈G∑∣xg∣ 。
怎么证明呢?有 ∣X/G∣=x∈X∑∣Gx∣1=x∈X∑∣G∣Stab(x)=∣G∣1x,g∑[g∘x=x]=∣G∣1g∈G∑∣xg∣ 。
polya 计数:在 burnside 的基础上做进一步拓展。设 F={f:X→C} ,如果已经有群作用 G×X→X ,然后定义 G×F→F 满足 g×f=f∘g ,其中我们把 g 看做 X→X 的置换。那么 ∣F/G∣=∣G∣1g∑∣Fg∣=∣G∣1g∑∣C∣c(g) ,其中 c(g) 表示 g 的轮换个数。
例:考虑 n 个点的项链,每个点能染成 C 种颜色之一,求染色方案数,其中认为旋转后相同的方案是相同的。
不难算出就是 n1g∈Zn∑Cgcd(g,n) 。可以进一步化成 n1d∣n∑φ(dn)Cd 。
进一步的我们可以做以下拓展:我们之前用 ∣C∣ 个颜色对小球染色。现在比方说我们用了 3 种颜色,假设我想对所有 i+j+k=n 算出第一种颜色用 i 次,第二种用 j 次,第三种用 k 次的方案数,怎么求?
我们设 ci(g) 是 g 长度为 i 的轮换个数。
那么只需提取 ∣G∣1g∑Z1c1(g)Z2c2(g)… 的相应系数即可,其中 Zi=xi+yi+zi 。
然后我们再看一些例子。求 G 的共轭类个数?考虑群作用 G×G→G 满足 g∘x=gxg−1 ,那么共轭类个数就是这个作用的轨道个数,由 burnside,有 ∣G∣1g∑CG(g) 。
概率
我们研究概率空间 (Ω,P) 。其中 Ω 是样本空间,P 是 Ω→R 的函数满足:
∀w∈Ω,P(w)≥0 以及 w∈Ω∑P(w)=1 。
我们称一个 事件 是 Ω 的子集,即 A⊆Ω 。令 P(A)=w∈A∑P(w) 。也记作 Pr[A] 。
令 Pr[B∣A]=Pr[A]Pr[A∩B] 表示条件概率。
有贝叶斯定理:Pr[B∣A]=Pr[A]Pr[B]Pr[A∣B] 。
定义 事件 A,B 独立:Pr[A∩B]=Pr[A]Pr[B] 。
定义随机变量:X:Ω→S ,设 P(x)=Pr[X=x]=X(w)=x∑P(w) ,这被称为概率函数。
一些常见分布
定义 分布:对随机变量 X ,设 PX(x)=Pr[X=x] 。
联合分布:对随机变量 X,Y ,设 PXY(x,y)=Pr[X=x∧Y=y] 。
条件分布 :PY∣X(y∣x)=Pr[Y=y∣X=x] 。
显然 PY∣X(y∣x)=PX(x)PXY(x,y) 。
现在我们定义一些常见的分布。
伯努利分布 Bern(p) 形如 {1−ppx=0x=1
二项式分布 Binom(n,p) 形如 (xn)px(1−p)n−x
几何分布 Geom(p) 形如 p(1−p)x−1
负二项分布 NB(r,p) 形如 (xx+r−1)pr(1−p)x
(组合意义是以 p 概率抽 1 ,若干次后抽出 r 个 1)
泊松分布 Poisson(λ) 形如 x!e−λλx 。
(可以看做 n→∞ 时的 Binom(n,nλ))
期望,方差
我们定义 E[X]=x∑PX(x)x=w∑P(w)X(w)
例题:设 X∼Geom(p) ,求 E[X] 。根据实际意义,我们有 E[X]=E[X−1∣X>1] 。而 E[X−1∣X>1]=x=2∑∞(x−1)Pr[X=x∣X>1]=x=2∑∞(x−1)1−pPr[X=x]=x=0∑∞1−p(x−1)Px(x)=1−pE[X]−1 ,于是 E[X]=p1 。
定义 Var[X]=E[X2]−E[X]2=E[(X−E[X])2] 。定义 Cov[X,Y]=E[XY]−E[X]E[Y]=E[(X−E[X])(Y−E[Y])] 。
对于两个独立随机变量 X,Y ,我们有 E[XY]=E[X]E[Y] 。
有 Var[X+Y]=E[(X−E[X]+Y−E[Y])2]=Var[X]+Var[Y]+2Cov[X,Y]=Var[x]+Var[y] 。
概率生成函数(PGF)
GX(z)=x∑PX(x)zx=E[zX] 。
若 X,Y 是独立分布,那么 GX+Y(z)=GX(z)GY(z)
你发现 GX 有一些良好性质,比如 G′X(1)=E[x],G′′X(1)+GX′(1)=E[X2] 。
例:考察掷硬币,第一次连续两次正面朝上的概率。考虑其 PGF,有 G(z)=p2z2+(1−p)zG(z)+(1−p)pz2G(z) 。
我们考察 GX(ez)=E[ezX] 。其 n 阶导代入 z=0 可得 E[Xn] 。
熵
考虑随机变量 X 遵从概率分布 Px ,我们设 H[X]=x∑PX(x)logPx(x)1 。也可以看做是 E[logPX(X)1]
比如说设 X∼Bern(21) ,我们有 H(X)=1log2 。
令 ∣X∣={x∣PX(x)>0} ,不难证明 0≤H(X)≤log∣X∣
联合熵 对随机变量 X,Y ,设 H[X,Y]=x,y∑PXY(x,y)logPXY(x,y)1
条件熵 对随机变量 X,Y ,H[Y∣X]=x∑H[Y∣X=x]⋅Pr[X=x] 。
我们推一下式子:H[Y∣X]=x∑y∑PY∣X(y∣x)logPY∣X(y∣x)1Px(X)=x,y∑Pxy(x,y)logPY∣X(y,x)1=E[logPY∣X(Y∣X)1]
我们有 H[X,Y]=H[X]+H[Y∣X] ,因为 E[logPXY(X,Y)1]=E[logPX(X)1]+E[logPY∣X(Y∣X)1]
互信息
我们有 H[X∣Y]≤H[X] 。
证明:
因为 H[X]−H[X∣Y]=x∑Px(x)logPx(x)1−x,y∑PX∣Y(x∣y)logPX∣Y(x∣y)1=x,y∑PXY(x,y)logPX(x)PXY(x∣y)=x,y∑PXY(x,y)logPX(x)PY(y)PXY(x,y)
到这里,可以看成有两个长为 ∣X∣⋅∣Y∣ 的序列 a,b ,上述和式为 i∑ailogbiai ,∑a 和 ∑b 都是固定的,求这个式子下界。经过系列数学推导,可以得到它大于等于 (∑a)log∑b∑a ,回到之前问题,即有 H[X]≥H[X∣Y] 了。
定义互信息为 I(X;Y)=H[X]−H[X∣Y]=H[Y]−H[Y∣X] 。
data-processing 不等式 :I(X;Y)≥I(X;Z) ,其中 PY=PXPY∣X,PZ=PYPZ∣Y
KL散度
D(P∣∣Q)=x∑P(x)logQ(x)P(x) 可以看做 P 偏离 Q 的程度
(注意 P,Q 是两个概率分布)
我们有 D(P∣∣Q)≥0 ,因为设 D(P∣∣Q)=Ex∼Q[Q(x)P(x)logQ(x)P(x)]=Ex∼Q[f(Q(x)P(x))]≥f(Ex∼Q[Q(x)P(x)])=f(1)=0 ,其中 f(x)=xlogx
我们有 D(P∣∣Unif(Ω))=log∣Ω∣−H(P) 这很好证明
现在考虑 PXY,QXY 。
我们证明 D(PXY∣∣QXY)=D(PX∣∣QX)+D(PY∣X∣∣QY∣X∣PX)
因为 EX,Y∼PXY[logQXY(X,Y)PXY(X,Y)]=EX,Y∼PXY[logQX(X)PX(X)+logQY∣X(Y∣X)PY∣X(Y∣X)]
同理我们有 D(PX1X2…Xn∣∣QX1X2…Xn)=i=1∑nD(PXi∣X1…Xi−1∣∣QXi∣X1…Xi−1∣PX1X2…Xi−1)
集中不等式
马尔科夫不等式 (Markov Bound)
对于在 [0,+∞) 上的随机变量 X
P[X≥αE[X]]≤α1
证明:首先有 ∫0∞P1[X≥x]dx=E[X] 。
这是因为 ∫0∞P1[X≥x]dx=∫0∞w∑P(w)[X(w)≥x]dx=w∑P(w)∫0∞[X(w)≥x]dx=w∑P(w)X(w)=E[X] 。
切比雪夫不等式 (Chebyshev’s Bound/Inequality)
对随机变量 X ,设 Var(X)=Δ2 。
Pr[∣X−E[X]∣≥αΔ]≤α21 。
我们可以由马尔科夫不等式推出来:Pr[∣X−E[X]∣≥αΔ]=Pr[(X−E[X])2≥α2Δ2] 。而 Δ2=E[(X−E[X])2] ,那就有 Pr[(X−E[X])2≥α2Δ2]≤α21
切尔诺夫不等式 (Chernoff Bound)
对随机变量 X ,Pr(X≥a)=Pr(etX≥eta)≤etαE[etX] ,其中 t 是任意一个 >0 的实数。
例子:设 X1,…,Xn∼Bern(p) 且互相独立,估计 Pr[i∑Xi≥qn] ,其中 q>p 。
利用 chernoff bound ,它小于等于 etqnE[et∑Xi]=(etqpet+(1−p))n
现在我们希望寻找 etqpet+(1−p) 的最小值,把它对 t 求导并找零点,发现零点满足 et=p(1−q)q(1−p) ,代入上面式子即可得到一个很好的界:(1−q1−p)1−q(qp)q 的 n 次方。
但同时我们发现 (1−q1−p)1−q(qp)q 有些眼熟,它等于 exp(qlogqp+(1−q)log1−q1−p)=exp(−d(q∣∣p)) 。于是最后的结果是 exp(−d(q∣∣p)n) 。
更进一步,之前的作业我们证明过 d(q∣∣p)≤2(p−q)2 ,于是它小于等于 exp(−2(p−q)2n) 。
斯特林公式
对 n! 的估计。我们有 n! 约为 2πn(en)n 。还有另一个更严谨的式子:lnn!=nlnn−n+2lnn+12n1+O(n31)
Sanov Bound
对于 X1,X2,…,Xn∼Bern(p) ,有 Pr[∑Xi=qn]∈[n+11exp(−nd(q∣∣p)),exp(−nd(q∣∣p))] 。
(n+1)L+11exp(nH(Q))≤(s1,s2,…sLn)≤exp(nH(Q)) ,其中 Q 满足 Pr[Q=i]=nsi 。