A REVIEW ON MULTIVARIATE MUTUAL INFORMATION
Sunil Srinivasa
University of Notre Dame
I. INTRODUCTION
Typically, mutual information is defined and studied between just two variables. Though the approach to evaluate
bivariate mutual information is well established, several problems in multi-user information theory require the
knowledge of interaction between more than two variables. Since there exists dependency between the variables, we
cannot decipher their relationship without considering all of them at once. The seminal work on the informationtheoretic
analysis of the interaction between more than two variables (or in other words, multivariate mutual
information) was first studied in [1].
If several sources transmit information to a receiver, the bivariate model with certainly fail to discriminate effects
due to uncontrolled sources from those due to random variability. We should not confuse the impairments due to
system noise with the absence of knowledge of the association between the inputs. Besides, in a practical scenario,
we don’t know in advance as to how many sources are transmitting information. By employing the multivariate
model, we can effectively measure the effects due to the various transmitting sources. It provides a simple method
for evaluating and testing dependencies in multidimensional frequency data or contingency tables.
In section II, I will summarize the theoretical development and talk about numerous properties of multivariate mutual
informations. Section III gives an introduction to total multivariate correlation analysis. Asymptotic hypothesis
testing is discussed in section IV of this report. Some applications of multivariate mutual information are mentioned
in section V. Section VI concludes the report. Section VII lists the key references used.
II. DEVELOPMENT OF THE THEORY
Consider a single-input single-output channel with a discrete input X and output Y with probability distributions
pX(x) and pY (y) respectively. The amount of transmission between X and Y is defined in terms of the individual
and joint entropies as
I(X; Y ) = H(X) + H(Y ) − H(X, Y ) (1)
where entropy (of X in this case) is given by
H(X) = −
X
x∈χ
pX(x)log(pX(x))
Consider now a channel with two inputs U, V and a single output Y . This is commonly known as the two-way
channel. The mutual information between the inputs and the output of a two-way channel is written (as an extension
of (1)) as
I(U, V ; Y ) = H(U, V ) + H(Y ) − H(U, V, Y ) (2)
The introduction of V might affect the relationship between U and Y in several ways. In order to study the effect,
the introduction of V has on the single-input single-output channel, we will need to reduce the three-dimensional
information to two dimensions. One way to annul the effect of V is by reducing the three dimensional equations
to two variables and writing
I(U; Y ) = H(U) + H(Y ) − H(U, Y ) (3)
2
Another way in which V could be eliminated is by taking a weighted sum (on the probability of occurrence of
that particular value of V ) of the mutual information between U and Y for each value of V .
IV (U; Y ) = X
v∈ϑ
pV (v)I(U; Y |V = v) = I(U; Y |V )
= I(U, V ; Y ) − I(V ; Y )
=
H(U, V ) + H(Y ) − H(U, V, Y )
−
H(V ) + H(Y ) − H(V, Y )
= H(U, V ) − H(U, V, Y ) − H(V ) + H(V, Y ) (4)
If V has no effect on the transmission between U and Y , I(U; Y ) = IV (U; Y ), and the analysis reduces to that
for a single-input single-output channel.
In a general case however, the difference between the two is given by
I(U; Y ) − IV (U; Y ) = H(U) + H(V ) + H(Y ) − (H(U, V ) + H(V, Y ) + H(U, Y )) + H(U, V, Y ) (5)
McGill [1] defines this term as the mutual interaction between the three variables U, V and Y and is denoted as
I(U; V ; Y ).
The analysis above assumes that the distributions (in probability) of the inputs and output are known. In the
case that the exact values of probability distributions are not known, we could use the empirical values of entropy.
The multivariate information analysis can be analogously extended to continuously-distributed variables as well.
A. Extension to Multi-dimensional Variables
The definition of mutual information has been extended to a general case (over more than three variables) by Fano
[2] and re-formulated in a lattice-theoretic framework by Han [3]. Though each have taken different approaches
and the expressions are in terms of different entities (mutual informations in one case and entropies in the other),
they can be simplified to be the same.
Fano [2] computes the mutual information between an arbitrary number of events, as an extension to the bivariate
case as follows.
I(X1; X2) = H(X1) − H(X1|X2)
= I(X1) − I(X1|X2) (6)
The second equality is conveniently used since entropy of a variable is its self-information.
Extending to a triple product ensemble
I(X1; X2; X3) = I(X1; X2) − I(X1; X2|X3) (7)
Generalizing over N variables,
I(X1; X2; . . . ; XN ) = I(X1; X2; . . . ; XN−1) − I(X1; X2; . . . ; XN−1|XN ) (8)
As a side-equation, the self-information of a N-product ensemble can be expanded out in terms of mutual informations
between the individual components as
I(X1X2 . . . XN ) = XI(Xi) −
XI(Xi
; Xj ) + . . . . . .(−1)n
I(X1; X2; . . . ; XN ) (9)
3
The summations are taken over all combinations of subscripts.
Han [3] introduced the concept of difference operator to describe multiple interactions in frequency data or
contingent tables. According to him, the N-information(IN ) is the difference of the entropy function and is given
by
IN (X1; X2; . . . ; XN ) = X
N
k=1
(−1)k−1 X
X⊂(X1,X2,...,XN )
|X|=k
H(X) (10)
Expanding out,
IN (X1; X2; . . . XN ) = (H(X1) + H(X2). . . + H(XN )) − . . . + . . .(−1)N−1H(X1, X2, . . . XN ) (11)
B. Properties of Multivariate Mutual Information
• Having defined multivariate mutual information, we will try to give an intuitive meaning to it. It can be
interpreted as the gain (or loss) in the information transmitted between a set of variables due additional
knowledge of an extra variable. In other words, we can think of IN as the dependence reduction.
IN (XN ) = IN−1(XN−1
) − IN−1(XN−1
|XN ) (12)
where Xk = (X1; X2; . . . ; Xk)
• A surprising note to make is that, contrary to bivariate information which is always positive, multivariate
mutual information can be either positive or negative. This is seen to be possible since the effect of holding
one of the variables may increase or decrease dependence between the others. As a trivial case, consider the
situation in the trivariate product where variables U and Y are independent when V is not known, but become
dependent given V . For this case, I(U; V ; Y ) is clearly negative. Han [3] has shown that mutual information
for multivariate variables need not be always positive, by expanding it in terms of parameters of probability
up to the second order.
• From Han’s expansion for the N-information (11), it is straightforward to note that multivariate mutual
information is completely symmetric with respect to its components. Hence, the N-information can be written
out in N possible ways.
• It is easy to see that the multivariate analysis is much more precise compared to the bivariate case. As an
example, consider the transmission (U, V ) → Y . In the bivariate information analysis, we would have
H(Y ) = HU (Y ) + I(U; Y ) (13)
where H(Y ) can be interpreted as the uncertainty in the output and HU (Y ) is the residual uncertainty in the
output after the information due to input U is accounted for. Working on similar lines for a trivariate analysis,
we end up with
H(Y ) = HUV (Y ) + I(U, V ; Y ) (14)
Here, HUV (Y ) is the residual uncertainty which ends up being the error term. Since conditioning decreases
entropy, the analytical error is reduced for the trivariate analysis over the bivariate one. As the dimensionality
4
of the system increases, we end up with a better estimate of the noise information and hence obtain a better
overall transmission. For an N-dimensional system with inputs (X1, X2, . . . , XN ) and output Y ,
H(Y ) = HX1X2...XN
(Y ) + I(X1, X2, . . . , XN ; Y ) (15)
is used to analyze the multivariate transmission of information.
• A very important property for a multivariate information quantity is the concept of semi-independence. A
bivariate mutual information is equal to zero if the two variables are independent. For multidimensional
variables however, independence is not the necessary condition for no-multivariate interactions . Han [3]
discusses the concept of semi-independence as a subtler extension of independence.
Let α ∈ X be a subset of the N-dimensional random vector X. Let r(α) be defined as the number of elements
of X in the subset α. We call a distribution semi-independent (with respect to α) if
πα ≡
X
φ≤γ≤α
(−1)r(α)−r(γ)P r0
{α ∩ γ¯}P r{γ} = 0 (16)
where P r0{.} refers to an independent distribution and hence can be expanded as a product of its marginals’
probabilities.
For the bivariate case, not surprisingly, semi-independence essentially leads to independence. This is not the
case in general for higher orders. As an illustration, the semi-independence equations for a trivariate product
(πX1∩X2∩X3 =0) reduces to
0 =P r{UV Y } − P r0
{U}P r{V Y } − P r0
{V }P r{UY } − P r0
{Y }P r{UV }
+ P r0
{UV }P r{Y } + P r0
{V Y }P r{U} + P r0
{V U}P r{Y } − P r0
{UV Y } (17)
This in turn implies,
P r{UV Y } = P r{U}P r{V Y } + P r{V }P r{UY } + P r{Y }P r{UV } − 2P r{U}P r{V }P r{Y } (18)
Note that this is much stronger than the “plain” independence conditions. Infact, independence can be thought of
as a composite case of semi-independence. For independence, (16) should hold for all (α ∈ X, with r(α) ≥ 2).
• The recursive(19) and chaining(20) properties hold for the multivariate mutual information [5]. They can be
respectively stated as follows. Proofs follow immediately on expanding both sides in terms of entropy functions.
IN ((X1, X2); X3; . . . ; XN |X0) = IN
ตรวจทานข้อมูลตัวแปรพหุซึ่งกันและกันศรีนิ SunilมหาวิทยาลัยดามI. บทนำโดยทั่วไป ข้อมูลซึ่งกันและกันคือกำหนด และศึกษาระหว่างตัวแปรสองประการ แม้ว่าวิธีการประเมินข้อมูล bivariate ร่วมกันถูกกำหนดขึ้นดี ปัญหาในทฤษฎีข้อมูลแบบหลายผู้ใช้ต้องการความรู้ปฏิสัมพันธ์ระหว่างตัวแปรมากกว่า 2 เนื่องจากมีการเชื่อมโยงระหว่างตัวแปร เราไม่สามารถถอดรหัสความสัมพันธ์ โดยพิจารณาทั้งหมดในครั้งเดียว งานบรรลุถึงบน informationtheoreticการวิเคราะห์ปฏิสัมพันธ์ระหว่างตัวแปรมากกว่าสอง (หรือในคำอื่น ๆ และตัวแปรพหุครั้งแรกได้ศึกษาข้อมูล) ใน [1]หลายแหล่งส่งข้อมูลไปเครื่องรับ แบบ bivariate ด้วยแน่นอนไม่ถือเขาถือเราผลเนื่องจากแหล่งอพยพจากเนื่องจากความแปรผันแบบสุ่ม เราไม่ควรสับสนระหว่างไหวสามารถเนื่องระบบเสียงกับการขาดความรู้ความสัมพันธ์ระหว่างปัจจัยการผลิต นอกจากนี้ ในสถานการณ์จริงเราไม่ทราบล่วงหน้าเป็นจำนวนแหล่งส่งข้อมูล โดยใช้แบบ multivariateรุ่น เราสามารถมีประสิทธิภาพวัดจากแหล่งต่าง ๆ ส่งผลกระทบ มีวิธีง่าย ๆการประเมิน และการทดสอบความสัมพันธ์ในข้อมูลหลายมิติความถี่หรือตารางฉุกเฉินในส่วนที่ II ผมจะสรุปการพัฒนาทฤษฎี และพูดคุยเกี่ยวกับคุณสมบัติต่าง ๆ ของ multivariate ซึ่งกันและกันรายละเอียด ส่วน III ให้แนะนำการวิเคราะห์ความสัมพันธ์ของตัวแปรพหุรวม สมมติฐาน asymptoticทดสอบจะกล่าวถึงในส่วนที่ IV ของรายงานนี้ โปรแกรมประยุกต์บางโปรแกรมของข้อมูลตัวแปรพหุร่วมกันกล่าวถึงในส่วน VI V. ส่วนสรุปรายงาน ส่วน VII แสดงรายการที่ใช้การอ้างอิงคีย์II การพัฒนาของทฤษฎีพิจารณาช่องสัญญาณเดียวผลผลิตป้อนข้อมูลเดียวกับการแยกกันป้อนข้อมูล X และ Y มีการกระจายความน่าเป็นpX(x) และ pY (y) ตามลำดับ จำนวนส่งระหว่าง X และ Y ไว้ในแต่ละและ entropies ร่วมเป็นฉัน (X Y) = H(X) + H − H (Y) (X, Y) (1)เอนโทรปี (ของ X ในกรณีนี้) ที่ถูกกำหนดโดยH(X) =−Xx∈χpX(x)log(pX(x))พิจารณาขณะนี้ช่องอินพุตสอง U, V และออกเดี่ยว Y นี้เป็นรู้จักกันทั่วไปเป็นสองช่องทางการ เขียนข้อมูลซึ่งกันและกันระหว่างอินพุตเอาท์พุทของช่องสัญญาณแบบสองทิศทาง (เป็นส่วนขยาย(1)) เป็นฉัน (U, V Y) = H (U, V) H − H (Y) (U, V, Y) + (2)แนะนำ V อาจส่งผลกระทบต่อความสัมพันธ์ระหว่างคุณและ Y หลายวิธี เพื่อศึกษาผลแนะนำ V มีช่องเดียวผลผลิตป้อนข้อมูลเดียว เราจะต้องลดในสามมิติข้อมูลสองมิติ วิธีหนึ่งที่จะยกเลิกผลของ V จะลดสามมิติสมการสองตัวแปรและเขียนฉัน (U Y) = H(U) + H − H (Y) (U, Y) (3)2อีกวิธีหนึ่งซึ่งสามารถตัด V คือ โดยการนำผลรวมถ่วงน้ำหนัก (ในความเป็นไปได้ของการเกิดขึ้นของค่าเฉพาะของ V) ร่วมกันข้อมูลระหว่างคุณและ Y สำหรับแต่ละค่าของ VIV (U Y) = Xv∈ϑpV (v) I(U; Y | V = v) = (U ฉัน Y | V)= I(U, V; Y) I(V; − Y)=H (U, V) H − H (Y) (U, V, Y) +−(V) H + H − H (Y) (V, Y)= H(U, V) − H (U, V, Y) − H (V) H (V, Y) + (4)ถ้า V ไม่มีผลกับการส่งผ่านระหว่างคุณและ Y ฉัน (U Y) = (U; IV ลด Y) และการวิเคราะห์ที่สำหรับสถานีเดียวผลผลิตป้อนข้อมูลเดียวในกรณีทั่วไป อย่างไรก็ตาม ความแตกต่างระหว่างทั้งสองถูกกำหนดโดยฉัน (U Y) IV − (U Y) = H(U) + H (V) + H (Y) − (H (U, V) H (V, Y) + H (U, Y) +) + H (U, V, Y) (5)กำหนดระยะเวลานี้เป็นการโต้ตอบซึ่งกันและกันระหว่างตัวแปร 3 U, V และ Y McGill [1] และสามารถระบุเป็นฉัน (U V Y)การวิเคราะห์ข้างต้นถือว่า การกระจาย (ในความน่าเป็น) ของปัจจัยการผลิตและผลผลิตเป็นที่รู้จัก ในกรณีที่ค่าที่แน่นอนของการกระจายความน่าเป็นไม่รู้จักกัน เราสามารถใช้ค่ารวมของเอนโทรปีการวิเคราะห์ข้อมูลตัวแปรพหุสามารถตัวแปร analogously ขยายกระจายอย่างต่อเนื่องเช่นอ.ต่อไปยังตัวแปรหลายมิติมีการขยายนิยามของข้อมูลร่วมกันกับกรณีทั่วไป (เกินกว่า 3 ตัวแปร) โดย Fano[2] และกำหนดใหม่ในกรอบโครงตาข่ายประกอบ theoretic โดยฮั่น [3] แม้ว่า แต่ละได้นำแนวทางที่แตกต่างกันและนิพจน์ที่อยู่ในเอนทิตีอื่น (รายละเอียดซึ่งกันและกันในกรณีที่หนึ่ง) และ entropies ในอื่น ๆthey can be simplified to be the same.Fano [2] computes the mutual information between an arbitrary number of events, as an extension to the bivariatecase as follows.I(X1; X2) = H(X1) − H(X1|X2)= I(X1) − I(X1|X2) (6)The second equality is conveniently used since entropy of a variable is its self-information.Extending to a triple product ensembleI(X1; X2; X3) = I(X1; X2) − I(X1; X2|X3) (7)Generalizing over N variables,I(X1; X2; . . . ; XN ) = I(X1; X2; . . . ; XN−1) − I(X1; X2; . . . ; XN−1|XN ) (8)As a side-equation, the self-information of a N-product ensemble can be expanded out in terms of mutual informationsbetween the individual components asI(X1X2 . . . XN ) = XI(Xi) −XI(Xi; Xj ) + . . . . . .(−1)nI(X1; X2; . . . ; XN ) (9)3The summations are taken over all combinations of subscripts.Han [3] introduced the concept of difference operator to describe multiple interactions in frequency data orcontingent tables. According to him, the N-information(IN ) is the difference of the entropy function and is givenbyIN (X1; X2; . . . ; XN ) = XNk=1(−1)k−1 XX⊂(X1,X2,...,XN )|X|=kH(X) (10)Expanding out,IN (X1; X2; . . . XN ) = (H(X1) + H(X2). . . + H(XN )) − . . . + . . .(−1)N−1H(X1, X2, . . . XN ) (11)B. Properties of Multivariate Mutual Information• Having defined multivariate mutual information, we will try to give an intuitive meaning to it. It can beinterpreted as the gain (or loss) in the information transmitted between a set of variables due additionalknowledge of an extra variable. In other words, we can think of IN as the dependence reduction.IN (XN ) = IN−1(XN−1) − IN−1(XN−1|XN ) (12)where Xk = (X1; X2; . . . ; Xk)• A surprising note to make is that, contrary to bivariate information which is always positive, multivariatemutual information can be either positive or negative. This is seen to be possible since the effect of holdingone of the variables may increase or decrease dependence between the others. As a trivial case, consider thesituation in the trivariate product where variables U and Y are independent when V is not known, but becomedependent given V . For this case, I(U; V ; Y ) is clearly negative. Han [3] has shown that mutual informationfor multivariate variables need not be always positive, by expanding it in terms of parameters of probabilityup to the second order.• From Han’s expansion for the N-information (11), it is straightforward to note that multivariate mutualinformation is completely symmetric with respect to its components. Hence, the N-information can be writtenout in N possible ways.• It is easy to see that the multivariate analysis is much more precise compared to the bivariate case. As anexample, consider the transmission (U, V ) → Y . In the bivariate information analysis, we would haveH(Y ) = HU (Y ) + I(U; Y ) (13)where H(Y ) can be interpreted as the uncertainty in the output and HU (Y ) is the residual uncertainty in theoutput after the information due to input U is accounted for. Working on similar lines for a trivariate analysis,we end up withH(Y ) = HUV (Y ) + I(U, V ; Y ) (14)Here, HUV (Y ) is the residual uncertainty which ends up being the error term. Since conditioning decreasesentropy, the analytical error is reduced for the trivariate analysis over the bivariate one. As the dimensionality4of the system increases, we end up with a better estimate of the noise information and hence obtain a betteroverall transmission. For an N-dimensional system with inputs (X1, X2, . . . , XN ) and output Y ,H(Y ) = HX1X2...XN(Y ) + I(X1, X2, . . . , XN ; Y ) (15)is used to analyze the multivariate transmission of information.• A very important property for a multivariate information quantity is the concept of semi-independence. Abivariate mutual information is equal to zero if the two variables are independent. For multidimensionalvariables however, independence is not the necessary condition for no-multivariate interactions . Han [3]discusses the concept of semi-independence as a subtler extension of independence.Let α ∈ X be a subset of the N-dimensional random vector X. Let r(α) be defined as the number of elementsof X in the subset α. We call a distribution semi-independent (with respect to α) ifπα ≡
X
φ≤γ≤α
(−1)r(α)−r(γ)P r0
{α ∩ γ¯}P r{γ} = 0 (16)
where P r0{.} refers to an independent distribution and hence can be expanded as a product of its marginals’
probabilities.
For the bivariate case, not surprisingly, semi-independence essentially leads to independence. This is not the
case in general for higher orders. As an illustration, the semi-independence equations for a trivariate product
(πX1∩X2∩X3 =0) reduces to
0 =P r{UV Y } − P r0
{U}P r{V Y } − P r0
{V }P r{UY } − P r0
{Y }P r{UV }
+ P r0
{UV }P r{Y } + P r0
{V Y }P r{U} + P r0
{V U}P r{Y } − P r0
{UV Y } (17)
This in turn implies,
P r{UV Y } = P r{U}P r{V Y } + P r{V }P r{UY } + P r{Y }P r{UV } − 2P r{U}P r{V }P r{Y } (18)
Note that this is much stronger than the “plain” independence conditions. Infact, independence can be thought of
as a composite case of semi-independence. For independence, (16) should hold for all (α ∈ X, with r(α) ≥ 2).
• The recursive(19) and chaining(20) properties hold for the multivariate mutual information [5]. They can be
respectively stated as follows. Proofs follow immediately on expanding both sides in terms of entropy functions.
IN ((X1, X2); X3; . . . ; XN |X0) = IN
การแปล กรุณารอสักครู่..

การตรวจสอบเกี่ยวกับการร่วมกันหลายตัวแปรข้อมูลนิลนีวามหาวิทยาลัยเดมครั้งที่หนึ่ง บทนำโดยปกติข้อมูลซึ่งกันและกันมีการกำหนดและการศึกษาระหว่างสองตัวแปร แม้ว่าวิธีการในการประเมินข้อมูลร่วมกัน bivariate จะดีขึ้นปัญหาในหลายทฤษฎีข้อมูลที่ผู้ใช้หลายจำเป็นต้องมีความรู้ในการทำงานร่วมกันระหว่างมากกว่าสองตัวแปร เนื่องจากมีการพึ่งพาอยู่ระหว่างตัวแปรที่เราไม่สามารถถอดรหัสความสัมพันธ์ของพวกเขาโดยไม่พิจารณาทั้งหมดของพวกเขาในครั้งเดียว งานน้ำเชื้อใน informationtheoretic การวิเคราะห์ของการปฏิสัมพันธ์ระหว่างมากกว่าสองตัวแปร (หรือในคำอื่น ๆ ที่ร่วมกันหลายตัวแปรข้อมูล) ได้รับการศึกษาครั้งแรกใน [1]. ถ้าหลายแหล่งส่งข้อมูลไปยังเครื่องรับแบบ bivariate มีแน่นอนไม่เลือกปฏิบัติ ผลกระทบที่เกิดจากการที่ไม่สามารถควบคุมแหล่งที่มาจากสิ่งที่เกิดจากการแปรปรวนแบบสุ่ม เราไม่ควรจะสับสนบกพร่องเนื่องจากเสียงระบบที่มีกรณีที่ไม่มีความรู้เกี่ยวกับความสัมพันธ์ระหว่างปัจจัยการผลิตที่ นอกจากนี้ในสถานการณ์จริงที่เราไม่ทราบล่วงหน้าเป็นวิธีการที่หลายแหล่งที่มีการส่งข้อมูล โดยการใช้หลายตัวแปรรุ่นเราสามารถวัดได้อย่างมีประสิทธิภาพผลกระทบอันเนื่องมาจากแหล่งที่มาส่งสัญญาณต่างๆ มันมีวิธีการที่ง่ายสำหรับการประเมินและการทดสอบการอ้างอิงข้อมูลในหลายมิติความถี่หรือตารางฉุกเฉิน. ในส่วนที่สองผมจะสรุปการพัฒนาทฤษฎีและพูดคุยเกี่ยวกับคุณสมบัติมากมายร่วมกันหลายตัวแปรข้อมูล ส่วนที่สามจะช่วยให้รู้เบื้องต้นเกี่ยวกับการวิเคราะห์ความสัมพันธ์หลายตัวแปรรวม สมมติฐาน asymptotic การทดสอบจะกล่าวถึงในส่วนที่สี่ของรายงานฉบับนี้ การใช้งานบางส่วนของข้อมูลร่วมกันหลายตัวแปรที่กล่าวถึงในส่วนวีมาตรา VI สรุปรายงาน มาตราปกเกล้าเจ้าอยู่หัวแสดงอ้างอิงสำคัญที่ใช้. ครั้งที่สอง การพัฒนาทฤษฎีพิจารณาการป้อนข้อมูลเดียวช่องทางเดียวส่งออกที่มีการป้อนข้อมูลที่ไม่ต่อเนื่อง X และ Y เอาท์พุทที่มีการแจกแจงความน่า PX (x) และ pY (y) ตามลำดับ จำนวนเงินของการส่งผ่านระหว่าง X และ Y ที่ถูกกำหนดไว้ในเงื่อนไขของแต่ละentropies และร่วมเป็นI (x; Y) = H (X) + H (Y) - H (X, Y) (1) ที่เอนโทรปี (จาก X ในกรณีนี้) จะได้รับจากH (X) = - X x∈χ PX (x) เข้าสู่ระบบ (PX (x)) พิจารณาในขณะนี้ช่องทางที่มีสองปัจจัยการผลิต U, V และเอาท์พุทเดียว Y นี้เป็นที่รู้จักกันทั่วไปว่าเป็นสองทางช่อง ข้อมูลร่วมกันระหว่างปัจจัยการผลิตและการส่งออกของช่องสองทางเป็นลายลักษณ์อักษร (เป็นส่วนขยาย(1)) เป็นผม(U, V; Y) = H (U, V) + H (Y) - H ( U, V, Y) (2) การเปิดตัว V อาจมีผลต่อความสัมพันธ์ระหว่าง U และ y ในหลายวิธี เพื่อศึกษาผลกระทบการเปิดตัวของวีได้ในการป้อนข้อมูลเดียวช่องทางเดียวส่งออกที่เราจะต้องลดสามมิติข้อมูลไปยังสองมิติ วิธีการหนึ่งที่จะยกเลิกผลของ V คือโดยการลดสามสมมิติสองตัวแปรและการเขียนผม(U; Y) = H (U) + H (Y) - H (U, Y) (3) 2 อีกวิธีหนึ่งในการ ซึ่ง V จะถูกกำจัดโดยการเป็นน้ำหนักรวม (บนความน่าจะเป็นของการเกิดว่าค่าเฉพาะของV) ของข้อมูลร่วมกันระหว่าง U Y และมูลค่าของแต่ละ V. IV (U; Y) = X v∈θ pV (V) ฉัน (U; Y | V = V) = ฉัน (U; Y | V) = ฉัน (U, V; Y) - ฉัน (V; Y) =? H (U, V) + H (Y ) - H (U, V, Y)? -? H (V) + H (Y) - H (V, Y)? = H (U, V) - H (U, V, Y) - H (V ) + H (V, Y) (4) ถ้า V ไม่มีผลกระทบต่อการส่งผ่านระหว่าง U และ y ผม (U; Y) = IV (U; Y) และการวิเคราะห์ลดที่สำหรับการป้อนข้อมูลเดียวเดียว. -output ช่องทางในกรณีทั่วไปแต่ความแตกต่างระหว่างทั้งสองจะได้รับจากฉัน (U; Y) - IV (U; Y) = H (U) + H (V) + H (Y) - (H ( U, V) + H (V, Y) + H (U, Y)) + H (U, V, Y) (5) กิล [1] กำหนดในระยะนี้เป็นปฏิสัมพันธ์ร่วมกันระหว่างสามตัวแปร U, V และ Y และจะแสดงเป็นผม(U; v; Y). การวิเคราะห์ข้างต้นสันนิษฐานว่าการกระจาย (ในความน่าจะเป็น) ของปัจจัยการผลิตและการส่งออกเป็นที่รู้จักกัน ในกรณีที่ค่าที่แน่นอนของการแจกแจงความน่าจะไม่รู้จักกันเราสามารถใช้ค่าเชิงประจักษ์ของเอนโทรปี. การวิเคราะห์ข้อมูลหลายตัวแปรสามารถขยาย analogously ตัวแปรอย่างต่อเนื่องกระจายเช่นกัน. เอ ส่วนขยายไปยังตัวแปรหลายมิติความหมายของข้อมูลร่วมกันได้รับการขยายไปยังกรณีทั่วไป (มากกว่าสามตัวแปร) โดยโน่ [2] และอีกสูตรในกรอบตาข่ายทฤษฎีโดยฮัน [3] แม้ว่าแต่ละคนได้นำวิธีการที่แตกต่างกันและการแสดงออกที่มีในแง่ของหน่วยงานต่าง ๆ (รายละเอียดร่วมกันในกรณีหนึ่งและ entropies ในอื่น ๆ ) พวกเขาได้ง่ายจะเหมือนกัน. โน่ [2] คำนวณข้อมูลร่วมกันระหว่างจำนวนข้อของ เหตุการณ์ที่เกิดขึ้นเป็นส่วนขยายไปยัง bivariate กรณีดังต่อไปนี้. ฉัน (X1; X2) = H (X1) - H (X1 | X2) = ฉัน (X1) - ฉัน (X1 | X2) (6) ความเสมอภาคที่สองคือการอำนวยความสะดวก ใช้มาตั้งแต่เอนโทรปีของตัวแปรเป็นข้อมูลที่ตัวเองของ. ขยายไปยังชุดผลิตภัณฑ์สามฉัน (X1; X2; X3) = ฉัน (X1; X2) - ฉัน (X1; X2 | X3) (7) Generalizing ตัวแปร N, I = ฉัน - ฉัน (X1; X2; XN...) (X1; X2; XN-1...) (X1; X2;... XN-1 | XN) (8) ขณะที่ด้านข้าง -equation ข้อมูลตนเองของชุด N-ผลิตภัณฑ์ที่สามารถขยายออกไปในแง่ของข้อมูลร่วมกันระหว่างส่วนประกอบของแต่ละบุคคลเป็นผม(X1X2 XN...) = จิน (จิน) - จิน (Xi; Xj) + . . . . . - (1) n (... X1; X2; XN) ฉัน (9) 3. โดย summations จะถูกนำมารวมกันทั้งหมดของห้อยฮัน[3] นำแนวคิดของผู้ประกอบการที่แตกต่างกันในการอธิบายถึงการมีปฏิสัมพันธ์ในหลายข้อมูลที่ความถี่หรือตารางผูกพัน ตามเขา N-ข้อมูล (IN) คือความแตกต่างของฟังก์ชั่นเอนโทรปีและจะได้รับโดยใน(X1; X2;...; XN) = X ไม่มีk = 1 (-1) k-1 X X⊂ (X1, X2, ... , XN) | X | k = H (X) (10) ขยายออกใน (X1; X2; XN...) = (H (X1) + H (X2). . + H (XN)) - . . + . . (- 1) N-1H (... X1, X2, XN) (11) บี คุณสมบัติของหลายตัวแปรข้อมูลร่วมกัน•มีการกำหนดข้อมูลร่วมกันหลายตัวแปรเราจะพยายามที่จะให้ความหมายที่ใช้งานง่ายไป ก็สามารถที่จะตีความว่าเป็นกำไร (หรือขาดทุน) ในข้อมูลที่ส่งระหว่างชุดของตัวแปรเนื่องจากเพิ่มเติมความรู้เกี่ยวกับตัวแปรพิเศษ ในคำอื่น ๆ ที่เราสามารถคิดในการลดการพึ่งพา. ใน (XN) = IN-1 (XN-1) - IN-1 (XN-1 | XN) (12) ที่ Xk = (X1; X2; .. Xk) •บันทึกที่น่าแปลกใจที่จะทำให้เป็นว่าตรงกันข้ามกับ bivariate ข้อมูลซึ่งมักจะเป็นในเชิงบวกหลายตัวแปรข้อมูลร่วมกันสามารถเป็นได้ทั้งบวกหรือลบ นี้จะเห็นจะเป็นไปได้เนื่องจากผลกระทบของการถือเป็นหนึ่งในตัวแปรที่อาจเพิ่มขึ้นหรือลดการพึ่งพาอาศัยกันระหว่างคนอื่น ๆ เป็นกรณีที่น่ารำคาญพิจารณาสถานการณ์ในผลิตภัณฑ์ trivariate ที่ตัวแปร U และ Y มีความเป็นอิสระเมื่อ V ไม่เป็นที่รู้จัก แต่กลายเป็นขึ้นอยู่กับการได้รับV สำหรับกรณีนี้ผม (U; v; Y) เป็นลบอย่างชัดเจน ฮัน [3] ได้แสดงให้เห็นว่าข้อมูลร่วมกันสำหรับตัวแปรหลายตัวแปรไม่จำเป็นต้องเป็นบวกเสมอด้วยขยายในแง่ของค่าพารามิเตอร์ของความน่าจะขึ้นอยู่กับคำสั่งที่สอง. •จากการขยายตัวของฮันสำหรับ N-ข้อมูล (11) มันเป็นตรงไปตรงมา ทราบว่าร่วมกันหลายตัวแปรข้อมูลที่สมบูรณ์แบบสมมาตรที่เกี่ยวกับส่วนประกอบของ ดังนั้น N-ข้อมูลสามารถเขียนออกมาในรูปแบบที่เป็นไปได้ไม่มี. •มันเป็นเรื่องง่ายที่จะเห็นว่าการวิเคราะห์หลายตัวแปรที่แม่นยำมากขึ้นเมื่อเทียบกับกรณี bivariate ในฐานะที่เป็นตัวอย่างเช่นพิจารณาส่ง (U, V) → Y ในการวิเคราะห์ข้อมูล bivariate เราจะมีH (Y) = HU (Y) + I (U; Y) (13) ที่ H (Y) สามารถตีความได้ว่าความไม่แน่นอนในการส่งออกและ HU (Y) เป็นส่วนที่เหลือ ความไม่แน่นอนในการส่งออกหลังจากที่ข้อมูลที่เกิดจากการป้อนข้อมูลU จะคิดเป็น การทำงานในสายที่คล้ายกันสำหรับการวิเคราะห์ trivariate, เราจบลงด้วยH (Y) = HUV (Y) + I (U, V; Y) (14) ที่นี่ HUV (Y) เป็นความไม่แน่นอนที่เหลือซึ่งสิ้นสุดขึ้นเป็นข้อผิดพลาด ระยะ ตั้งแต่เครื่องลดลงเอนโทรปีการวิเคราะห์ข้อผิดพลาดจะลดลงสำหรับการวิเคราะห์ trivariate มากกว่าหนึ่ง bivariate ในฐานะที่เป็นมิติที่ 4 ของการเพิ่มขึ้นของระบบเราจบลงด้วยการประมาณการที่ดีขึ้นของข้อมูลเสียงและด้วยเหตุนี้ได้รับที่ดีกว่าการส่งโดยรวม สำหรับระบบ N-มิติที่มีปัจจัยการผลิต (X1, X2, XN...) และเอาท์พุท Y, H (Y) = HX1X2 ... XN (Y) + I (X1, X2, XN;... Y ) (15) ถูกนำมาใช้ในการวิเคราะห์การส่งข้อมูลแบบหลายตัวแปร. •คุณสมบัติที่สำคัญมากสำหรับปริมาณข้อมูลหลายตัวแปรเป็นแนวคิดของกึ่งอิสระ ข้อมูลร่วมกัน bivariate มีค่าเท่ากับศูนย์ถ้าตัวแปรทั้งสองมีความเป็นอิสระ สำหรับหลายมิติตัวแปร แต่เป็นอิสระไม่ได้เป็นเงื่อนไขที่จำเป็นสำหรับการติดต่อไม่มีหลายตัวแปร ฮัน [3] กล่าวถึงแนวคิดของกึ่งอิสระเป็นส่วนขยายชัดเจนของความเป็นอิสระ. ให้α∈ X จะเป็นส่วนหนึ่งของเวกเตอร์สุ่ม N-มิติเอ็กซ์ให้อาร์ (α) กำหนดเป็นจำนวนขององค์ประกอบของX ที่ เซตα เราเรียกการกระจายกึ่งอิสระ (ที่เกี่ยวกับอัลฟ่า) ถ้าπα≡ X φ≤γ≤α (-1) อาร์ (α) -r (γ) P r0 {α∩แกมมา} P {R} γ = 0 (16) ที่ P r0 {.} หมายถึงการกระจายอิสระและด้วยเหตุนี้สามารถขยายได้เป็นผลิตภัณฑ์ของมาร์จิน 'a ความน่าจะเป็น. สำหรับกรณี bivariate ไม่น่าแปลกใจกึ่งอิสระเป็นหลักนำไปสู่ความเป็นอิสระ นี้ไม่ได้เป็นกรณีทั่วไปสำหรับการสั่งซื้อที่สูงขึ้น เป็นภาพสมกึ่งอิสระสำหรับผลิตภัณฑ์ trivariate (πX1∩X2∩X3 = 0) ลดไป0 = P อายูวี {Y} - P r0 {U} P {R} VY - P r0 {V} P อา {UY} - P r0 {Y} P อา {ยูวี} + P r0 {ยูวี} P อา {Y} + P r0 {VY} P อา {U} + P r0 {VU} P อา {Y} - P r0 {ยูวี Y} (17) นี้ในการเปิดแสดงถึงพีอาร์ {ยูวี Y} = P อา {U} P อา {VY} + P อา {V} P อา {UY} + P อา {Y} P อา { รังสียูวี} - 2P อา {U} P {อาร์วีพีอาร์} {Y} (18) โปรดทราบว่านี้มีมากดีกว่า "ธรรมดา" สภาพความเป็นอิสระ Infact อิสระอาจจะคิดว่าเป็นกรณีคอมโพสิตกึ่งอิสระ เพื่อเอกราช (16) ควรถือทั้งหมด (α∈ X กับอาร์ (α) ≥ 2). •ความ recursive (19) และผูกมัด (20) คุณสมบัติถือสำหรับข้อมูลร่วมกันหลายตัวแปร [5] พวกเขาสามารถที่ระบุไว้ตามลำดับดังต่อไปนี้ พิสูจน์ตามทันทีในด้านการขยายตัวทั้งในแง่ของฟังก์ชั่นเอนโทรปี. ใน ((X1, X2); X3; XN | X0...) = ใน
การแปล กรุณารอสักครู่..

การทบทวนข้อมูล
ร่วมกันหลายตัวแปร Sunil ศรีนิวาสะ
มหาวิทยาลัยเดม
โดยปกติฉันแนะนำ ข้อมูล ร่วมกันกำหนดและศึกษาระหว่างสองตัวแปร แม้ว่าวิธีการประเมินโดยใช้ข้อมูลซึ่งกันและกัน
จะดีขึ้น ปัญหาต่าง ๆในทฤษฎีข้อมูลผู้ใช้หลายคนต้องการ
ความรู้ปฏิสัมพันธ์ระหว่างตัวแปรมากกว่าสองเนื่องจากมีการพึ่งพาระหว่างตัวแปรเรา
ไม่สามารถถอดรหัสความสัมพันธ์ของพวกเขาโดยไม่พิจารณาทั้งหมดของพวกเขาในครั้งเดียว มีงานวิจัยในการวิเคราะห์ informationtheoretic
ของปฏิสัมพันธ์ระหว่างตัวแปรมากกว่าสอง ( หรือในคำอื่น ๆหลายตัวแปรร่วมกัน
ข้อมูล ) คือก่อนเรียน [ 1 ] .
ถ้าแหล่งที่มาหลายส่งข้อมูลไปยังเครื่องรับการถดถอยแบบแน่นอนล้มเหลวที่จะผล
เนื่องจากแหล่งไม่มีการควบคุมจากเนื่องจากการสุ่มโดยไม่เลือกปฏิบัติ เราไม่ควรสับสนระหว่างความบกพร่องเนื่องจาก
ระบบเสียงกับการขาดของความรู้เกี่ยวกับความสัมพันธ์ระหว่างปัจจัยการผลิต นอกจากนี้ ในสถานการณ์ที่เป็นจริง
เราไม่ทราบล่วงหน้าว่ามีกี่แหล่งส่งข้อมูลโดยการใช้แบบจำลองแบบ
เราสามารถวัดได้อย่างมีประสิทธิภาพผลเนื่องจากการต่างๆส่งแหล่ง มันมีวิธีการที่ง่ายสำหรับการประเมินและทดสอบ
การอ้างอิงข้อมูลในความถี่หลายมิติหรือตารางการณ์จร .
ในส่วนที่ 2 ผมจะสรุปพัฒนาการของทฤษฎีและพูดคุยเกี่ยวกับจำนวนมากคุณสมบัติของตัวแปรหลายตัวร่วมกัน
รายละเอียด .มาตรา 3 ให้ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ความสัมพันธ์หลายตัวแปรทั้งหมด การทดสอบสมมติฐาน
เฉลี่ยที่กล่าวถึงในส่วนที่ 4 ของรายงานนี้ บางโปรแกรม ข้อมูล ร่วมกันหลายตัวแปรที่กล่าวถึงในมาตรา 5 มาตรา 6
สรุปรายงาน มาตรา 7 รายการ คีย์ใช้อ้างอิง .
2 พัฒนาการของทฤษฎี
พิจารณาออกเดี่ยวเดี่ยวเข้าช่องที่มีต่อเนื่องและผลผลิตใส่ X Y กับการแจกแจงความน่าจะเป็น
px ( x ) และ py ( Y ) ตามลำดับ ปริมาณการส่งผ่านระหว่าง x และ y ที่กำหนดไว้ในแง่ของบุคคลและร่วมเป็น entropies
ฉัน ( X ; Y ) = h ( x ) H ( Y ) − H ( X , Y ) ( 1 )
ที่เอนโทรปี ( x ) ในกรณีนี้จะได้รับโดย
H ( X ) = −
x
x ∈χ
px ( x ) log ( PX ( x )
พิจารณาตอนนี้ช่องสองปัจจัยการผลิต U , V และ output เดียว y นี้เป็นที่รู้จักกันโดยทั่วไปเป็นช่องทางสองทาง
ข้อมูลซึ่งกันและกันระหว่างอินพุตและเอาต์พุตของช่องสองทางคือเขียน ( เป็นส่วนขยาย
( 1 ) )
( u , v ; Y ) = H ( u , v ) H ( Y ) − H ( u , v , y ) ( 2 )
V อาจจะแนะนำ ส่งผลกระทบต่อความสัมพันธ์ระหว่างคุณและ Y ได้หลายวิธี เพื่อศึกษาผล
การแนะนำของ V ต่อเข้าเดี่ยวออกเดี่ยว ช่อง เราจะต้องลดข้อมูลสามมิติ
สองมิติ วิธีหนึ่งในการยกเลิกผลของวีโดยการลด 3 มิติสมการสองตัวแปรและเขียน
i ( U ; Y ) = h ( U ) H ( Y ) − H ( u , Y )
2
( 3 )อีกวิธีที่ 5 อาจตกรอบ โดยการใช้ผลรวมถ่วงน้ำหนัก ( โอกาสเกิด
ที่ค่าเฉพาะของ V ) ของข้อมูลซึ่งกันและกันระหว่างคุณและ Y สำหรับแต่ละค่าของ V .
4 ( u ; y ) = x
v
∈ϑ PV ( V ) i ( U ; Y | V = V = I ( u ; Y | V )
= I ( u , v ; Y ) − ( V ; Y )
=
H ( u , v ) H ( Y ) − H ( u , v , y )
H ( − V ) H ( Y ) − H ( V , Y )
= H ( u , v ) − H ( u , v , y − H ( V ) H ( V ,Y ) ( 4 )
ถ้าวีไม่มีผลต่อการสื่อสารระหว่างคุณและ y I ( u ; y ) = 4 ( U ; Y ) และการวิเคราะห์ลดที่
สำหรับเดี่ยวเข้าออกเดี่ยวช่อง .
ในกรณีทั่วไป อย่างไรก็ตาม ความแตกต่างระหว่างสองคือให้โดย
ฉัน ( U ; Y ) − 4 ( U ; Y ) = h ( U ) H ( V ) H ( Y ) − ( H ( u , v ) H ( V , Y ) H ( U , Y ) H ( u , v , y )
( 5 )กิล [ 1 ] กำหนดระยะเวลานี้เป็นปฏิสัมพันธ์ซึ่งกันและกันระหว่าง ตัวแปรทั้งสาม u , V และ Y และเขียนเป็น I ( u ;
v ; Y )
การวิเคราะห์ข้างต้นถือว่าการแจกแจง ( ทฤษฎีความน่าจะเป็น ) ของปัจจัยการผลิตและผลผลิตเป็นที่รู้จักกัน ใน
ในกรณีที่ค่าที่แน่นอนของการแจกแจงความน่าจะเป็นที่ไม่รู้จัก เราสามารถใช้ค่าเชิงประจักษ์ของเอนโทรปี .
การวิเคราะห์ข้อมูลหลายตัวแปรสามารถ analogously ขยายกระจายอย่างต่อเนื่องตัวแปรเช่นกัน
.
) กับตัวแปรหลายมิติ ความหมายของสารสนเทศซึ่งกันและกันได้ขยายไปยังกรณีทั่วไป ( มากกว่าสามตัวแปร ) โดย Fano
[ 2 ] และยุทธศาสตร์ในกรอบทฤษฎีแลตทิซฮัน [ 3 ] ถึงแม้ว่าแต่ละถ่าย
วิธีที่แตกต่างกันและการแสดงออกในแง่ของหน่วยงานต่าง ๆ ( รายละเอียดร่วมกันในหนึ่งกรณี และ entropies ในอื่น ๆ ) ,
พวกเขาสามารถประยุกต์เป็นเดียวกัน .
ฟาโน [ 2 ] . ข้อมูลซึ่งกันและกันระหว่างหมายเลขโดยพลการของเหตุการณ์เป็นส่วนขยายไปยังเทียบ
กรณีดังนี้ .
ผม ( x1 ; X2 ) = h ( X1 ) − h ( X1 X2 | )
= ฉัน ( x1 ) − ( X1 X2
| ) ( 6 )
การแปล กรุณารอสักครู่..
