The two assumptions we need about t

The two assumptions we need about the cost function

The goal of backpropagation is to compute the partial derivatives ∂C/∂w∂C/∂w and ∂C/∂b∂C/∂b of the cost function CC with respect to any weight ww or bias bb in the network. For backpropagation to work we need to make two main assumptions about the form of the cost function. Before stating those assumptions, though, it's useful to have an example cost function in mind. We'll use the quadratic cost function from last chapter (c.f. Equation (6)). In the notation of the last section, the quadratic cost has the form
C=12n∑x∥y(x)−aL(x)∥2,(26)
(26)C=12n∑x‖y(x)−aL(x)‖2,
where: nn is the total number of training examples; the sum is over individual training examples, xx; y=y(x)y=y(x) is the corresponding desired output; LL denotes the number of layers in the network; and aL=aL(x)aL=aL(x) is the vector of activations output from the network when xx is input.

Okay, so what assumptions do we need to make about our cost function, CC, in order that backpropagation can be applied? The first assumption we need is that the cost function can be written as an average C=1n∑xCxC=1n∑xCx over cost functions CxCx for individual training examples, xx. This is the case for the quadratic cost function, where the cost for a single training example is Cx=12∥y−aL∥2Cx=12‖y−aL‖2. This assumption will also hold true for all the other cost functions we'll meet in this book.

The reason we need this assumption is because what backpropagation actually lets us do is compute the partial derivatives ∂Cx/∂w∂Cx/∂w and ∂Cx/∂b∂Cx/∂b for a single training example. We then recover ∂C/∂w∂C/∂w and ∂C/∂b∂C/∂b by averaging over training examples. In fact, with this assumption in mind, we'll suppose the training example xx has been fixed, and drop the xx subscript, writing the cost CxCx as CC. We'll eventually put the xx back in, but for now it's a notational nuisance that is better left implicit.

The second assumption we make about the cost is that it can be written as a function of the outputs from the neural network:

For example, the quadratic cost function satisfies this requirement, since the quadratic cost for a single training example xx may be written as
C=12∥y−aL∥2=12∑j(yj−aLj)2,(27)
(27)C=12‖y−aL‖2=12∑j(yj−ajL)2,
and thus is a function of the output activations. Of course, this cost function also depends on the desired output yy, and you may wonder why we're not regarding the cost also as a function of yy. Remember, though, that the input training example xx is fixed, and so the output yy is also a fixed parameter. In particular, it's not something we can modify by changing the weights and biases in any way, i.e., it's not something which the neural network learns. And so it makes sense to regard CC as a function of the output activations aLaL alone, with yy merely a parameter that helps define that function.

The two assumptions we need about the cost function

The goal of backpropagation is to compute the partial derivatives ∂C/∂w∂C/∂w and ∂C/∂b∂C/∂b of the cost function CC with respect to any weight ww or bias bb in the network. For backpropagation to work we need to make two main assumptions about the form of the cost function. Before stating those assumptions, though, it's useful to have an example cost function in mind. We'll use the quadratic cost function from last chapter (c.f. Equation (6)). In the notation of the last section, the quadratic cost has the form
C=12n∑x∥y(x)−aL(x)∥2,(26)
(26)C=12n∑x‖y(x)−aL(x)‖2,
where: nn is the total number of training examples; the sum is over individual training examples, xx; y=y(x)y=y(x) is the corresponding desired output; LL denotes the number of layers in the network; and aL=aL(x)aL=aL(x) is the vector of activations output from the network when xx is input.

Okay, so what assumptions do we need to make about our cost function, CC, in order that backpropagation can be applied? The first assumption we need is that the cost function can be written as an average C=1n∑xCxC=1n∑xCx over cost functions CxCx for individual training examples, xx. This is the case for the quadratic cost function, where the cost for a single training example is Cx=12∥y−aL∥2Cx=12‖y−aL‖2. This assumption will also hold true for all the other cost functions we'll meet in this book.

The reason we need this assumption is because what backpropagation actually lets us do is compute the partial derivatives ∂Cx/∂w∂Cx/∂w and ∂Cx/∂b∂Cx/∂b for a single training example. We then recover ∂C/∂w∂C/∂w and ∂C/∂b∂C/∂b by averaging over training examples. In fact, with this assumption in mind, we'll suppose the training example xx has been fixed, and drop the xx subscript, writing the cost CxCx as CC. We'll eventually put the xx back in, but for now it's a notational nuisance that is better left implicit.

The second assumption we make about the cost is that it can be written as a function of the outputs from the neural network:

For example, the quadratic cost function satisfies this requirement, since the quadratic cost for a single training example xx may be written as
C=12∥y−aL∥2=12∑j(yj−aLj)2,(27)
(27)C=12‖y−aL‖2=12∑j(yj−ajL)2,
and thus is a function of the output activations. Of course, this cost function also depends on the desired output yy, and you may wonder why we're not regarding the cost also as a function of yy. Remember, though, that the input training example xx is fixed, and so the output yy is also a fixed parameter. In particular, it's not something we can modify by changing the weights and biases in any way, i.e., it's not something which the neural network learns. And so it makes sense to regard CC as a function of the output activations aLaL alone, with yy merely a parameter that helps define that function.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สมมติฐานที่สองเราต้องเกี่ยวกับฟังก์ชันต้นทุนเป้าหมายของ backpropagation คือการ คำนวณอนุพันธ์บางส่วน ∂C/∂w∂C/∂w และ ∂C/∂b∂C/∂b ของฟังก์ชันต้นทุน CC เกี่ยวกับใด ๆ น้ำหนัก ww หรืออคติ bb ในเครือข่าย สำหรับ backpropagation การทำงานเราต้องทำสองหลักสมมติฐานเกี่ยวกับรูปแบบของฟังก์ชันต้นทุน ก่อนระบุสมมติฐานเหล่านั้น แม้ว่า มันเป็นประโยชน์ที่จะมีตัวอย่างฟังก์ชันต้นทุนในใจ เราจะใช้กำลังสองค่าฟังก์ชันจากบทสุดท้าย (สาวกตัวสมการ (6)) สัญลักษณ์ของส่วน ต้นทุนกำลังสองมีแบบฟอร์มC=12n∑x∥y(x)−aL(x)∥2,(26)(26) C = 12n∑x‖y (x)−aL (x)‖2ที่: nn คือ จำนวนรวมของการฝึกอบรมตัวอย่าง ผลคือผ่านการฝึกอบรมตัวอย่าง xx y=y(x)y=y(x) คือตัวที่สอดคล้องกันที่ต้องการ จะแสดงหมายเลขของชั้นในเครือข่าย และ aL=aL(x)aL=aL(x) เป็นเวกเตอร์ของการส่งออกเปิดใช้งานจากเครือข่ายเมื่อ xx คืออินพุตเอาล่ะ ดังนั้นสมมติฐานทำอะไร เราต้องทำเกี่ยวกับฟังก์ชันต้นทุนของเรา CC ที่สามารถใช้ได้ backpropagation สมมติฐานแรกที่เราต้องคือ ว่า สามารถเขียนฟังก์ชันต้นทุนเป็นการเฉลี่ย C = 1n∑xCxC = 1n∑xCx มากกว่าค่าฟังก์ชัน CxCx สำหรับการฝึกอบรมตัวอย่าง xx เป็นกรณีนี้สำหรับต้นทุนกำลังสองการทำงาน ที่เป็นต้นทุนสำหรับตัวอย่างการฝึกเดียว Cx = 12∥y−aL∥2Cx = 12‖y−aL‖2 สมมติฐานนี้จะถือเป็นจริงสำหรับการฟังก์ชันต้นทุนอื่น ๆ ทั้งหมดเราจะพบในหนังสือเล่มนี้เหตุผลที่เราต้องสมมติฐานนี้เป็น เพราะอะไร backpropagation จริงช่วยให้เราทำเป็นคำนวณอนุพันธ์บางส่วน ∂Cx/∂w∂Cx/∂w และ ∂Cx/∂b∂Cx/∂b สำหรับตัวอย่างการฝึกเดียว แล้วกู้ ∂C/∂w∂C/∂w และ ∂C/∂b∂C/∂b โดยเฉลี่ยผ่านการฝึกอบรมอย่าง ในความเป็นจริง มีสมมติฐานในใจนี้ เราจะสมมติว่า xx ตัวอย่างการฝึกอบรมได้รับการแก้ไข และปล่อยตัวห้อย xx เขียนต้นทุน CxCx เป็นซีซี เราจะก็กลับ xx ใน แต่สำหรับตอนนี้ก็รำคาญ notational ที่ดีกว่าเหลือนัยเราทำเกี่ยวกับค่าสมมติฐานสองคือ ว่า มันสามารถเขียนเป็นฟังก์ชันของผลจากเครือข่ายของระบบประสาท:เช่น ฟังก์ชั่นต้นทุนกำลังสองตอบสนองความต้องการนี้ เนื่องจากค่าใช้จ่ายกำลังสอง xx เป็นอย่างเดียวฝึกอาจเขียนเป็นC=12∥y−aL∥2=12∑j(yj−aLj)2,(27)(27) C = 12‖y−aL‖2 = 12∑j (yj−ajL) 2และดังนั้น เป็นฟังก์ชันของการเปิดใช้งานผลลัพธ์ แน่นอน ฟังก์ชันต้นทุนนี้ยังขึ้นอยู่กับ yy ผลลัพธ์ที่ต้องการ และคุณอาจสงสัยว่า ทำไมเราจะไม่เกี่ยวกับค่าใช้จ่ายยังเป็นฟังก์ชันของปป จำไว้ แม้ว่า ว่า xx ตัวอย่างการป้อนข้อมูลการฝึกอบรมได้รับการแก้ไข และ yy ผลลัพธ์จึงยังพารามิเตอร์ถาวร โดยเฉพาะอย่างยิ่ง มันไม่ได้เป็นสิ่งที่เราสามารถปรับเปลี่ยน โดยการเปลี่ยนน้ำหนักและอคติในทางใดทางหนึ่ง เช่น มันไม่ได้เป็นสิ่งที่เรียนรู้เครือข่ายระบบประสาท และดังนั้น มันทำให้รู้สึกเรื่อง CC เป็นฟังก์ชันของการเปิดใช้งานผลลัพธ์ aLaL เพียงอย่างเดียว กับ yy เพียงพารามิเตอร์ที่ช่วยในการกำหนดที่ทำงาน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ทั้งสองสมมติฐานที่เราจำเป็นต้องเกี่ยวกับฟังก์ชั่นค่าใช้จ่ายใน

เป้าหมายของการแพร่กระจายย้อนกลับคือการคำนวณอนุพันธ์ย่อย∂C / ∂w∂C / ∂wและ∂C / ∂b∂C / ∂bของ CC ฟังก์ชั่นค่าใช้จ่ายที่เกี่ยวกับน้ำหนักใด ๆ WW หรืออคติ BB ในเครือข่าย สำหรับการแพร่กระจายย้อนกลับในการทำงานเราต้องทำให้สองสมมติฐานหลักเกี่ยวกับรูปแบบของฟังก์ชั่นค่าใช้จ่าย ก่อนที่จะระบุสมมติฐานเหล่านั้น แต่ก็มีประโยชน์ที่จะมีฟังก์ชั่นค่าใช้จ่ายตัวอย่างเช่นในใจ เราจะใช้ฟังก์ชั่นค่าใช้จ่ายจากการกำลังสองบทสุดท้าย (CF สมการ (6)) ในสัญกรณ์ในส่วนที่ผ่านมาค่าใช้จ่ายกำลังสองมีรูปแบบ
c = 12nΣx∥y (x) -al (x) ∥2, (26)
(26) C = 12nΣx‖y (x) -al (x) ‖2,
อยู่ที่ไหน: NN คือจำนวนตัวอย่างการฝึกอบรม รวมเป็นมากกว่าตัวอย่างการฝึกอบรมแต่ละ xx; Y = Y (x) y = Y (x) คือผลลัพธ์ที่สอดคล้องต้องการ; LL หมายถึงจำนวนชั้นในเครือข่าย; และอัล = แอละแบมา (x) = aL แอละแบมา (x) เป็นเวกเตอร์ของการส่งออกเปิดใช้งานจากเครือข่ายเมื่อ xx คือการป้อนข้อมูล

เอาล่ะเพื่อให้สมมติฐานอะไรเราต้องทำเกี่ยวกับฟังก์ชั่นค่าใช้จ่ายของเรา CC ในลำดับที่แพร่กระจายย้อนกลับสามารถนำมาใช้? สมมติฐานแรกที่เราต้องคือฟังก์ชั่นค่าใช้จ่ายที่สามารถเขียนเป็น C พอดี = = 1nΣxCxC1nΣxCxมากกว่าฟังก์ชั่นค่าใช้จ่าย CxCx ตัวอย่างการฝึกอบรมแต่ละ xx เป็นกรณีนี้สำหรับฟังก์ชั่นค่าใช้จ่ายกำลังสองที่ค่าใช้จ่ายสำหรับการฝึกอบรมเช่นเดียวคือ Cx = 12∥y-aL∥2Cx = 12‖y-aL‖2 สมมติฐานนี้จะถือเป็นจริงสำหรับทุกฟังก์ชั่นค่าใช้จ่ายอื่น ๆ ที่เราจะได้พบเจอในหนังสือเล่มนี้

เหตุผลที่เราต้องสมมติฐานนี้เป็นเพราะสิ่งที่แพร่กระจายย้อนกลับจริงช่วยให้เราทำคือการคำนวณอนุพันธ์ย่อย∂Cx / ∂w∂Cx / ∂wและ∂Cx / ∂b∂Cx / ∂bสำหรับการฝึกอบรมเช่นเดียว จากนั้นเราจะกู้คืน∂C / ∂w∂C / ∂wและ∂C / ∂b∂C / ∂bโดยเฉลี่ยมากกว่าตัวอย่างการฝึกอบรม ในความเป็นจริงด้วยสมมติฐานนี้ในใจเราจะสมมติว่า XX ตัวอย่างเช่นการฝึกอบรมได้รับการแก้ไขและวางห้อยที่ XX, เขียน CxCx ค่าใช้จ่ายเป็น CC ในที่สุดเราจะใส่ XX กลับมาใน แต่ตอนนี้มันเป็นความรำคาญสัญลักษณ์ที่เป็นนัยซ้ายที่ดีกว่า

สมมติฐานที่สองที่เราทำเกี่ยวกับค่าใช้จ่ายก็คือว่ามันสามารถเขียนเป็นฟังก์ชั่นของผลจากเครือข่ายประสาท A:

ตัวอย่างเช่นค่าใช้จ่ายกำลังสองตอบสนองฟังก์ชั่นความต้องการนี้เนื่องจากค่าใช้จ่ายกำลังสองสำหรับตัวอย่างการฝึกอบรม xx เดียวอาจจะเขียนเป็น
C = 12∥y-aL∥2 = 12Σj (YJ-ALJ) 2 (27)
(27) C = 12‖y-aL‖2 = 12Σj (YJ-AJL) 2
และทำให้เป็น ฟังก์ชั่นของการเปิดใช้งานการส่งออก แน่นอนว่าฟังก์ชั่นค่าใช้จ่ายนี้ยังขึ้นอยู่กับ yy ที่ต้องการออกและคุณอาจสงสัยว่าทำไมเราไม่ได้เกี่ยวกับค่าใช้จ่ายนอกจากนี้ยังเป็นหน้าที่ของ yy จำได้ว่าการป้อนข้อมูลการฝึกอบรมเช่น XX ได้รับการแก้ไขและเพื่อ yy การส่งออกยังเป็นพารามิเตอร์ที่คงที่ โดยเฉพาะอย่างยิ่งมันเป็นสิ่งที่เราไม่สามารถแก้ไขได้โดยการเปลี่ยนน้ำหนักและอคติในทางใด ๆ คือมันไม่ใช่สิ่งที่เรียนรู้เครือข่ายประสาท และดังนั้นจึงทำให้ความรู้สึกที่ถือว่า CC เป็นหน้าที่ของการเปิดใช้งานการส่งออก Alal คนเดียวกับ yy เพียงพารามิเตอร์ที่จะช่วยกำหนดฟังก์ชั่นที่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

2 สมมติฐานที่เราต้องการ เกี่ยวกับฟังก์ชันต้นทุนเป้าหมายของแบบจะหาอนุพันธ์ย่อย∂ C / ∂ W ∂ C / ∂ W และ∂ C / ∂ B ∂ C / ∂ B ของฟังก์ชันต้นทุน cc ด้วยความเคารพใด ๆน้ำหนัก WW หรือ BB อคติในเครือข่าย สำหรับแบบทำงานเราต้องให้สองสมมติฐานหลักเกี่ยวกับรูปแบบของฟังก์ชันต้นทุน ก่อนที่จะระบุสมมติฐานเหล่านั้น แม้ว่ามันจะมีประโยชน์ที่จะมีตัวอย่างฟังก์ชันต้นทุนในจิตใจ เราจะใช้ฟังก์ชันต้นทุนกำลังสองจากบทสุดท้าย ( สมการซี. เอฟ ( 6 ) ในบันทึกของส่วนสุดท้าย ต้นทุนมีรูปแบบกำลังสองC = 12n ∑ x ∥ Y ( x ) บริษัท เวสเทิร์น อัล ( X ) ∥ 2 ( 26 )( 26 ) C = 12n ∑ x ‖ Y ( x ) บริษัท เวสเทิร์น อัล ( X ) ‖ 2สถานที่ : nn คือจำนวนตัวอย่างการฝึกอบรม รวมเป็นกว่าตัวอย่าง , การฝึกอบรมแต่ละ X ; Y = Y ( x ) y = y ( x ) เป็นตำแหน่งที่ต้องการแสดงผล จะแสดงหมายเลขของเลเยอร์ในเครือข่าย และ อัล อัลอัล = = ( x ) Al ( x ) คือ เวกเตอร์ของผลผลิตกิจกรรมจากเครือข่ายเมื่อ xx เป็นใส่โอเค แล้วเกิดอะไรขึ้นเราต้องทำเรื่องฟังก์ชัน ราคาซีซี เพื่อที่แบบสามารถใช้ ? ครั้งแรกที่เราต้องการคือสมมติฐานที่สามารถเขียนเป็นสมการต้นทุนเฉลี่ย C = 1n ∑ xcxc = 1n ∑ xcx กว่า cxcx ฟังก์ชันต้นทุนตัวอย่าง , การฝึกอบรมแต่ละ xx . เป็นกรณีนี้สำหรับฟังก์ชันต้นทุนกำลังสองที่ค่าใช้จ่ายสำหรับตัวอย่างการฝึกอบรมเดียว CX = 12 ∥ y −อัล∥ 2cx = 12 ‖ y −อัล‖ 2 สมมติฐานนี้ยังถือเป็นจริงสำหรับทุกค่าใช้จ่ายอื่น ๆ ฟังก์ชั่น เราจะเจอ ในหนังสือเล่มนี้เหตุผลที่เราต้องการสมมติฐานนี้เป็นเพราะแบบมันช่วยให้เราทำคือหาอนุพันธ์ย่อย∂ CX / ∂ W ∂ CX / ∂ W และ∂ CX / ∂ B ∂ CX / ∂ B สำหรับตัวอย่างการฝึกเดี่ยว เราก็กู้∂ C / ∂ W ∂ C / ∂ W และ∂ C / ∂ B ∂ C / ∂ B โดยเฉลี่ยกว่าตัวอย่างการฝึกอบรม ในความเป็นจริงสมมติฐานนี้ในจิตใจ เราจะสมมติตัวอย่างการฝึกอบรม XX ได้รับการแก้ไขและปล่อย xx อยู่ เขียน cxcx จ่ายเป็น CC เราก็จะเอา xx อีก แต่ตอนนี้มันรำคาญสัญลักษณ์นั่นดีกว่าไปโดยปริยาย .เดาว่าเราทำเกี่ยวกับค่าใช้จ่ายที่สามารถเขียนเป็นฟังก์ชันของผลผลิตจากเครือข่ายประสาท :ตัวอย่างเช่นฟังก์ชันต้นทุนปรับตัวตอบสนองความต้องการนี้ เนื่องจากต้นทุน Quadratic สำหรับ xx ตัวอย่างการฝึกอบรมเดียวอาจจะเขียนว่าC = 12 ∥ y − 2 = 12 อัล∥∑ J ( เยจิน− alj ) 2 ( 27 )( 27 ) C = 12 ‖ y − 2 = 12 อัล‖∑ J ( เยจิน− AJL ) 2ซึ่งเป็นฟังก์ชันของผลผลิตกิจกรรม . ของหลักสูตรค่าใช้จ่ายในการทำงานนี้ยังขึ้นอยู่กับผลลัพธ์ที่ต้องการ YY และคุณอาจจะสงสัยว่าทำไมเราไม่ได้เกี่ยวกับค่าใช้จ่ายยังเป็นฟังก์ชันของ YY . จำได้ว่าเข้าอบรมอย่าง xx ถาวร ดังนั้นผลผลิต YY เป็นพารามิเตอร์คงที่ โดยเฉพาะอย่างยิ่งมันเป็นสิ่งที่เราสามารถแก้ไขโดยการเปลี่ยนน้ำหนักและอคติในทางใด เช่น มันไม่ใช่อะไรที่โครงข่ายการเรียนรู้ ดังนั้นมันทำให้รู้สึกเพื่อพิจารณา CC เป็นฟังก์ชันของผลผลิต กิจกรรม alal คนเดียวกับ YY แค่พารามิเตอร์ที่ช่วยกำหนดฟังก์ชั่นนั้น

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.