Layers used to build ConvNets
As we described above, every layer of a ConvNet transforms one volume of activations to another through a differentiable function. We use three main types of layers to build ConvNet architectures: Convolutional Layer, Pooling Layer, and Fully-Connected Layer (exactly as seen in regular Neural Networks). We will stack these layers to form a full ConvNet architecture.
Example Architecture: Overview. We will go into more details below, but a simple ConvNet for CIFAR-10 classification could have the architecture [INPUT - CONV - RELU - POOL - FC]. In more detail:
INPUT [32x32x3] will hold the raw pixel values of the image, in this case an image of width 32, height 32, and with three color channels R,G,B.
CONV layer will compute the output of neurons that are connected to local regions in the input, each computing a dot product between their weights and the region they are connected to in the input volume. This may result in volume such as [32x32x12].
RELU layer will apply an elementwise activation function, such as the max(0,x) thresholding at zero. This leaves the size of the volume unchanged ([32x32x12]).
POOL layer will perform a downsampling operation along the spatial dimensions (width, height), resulting in volume such as [16x16x12].
FC (i.e. fully-connected) layer will compute the class scores, resulting in volume of size [1x1x10], where each of the 10 numbers correspond to a class score, such as among the 10 categories of CIFAR-10. As with ordinary Neural Networks and as the name implies, each neuron in this layer will be connected to all the numbers in the previous volume.
ชั้นใช้ในการสร้าง convnets
อย่างที่เราอธิบายไว้ข้างต้นทุกชั้นของ convnet แปลงหนึ่งปริมาณของกิจกรรมอื่นผ่านฟังก์ชัน Differentiable . เราใช้สามประเภทหลักของชั้นเพื่อสร้างสถาปัตยกรรม convnet : คอนชั้นรวมชั้น และพร้อมเชื่อมต่อชั้น ( ตามที่เห็นในโครงข่ายประสาทเทียมปกติ ) เราจะเรียงชั้นเหล่านี้ในรูปแบบสถาปัตยกรรม convnet เต็ม
ตัวอย่างสถาปัตยกรรม : ภาพรวม เราจะเข้าไปในรายละเอียดเพิ่มเติมด้านล่าง แต่ convnet ง่ายในการจำแนก cifar-10 อาจมีสถาปัตยกรรม [ ใส่ - ลำเลียง - relu - สระ - เอฟซี ] รายละเอียดเพิ่มเติม :
ใส่ [ 32x32x3 ] จะเก็บค่าดิบ พิกเซลของภาพ ในกรณีนี้ภาพความกว้างและความสูง 32 , 32 , 3 ช่องสี R , G , B .
ชั้นลำเลียงจะคำนวณผลผลิตประสาทที่เชื่อมต่อกับภูมิภาคท้องถิ่นในการใช้ผลิตภัณฑ์แต่ละจุดระหว่างน้ำหนักและภูมิภาค พวกเขาจะเชื่อมต่อกับในการป้อนข้อมูลปริมาณ นี้อาจส่งผลให้ปริมาณ เช่น [ 32x32x12 ] .
ชั้น relu จะใช้ elementwise เปิดใช้งานฟังก์ชันเช่น max ( 0 , x ) ปรับที่ศูนย์ใบนี้ขนาดของปริมาณไม่เปลี่ยนแปลง ( [ 32x32x12 ] )
ชั้นสระว่ายน้ำจะทำการดาวน์แซมปลิ้งปฏิบัติการตามมิติขนาด ( ความสูงความกว้าง ) ส่งผลให้ปริมาณ เช่น [ 16x16x12 ] .
FC ( เช่นเชื่อมต่ออย่างเต็มที่ ) ชั้นจะคำนวณระดับคะแนน ส่งผลให้ปริมาณขนาด [ 1x1x10 ] ที่แต่ละ 10 ตัวเลขที่สอดคล้องกับระดับคะแนน เช่น ใน 10 ประเภทของ cifar-10 .เป็นโครงข่ายประสาทเทียมแบบธรรมดา และเป็นชื่อนัย , แต่ละเซลล์ในชั้นนี้จะเชื่อมต่อกับตัวเลขทั้งหมดในเล่มก่อนหน้า
การแปล กรุณารอสักครู่..
