T
he computational network
toolkit (CNTK) is a generalpurpose
machine-learning
tool that supports training
and evaluation of arbitrary
computational networks (CNs), i.e.,
machine-learning models that can be
described as a series of computational
steps. It runs under both Windows and
Linux and on both central processing unit
(CPU) and Compute Unified Device Architecture
(CUDA)-enabled graphics processing
unit (GPU) devices. The source code,
periodic release builds, documents, and
example setups can all be found at http://
cntk.codeplex.com.
Motivation
In the past several years, powered by the
significant improvements in computing facilities
and the great increase of data, deep
learning techniques became the new state
of the art in many fields such as speech
recognition and image classification.
The deep neural network (DNN) is the
first successful deep learning model [1]. In
DNNs, the combined hidden layers conduct
complex nonlinear feature transformation,
and the top layer classifies the
samples. DNNs jointly optimize the feature
transformation and the classification.
Though powerful, DNNs do not explicitly
exploit structures such as translational
variability in images, nor do they explicitly
apply operations such as pooling and aggregation
to reduce feature variability.
The convolutional neural network
(CNN) improves upon the DNN with the
explicit modeling of the translational variability
by tiling shared local filters across
observations to detect the same pattern at
different locations [2]. The pattern-detection
results are then aggregated through
either maximum or average pooling.
However, CNNs only deal with translational
variability and cannot handle other
variations such as horizontal reflections
or color intensity differences. Furthermore,
CNNs, like DNNs, cannot take advantage
of dependencies and correlations
between adjacent samples in a sequence.
To address this deficiency, recurrent
neural networks (RNNs) were introduced
[3]. RNNs can exploit information fed back
from hidden and/or output layers in the
previous time steps and are often trained
with the backpropagation through time
algorithm. Unfortunately, simple RNNs
are difficult to train and have difficulty
modeling long-range dependencies.
The long short-term memory (LSTM)-
RNN [3] addresses this difficulty by employing
input, output, and forget gates. It
significantly improves upon the simple
RNN and has been successfully applied in
many pattern recognition tasks. However,
it may not be optimal for a specific problem
at hand since LSTM is a generic model
that does not take into account special
structures in particular tasks.
To exploit the structure and information
inside a particular task, we need to
design customized models. Unfortunately,
testing customized models is time consuming
without proper tools. Typically,
we need to design the model, derive the
training algorithm, implement them, and
run the tests. The majority of the time is
spent in the algorithm development and
model implementation, which are often
error prone and time-consuming. To
make things worse, the right model is
rarely found on the first trial. We often
need to design and evaluate many models
with different architectures before settling
down with the right one for a
specific task. CNTK intends to provide
means to reduce the effort required by
these two steps and therefore increase the
speed of innovation by focusing on problem
analysis and model design.
Computational Networks
If we examine DNNs, CNNs, RNNs, and
LSTM-RNNs, we notice that all of these
models can be reduced as a series of
computational steps. If we know how to
compute each step as well as the order
in which they are computed, we have an
implementation of these models. This
observation suggests that we can generalize
and treat all these models as special
cases of CNs [10].
A CN can be described as a directed
graph where each vertex, called a computation
node, represents a computation,
and each edge represents the
operator-operant relationship. Note that
the order of operands matters for some
operations such as matrix multiplication.
Leaf nodes in the graph do not
have children and are used to represent
input values or model parameters that
are not result of some computation.
Figure 1 illustrates the correspondence
between the NN and the CN representations
for a single-hidden-layer
neural network with a recurrent loop
from the hidden layer to itself. The operations
performed by the neural network
at time t can be captured by the following
three equations:
p W x b , ( ) ( ) ( ) t t 1 1 1 = + (1)
s W s p , ( ) ( ) ( ) t t t 3 1
1 1 = v` - + j (2)
o Wf , s b ( ) ( ) t t 2 2 = ` + j (3)
where W(.)
and b(.)
are weights and bias
defining the behavior of the NN and that
will be learnt during the training phase.
Equations (1) and (3) capture the
เขาคำนวณเครือข่าย T
Toolkit ( cntk ) เป็นเครื่อง generalpurpose
เรียนเครื่องมือที่สนับสนุนการฝึกอบรมและการประเมินผลของเครือข่ายคอมพิวเตอร์
พล
( CNS ) ได้แก่ เครื่องรุ่นที่สามารถเรียน
อธิบายเป็นชุดของขั้นตอนการคำนวณ
มันทำงานภายใต้ Windows และ Linux ทั้ง
และหน่วยประมวลผลกลาง ( CPU ) และคำนวณรวมอุปกรณ์สถาปัตยกรรม
( การ ) - เปิดใช้งาน
หน่วยประมวลผลกราฟิก ( GPU ) อุปกรณ์ รหัสต้นฉบับ
ปล่อยเป็นระยะสร้างเอกสารและ
ตัวอย่างการตั้งค่าสามารถพบได้ที่ http : / /
cntk . การสร้างแรงจูงใจ .
ในช่วงหลายปีที่ผ่านมา , ขับเคลื่อนโดยการปรับปรุงในคอมพิวเตอร์เครื่อง
) และเพิ่มขึ้นอย่างมากของข้อมูลลึก
เทคนิคการเรียนรู้ที่เป็นใหม่ รัฐของศิลปะในสาขา
มากมาย เช่น การพูดการรับรู้และการจัดหมวดหมู่ภาพ
เครือข่ายประสาทลึก ( dnn ) เป็นครั้งแรกที่ประสบความสำเร็จในการเรียนรู้แบบลึก
[ 1 ] ใน
dnns , รวมชั้นซ่อนซับซ้อนคุณลักษณะการแปลงเชิงเส้นกำกับ
, และ ชั้นบนจัด
ตัวอย่าง dnns ร่วมกันเพิ่มประสิทธิภาพการแปลงและการจำแนกคุณลักษณะ
.
แต่ทรงพลัง dnns ไม่ได้อย่างชัดเจนจากโครงสร้างเช่นแปล
ความผันแปรในรูป หรือทำพวกเขาอย่างชัดเจน
ใช้การดำเนินการเช่นการรวมคุณลักษณะและเพื่อลดความแปรปรวน
.
คอนเครือข่ายประสาท ( ซีเอ็นเอ็น ) ปรับปรุงเมื่อ dnn ด้วย
แบบที่ชัดเจนในการใช้ตัวกรองโดยการปูกระเบื้องสำหรับท้องถิ่นข้าม
สังเกตตรวจสอบรูปแบบเดียวกันในสถานที่ที่แตกต่างกัน [
2 ] รูปแบบการตรวจสอบ
ได้ผลแล้วรวมสูงสุด หรือ เฉลี่ยรวมทั้งผ่าน
.
แต่ cnns เพียงจัดการกับการแปล
แปรปรวนและไม่สามารถจัดการกับรูปแบบอื่น ๆเช่น แนวนอนสะท้อน
หรือความแตกต่างความเข้มสี นอกจากนี้
cnns เหมือน dnns ไม่สามารถใช้ประโยชน์ของการอ้างอิงและความสัมพันธ์ระหว่าง
ตัวอย่างที่อยู่ในลำดับ .
ที่อยู่กำเริบ
ขาดนี้โครงข่ายประสาทเทียม ( rnns ) ถูกนํา
[ 3 ] rnns สามารถใช้ประโยชน์จากข้อมูลป้อนกลับจากที่ซ่อนและ / หรือออก
ชั้นในขั้นตอนก่อนหน้านี้ และมักจะฝึก
กับแบบผ่านขั้นตอนเวลา
แต่น่าเสียดายที่ง่าย rnns
ยากที่จะรถไฟ และมีปัญหา
แบบการอ้างอิงระยะไกล ความจำระยะสั้นยาว ( lstm ) -
rnn [ 3 ] ที่อยู่นี้ปัญหาโดยอาศัย
นำเข้าส่งออกและลืมประตู มันอย่างมีนัยสำคัญปรับปรุงเมื่อ rnn ง่าย
และได้สมัครเรียบร้อยแล้วใน
หลายรูปแบบงาน อย่างไรก็ตาม ,
มันอาจจะเหมาะสมสำหรับปัญหาเฉพาะ
มือเนื่องจาก lstm เป็นรูปแบบทั่วไป
ที่ไม่ใช้ลงในบัญชีพิเศษ
โครงสร้างในงานโดยเฉพาะ เพื่อใช้ประโยชน์จากโครงสร้างและข้อมูล
ภายในงานโดยเฉพาะ เราต้องการ
ออกแบบเองแบบ แต่น่าเสียดายที่การทดสอบ ปรับรุ่นเป็นเวลานาน
ไม่มีเครื่องมือที่เหมาะสม โดยปกติ
เราต้องออกแบบรูปแบบการสืบทอด
ฝึกขั้นตอนวิธีที่ใช้พวกเขาและ
ทดสอบไป ส่วนใหญ่ของเวลาที่ใช้ในขั้นตอนวิธีและการพัฒนา
ใช้รูปแบบซึ่งมักจะ
ข้อผิดพลาดง่ายและใช้เวลานาน
ทำให้เหตุการณ์เลวร้ายลง รูปแบบเหมาะสมเป็น
ไม่ค่อยพบในการทดลองครั้งแรก เรามักจะ
ต้องออกแบบและประเมินหลายรุ่นที่มีสถาปัตยกรรมที่แตกต่างกันก่อนที่จะจ่ายเงิน
ลงกับหนึ่งที่เหมาะสมสำหรับ
งานเฉพาะ cntk เน้นให้
หมายถึงการลดความพยายามบังคับใช้โดย
เหล่านี้สองขั้นตอน และดังนั้นจึง เพิ่มความเร็วของนวัตกรรมโดยเน้น
และรูปแบบ การวิเคราะห์ปัญหา การออกแบบ เครือข่าย คอมพิวเตอร์
ถ้าเราตรวจสอบ dnns cnns , ,rnns และ
lstm rnns เราสังเกตเห็นว่าทุกรุ่นเหล่านี้
จะลดลงเป็นชุดของ
ขั้นตอนการคำนวณ ถ้าเรารู้วิธีการ
คำนวณแต่ละขั้นตอนเป็นลำดับ
ซึ่งพวกเขาจะคำนวณเรามี
ใช้รูปแบบเหล่านี้ การสำรวจครั้งนี้ แสดงให้เห็นว่า เราสามารถอนุมาน
และรักษาทุกรุ่นเหล่านี้เป็นกรณีพิเศษ
3 [ 10 ] .
เป็น CN สามารถอธิบายเป็นกำกับ
กราฟที่แต่ละจุดยอดเรียกว่าการคำนวณ
โหนด แทนการคำนวณ , และขอบแทน
แต่ละผู้ประกอบการที่มีผลความสัมพันธ์ หมายเหตุ
ใบสั่งเรื่องเปอแรนด์สำหรับบางงาน เช่น การคูณเมทริกซ์
.
ใบโหนดในกราฟไม่ได้
มีเด็ก และใช้เพื่อแสดงข้อมูลหรือพารามิเตอร์แบบค่า
ไม่ใช่ผลของการคำนวณ .
รูปที่ 1 แสดงให้เห็นถึงความสอดคล้อง
ระหว่าง NN และ CN ตัวแทน
สำหรับเดี่ยวชั้นซ่อน
เครือข่ายประสาทกำเริบด้วยห่วง
จากชั้นซ่อนเอง การดำเนินงานโดยเครือข่ายประสาท
) ที่เวลา t สามารถบันทึกโดยสามสมการต่อไปนี้
:
p w x B ( ) ( ) ( ) T T 1 1 1 = ( 1 )
S W S P ( ) ( ) ( ) T T T 3 1
1 = 1 5 ` - J ( 2 ) WF
o ,S ( B ) T T 2 2 = ` J ( 3 )
w
( ตรงไหน ) และ B (
) มีน้ำหนักและมีการกำหนดพฤติกรรมของดินและ
จะเรียนรู้ในระหว่างการฝึกอบรมระยะ .
สมการ ( 1 ) และ ( 3 ) จับ
การแปล กรุณารอสักครู่..