In this video, we'll talk about
the second major type of machine
learning problem, called Unsupervised Learning.
In the last video, we talked about Supervised Learning.
Back then, recall data sets
that look like this, where each
example was labeled either
as a positive or negative example,
whether it was a benign or a malignant tumor.
So for each example in Supervised
Learning, we were told explicitly what
is the so-called right answer,
whether it's benign or malignant.
In Unsupervised Learning, we're given
data that looks different
than data that looks like
this that doesn't have
any labels or that all
has the same label or really no labels.
So we're given the data set and
we're not told what to
do with it and we're not
told what each data point is.
Instead we're just told, here is a data set.
Can you find some structure in the data?
Given this data set, an
Unsupervised Learning algorithm might decide that
the data lives in two different clusters.
And so there's one cluster
and there's a different cluster.
And yes, Supervised Learning algorithm may
break these data into these two separate clusters.
So this is called a clustering algorithm.
And this turns out to be used in many places.
One example where clustering
is used is in Google
News and if you have not
seen this before, you can actually
go to this URL news.google.com
to take a look.
What Google News does is everyday
it goes and looks at tens
of thousands or hundreds of
thousands of new stories on the
web and it groups them into cohesive news stories.
For example, let's look here.
The URLs here link
to different news stories
about the BP Oil Well story.
So, let's click on
one of these URL's and we'll
click on one of these URL's.
What I'll get to is a web page like this.
Here's a Wall Street
Journal article about, you know, the BP
Oil Well Spill stories of
"BP Kills Macondo",
which is a name of the
spill and if you
click on a different URL
from that group then you might get the different story.
Here's the CNN story about a
game, the BP Oil Spill,
and if you click on yet
a third link, then you might get a different story.
Here's the UK Guardian story
about the BP Oil Spill.
So what Google News has done
is look for tens of thousands of
news stories and automatically cluster them together.
So, the news stories that are all
about the same topic get displayed together.
It turns out that
clustering algorithms and Unsupervised Learning
algorithms are used in many other problems as well.
Here's one on understanding genomics.
Here's an example of DNA microarray data.
The idea is put
a group of different individuals and
for each of them, you measure
how much they do or do not have a certain gene.
Technically you measure how much certain genes are expressed.
So these colors, red, green,
gray and so on, they
show the degree to which
different individuals do or
do not have a specific gene.
And what you can do is then
run a clustering algorithm to group
individuals into different categories
or into different types of people.
So this is Unsupervised Learning because
we're not telling the algorithm in advance
that these are type 1 people,
those are type 2 persons, those
are type 3 persons and so
on and instead what were saying is yeah here's a bunch of data.
I don't know what's in this data.
I don't know who's and what type.
I don't even know what the different
types of people are, but can
you automatically find structure in
the data from the you automatically
cluster the individuals into these types
that I don't know in advance?
Because we're not giving the algorithm
the right answer for the
examples in my data
set, this is Unsupervised Learning.
Unsupervised Learning or clustering is used for a bunch of other applications.
It's used to organize large computer clusters.
I had some friends looking at
large data centers, that is
large computer clusters and trying
to figure out which machines tend to
work together and if
you can put those machines together,
you can make your data center work more efficiently.
This second application is on social network analysis.
So given knowledge about which friends
you email the most or
given your Facebook friends or
your Google+ circles, can
we automatically identify which are
cohesive groups of friends,
also which are groups of people
that all know each other?
Market segmentation.
Many companies have huge databases of customer information.
So, can you look at this
customer data set and automatically
discover market segments and automatically
group your customers into different
market segments so that
you can automatically and more
efficiently sell or market
your different market segments together?
Again, this is Unsupervised Learning
because we have all this
customer data, but we don't
know in advance what are the
market segments and for
the customers in our data
set, you know, we don't know in
advance who is in
market segment one, who is
in market segment two, and so on.
But we have to let the algorithm discover all this just from the data.
Finally, it turns out that Unsupervised
Learning is also used for
surprisingly astronomical data analysis
and these clustering algorithms gives
surprisingly interesting useful theories
of how galaxies are born.
All of these are examples of clustering,
which is just one type of Unsupervised Learning.
Let me tell you about another one.
I'm gonna tell you about the cocktail party problem.
So, you've been to cocktail parties before, right?
Well, you can imagine there's a
party, room full of people, all
sitting around, all talking at the
same time and there are
all these overlapping voices because everyone
is talking at the same time, and
it is almost hard to hear the person in front of you.
So maybe at a
cocktail party with two people,
two people talking at the same
time, and it's a somewhat
small cocktail party.
And we're going to put two
microphones in the room so
there are microphones, and because
these microphones are at two
different distances from the
speakers, each microphone records
a different combination of these two speaker voices.
Maybe speaker one is a
little louder in microphone one
and maybe speaker two is a
little bit louder on microphone 2
because the 2 microphones are
at different positions relative to
the 2 speakers, but each
microphone would cause an overlapping
combination of both speakers' voices.
So here's an actual recording
of two speakers recorded by a researcher.
Let me play for you the
first, what the first microphone sounds like.
One (uno), two (dos),
three (tres), four (cuatro), five
(cinco), six (seis), seven (siete),
eight (ocho), nine (nueve), ten (y diez).
All right, maybe not the most interesting cocktail
party, there's two people
counting from one to ten
in two languages but you know.
What you just heard was the
first microphone recording, here's the second recording.
Uno (one), dos (two), tres (three), cuatro
(four), cinco (five), seis (six), siete (seven),
ocho (eight), nueve (nine) y diez (ten).
So we can do, is take
these two microphone recorders and give
them to an Unsupervised Learning algorithm
called the cocktail party algorithm,
and tell the algorithm
- find structure in this data for you.
And what the algorithm will do
is listen to these
audio recordings and say, you
know it sounds like the
two audio recordings are being
added together or that have being
summed together to produce these recordings that we had.
Moreover, what the cocktail party
algorithm will do is separate
out these two audio sources
that were being added or being
summed together to form other
recordings and, in fact,
here's the first output of the cocktail party algorithm.
One, two, three, four,
five, six, seven, eight, nine, ten.
So, I separated out the English
voice in one of the recordings.
And here's the second of it.
Uno, dos, tres, quatro, cinco,
seis, siete, ocho, nueve y diez.
Not too bad, to give you
one more example, here's another
recording of another similar situation,
here's the first microphone : One,
two, three, four, five, six,
seven, eight, nine, ten.
OK so the poor guy's gone
home from the cocktail party and
he 's now sitting in a room by himself talking to his radio.
Here's the second microphone recording.
One, two, three, four, five, six, seven, eight, nine, ten.
When you give these two microphone
recordings to the same algorithm,
what it does, is again say,
you know, it sounds like there
are two audio sources, and moreover,
the album says, here is
the first of the audio sources I found.
One, two, three, four,
five, six, seven, eight, nine, ten.
So that wasn't perfect, it
got the voice, but it
also got a little bit of the music in there.
Then here's the second output to the algorithm.
Not too bad, in that second
output it managed to get rid of the voice entirely.
And just, you know,
cleaned up the music, got rid of the counting from one to ten.
So you might look at
an Unsupervised Learning algorithm like
this and ask how
complicated this is to implement this, right?
It seems like in order to,
you know, build this application, it seems
like to do this audio processing you
need to write a ton of code
or maybe link into like a
bunch of synthesizer Java libraries that
process audio, seems like
a really complicated program, to do
this audio, separating out audio and so on.
It turns out the algorithm, to
do what you just heard, that
can be done with one line
of code - shown right here.
It take researchers a long
time to come up with this line of code.
I'm not saying this is an easy problem,
But it turns out that when you
use the right programming environment, many learning
algorithms can be really short programs.
So this is also why in
this class we're going to
use the Octave programming environment.
Octave, is free open source
software, and using a
tool like Octave or Matlab,
many learning algorithms become just
a few lines of code to implement.
Later in this class, I'll just teach
you a little bit about how to
use Octave and you'll be
implementing some of these algorith
In this video, we'll talk about
the second major type of machine
learning problem, called Unsupervised Learning.
In the last video, we talked about Supervised Learning.
Back then, recall data sets
that look like this, where each
example was labeled either
as a positive or negative example,
whether it was a benign or a malignant tumor.
So for each example in Supervised
Learning, we were told explicitly what
is the so-called right answer,
whether it's benign or malignant.
In Unsupervised Learning, we're given
data that looks different
than data that looks like
this that doesn't have
any labels or that all
has the same label or really no labels.
So we're given the data set and
we're not told what to
do with it and we're not
told what each data point is.
Instead we're just told, here is a data set.
Can you find some structure in the data?
Given this data set, an
Unsupervised Learning algorithm might decide that
the data lives in two different clusters.
And so there's one cluster
and there's a different cluster.
And yes, Supervised Learning algorithm may
break these data into these two separate clusters.
So this is called a clustering algorithm.
And this turns out to be used in many places.
One example where clustering
is used is in Google
News and if you have not
seen this before, you can actually
go to this URL news.google.com
to take a look.
What Google News does is everyday
it goes and looks at tens
of thousands or hundreds of
thousands of new stories on the
web and it groups them into cohesive news stories.
For example, let's look here.
The URLs here link
to different news stories
about the BP Oil Well story.
So, let's click on
one of these URL's and we'll
click on one of these URL's.
What I'll get to is a web page like this.
Here's a Wall Street
Journal article about, you know, the BP
Oil Well Spill stories of
"BP Kills Macondo",
which is a name of the
spill and if you
click on a different URL
from that group then you might get the different story.
Here's the CNN story about a
game, the BP Oil Spill,
and if you click on yet
a third link, then you might get a different story.
Here's the UK Guardian story
about the BP Oil Spill.
So what Google News has done
is look for tens of thousands of
news stories and automatically cluster them together.
So, the news stories that are all
about the same topic get displayed together.
It turns out that
clustering algorithms and Unsupervised Learning
algorithms are used in many other problems as well.
Here's one on understanding genomics.
Here's an example of DNA microarray data.
The idea is put
a group of different individuals and
for each of them, you measure
how much they do or do not have a certain gene.
Technically you measure how much certain genes are expressed.
So these colors, red, green,
gray and so on, they
show the degree to which
different individuals do or
do not have a specific gene.
And what you can do is then
run a clustering algorithm to group
individuals into different categories
or into different types of people.
So this is Unsupervised Learning because
we're not telling the algorithm in advance
that these are type 1 people,
those are type 2 persons, those
are type 3 persons and so
on and instead what were saying is yeah here's a bunch of data.
I don't know what's in this data.
I don't know who's and what type.
I don't even know what the different
types of people are, but can
you automatically find structure in
the data from the you automatically
cluster the individuals into these types
that I don't know in advance?
Because we're not giving the algorithm
the right answer for the
examples in my data
set, this is Unsupervised Learning.
Unsupervised Learning or clustering is used for a bunch of other applications.
It's used to organize large computer clusters.
I had some friends looking at
large data centers, that is
large computer clusters and trying
to figure out which machines tend to
work together and if
you can put those machines together,
you can make your data center work more efficiently.
This second application is on social network analysis.
So given knowledge about which friends
you email the most or
given your Facebook friends or
your Google+ circles, can
we automatically identify which are
cohesive groups of friends,
also which are groups of people
that all know each other?
Market segmentation.
Many companies have huge databases of customer information.
So, can you look at this
customer data set and automatically
discover market segments and automatically
group your customers into different
market segments so that
you can automatically and more
efficiently sell or market
your different market segments together?
Again, this is Unsupervised Learning
because we have all this
customer data, but we don't
know in advance what are the
market segments and for
the customers in our data
set, you know, we don't know in
advance who is in
market segment one, who is
in market segment two, and so on.
But we have to let the algorithm discover all this just from the data.
Finally, it turns out that Unsupervised
Learning is also used for
surprisingly astronomical data analysis
and these clustering algorithms gives
surprisingly interesting useful theories
of how galaxies are born.
All of these are examples of clustering,
which is just one type of Unsupervised Learning.
Let me tell you about another one.
I'm gonna tell you about the cocktail party problem.
So, you've been to cocktail parties before, right?
Well, you can imagine there's a
party, room full of people, all
sitting around, all talking at the
same time and there are
all these overlapping voices because everyone
is talking at the same time, and
it is almost hard to hear the person in front of you.
So maybe at a
cocktail party with two people,
two people talking at the same
time, and it's a somewhat
small cocktail party.
And we're going to put two
microphones in the room so
there are microphones, and because
these microphones are at two
different distances from the
speakers, each microphone records
a different combination of these two speaker voices.
Maybe speaker one is a
little louder in microphone one
and maybe speaker two is a
little bit louder on microphone 2
because the 2 microphones are
at different positions relative to
the 2 speakers, but each
microphone would cause an overlapping
combination of both speakers' voices.
So here's an actual recording
of two speakers recorded by a researcher.
Let me play for you the
first, what the first microphone sounds like.
One (uno), two (dos),
three (tres), four (cuatro), five
(cinco), six (seis), seven (siete),
eight (ocho), nine (nueve), ten (y diez).
All right, maybe not the most interesting cocktail
party, there's two people
counting from one to ten
in two languages but you know.
What you just heard was the
first microphone recording, here's the second recording.
Uno (one), dos (two), tres (three), cuatro
(four), cinco (five), seis (six), siete (seven),
ocho (eight), nueve (nine) y diez (ten).
So we can do, is take
these two microphone recorders and give
them to an Unsupervised Learning algorithm
called the cocktail party algorithm,
and tell the algorithm
- find structure in this data for you.
And what the algorithm will do
is listen to these
audio recordings and say, you
know it sounds like the
two audio recordings are being
added together or that have being
summed together to produce these recordings that we had.
Moreover, what the cocktail party
algorithm will do is separate
out these two audio sources
that were being added or being
summed together to form other
recordings and, in fact,
here's the first output of the cocktail party algorithm.
One, two, three, four,
five, six, seven, eight, nine, ten.
So, I separated out the English
voice in one of the recordings.
And here's the second of it.
Uno, dos, tres, quatro, cinco,
seis, siete, ocho, nueve y diez.
Not too bad, to give you
one more example, here's another
recording of another similar situation,
here's the first microphone : One,
two, three, four, five, six,
seven, eight, nine, ten.
OK so the poor guy's gone
home from the cocktail party and
he 's now sitting in a room by himself talking to his radio.
Here's the second microphone recording.
One, two, three, four, five, six, seven, eight, nine, ten.
When you give these two microphone
recordings to the same algorithm,
what it does, is again say,
you know, it sounds like there
are two audio sources, and moreover,
the album says, here is
the first of the audio sources I found.
One, two, three, four,
five, six, seven, eight, nine, ten.
So that wasn't perfect, it
got the voice, but it
also got a little bit of the music in there.
Then here's the second output to the algorithm.
Not too bad, in that second
output it managed to get rid of the voice entirely.
And just, you know,
cleaned up the music, got rid of the counting from one to ten.
So you might look at
an Unsupervised Learning algorithm like
this and ask how
complicated this is to implement this, right?
It seems like in order to,
you know, build this application, it seems
like to do this audio processing you
need to write a ton of code
or maybe link into like a
bunch of synthesizer Java libraries that
process audio, seems like
a really complicated program, to do
this audio, separating out audio and so on.
It turns out the algorithm, to
do what you just heard, that
can be done with one line
of code - shown right here.
It take researchers a long
time to come up with this line of code.
I'm not saying this is an easy problem,
But it turns out that when you
use the right programming environment, many learning
algorithms can be really short programs.
So this is also why in
this class we're going to
use the Octave programming environment.
Octave, is free open source
software, and using a
tool like Octave or Matlab,
many learning algorithms become just
a few lines of code to implement.
Later in this class, I'll just teach
you a little bit about how to
use Octave and you'll be
implementing some of these algorith
การแปล กรุณารอสักครู่..
ในวิดีโอนี้เราจะพูดคุยเกี่ยวกับประเภทหลักที่สองของเครื่อง
ปัญหาการเรียน เรียกว่าดาวแคระดำ .
ในวิดีโอล่าสุดที่เราพูดคุยเกี่ยวกับที่เรียนนิเทศ .
ตอนนั้น นึกถึงชุด
ข้อมูลที่มีลักษณะเช่นนี้ ซึ่งแต่ละอย่างก็มีป้ายเหมือนกัน
เป็นตัวบวกหรือลบ
ไม่ว่าจะเป็นเนื้องอกหรือเนื้อร้าย ดังนั้นแต่ละตัวอย่างในการ
เรียนเราบอกแล้วว่าอะไร
เรียกว่าตอบถูก ไม่ว่าจะเป็นอ่อนโยนหรือมะเร็ง .
ในการเรียนรู้แบบไม่มีผู้สอน เราจะให้ข้อมูลที่แตกต่างกันดู
กว่าข้อมูลที่ดูเหมือน
นี้ไม่มีป้ายใด ๆหรือว่า
มีป้ายชื่อเดียวกัน หรือ ไม่มีป้ายชื่อ
ดังนั้นเรา จะได้รับชุดข้อมูลและ
เราไม่ได้บอกอะไรอะไรกับมัน และเราก็ไม่ได้บอกว่าแต่ละจุดข้อมูล
คือ .แต่เราแค่บอก ที่นี่คือชุดข้อมูล .
คุณสามารถหาโครงสร้างของข้อมูล ให้ข้อมูลชุดนี้
,
unsupervised อัลกอริทึมการเรียนรู้อาจตัดสินใจว่าข้อมูลในชีวิต
สองกลุ่มที่แตกต่างกัน และมีหนึ่งกลุ่ม และมีกลุ่มที่แตกต่างกัน
.
และใช่มีอัลกอริทึมการเรียนรู้ข้อมูลเหล่านี้เป็นเหล่านี้อาจ
แบ่งแยกเป็น 2 กลุ่ม คือ กลุ่มนี้เรียกว่า
ดังนั้นขั้นตอนวิธี .
และนี้จะถูกใช้ในหลายสถานที่ .
ตัวอย่างหนึ่งที่สามารถใช้ใน Google News
และถ้าคุณไม่ได้
เห็นนี้ก่อนที่คุณจะสามารถจริง
ไปที่ URL นี้ข่าว Google . com
ไปดู ข่าวอะไร Google ไม่ได้ทุกวัน
มันไปและ ดูหลักสิบ
พันหรือหลายร้อยพันเรื่องราวใหม่
เว็บและกลุ่มพวกเขาเป็นข่าวเหนียว .
ตัวอย่างเช่นลองดูที่นี่
ลิงค์ URL ที่นี่แตกต่างกันข่าว
เกี่ยวกับ BP น้ำมันดีเรื่องราว .
งั้นคลิก
อันนี้ URL และเราจะ
คลิกที่หนึ่งของเหล่านี้ URL
สิ่งที่ผมจะได้คือ หน้าเว็บแบบนี้ .
ที่นี่คือ Wall Street Journal
บทความเกี่ยวกับ , คุณรู้ , BP น้ำมันรั่วไหล
" เรื่องราวของ BP ฆ่ามาคอนโด "
ซึ่งเป็นชื่อของหกและถ้าคุณ
คลิก URL ที่แตกต่างกันกลุ่มที่คุณอาจจะได้เรื่องราวที่แตกต่างกัน .
นี่คือซีเอ็นเอ็นเรื่อง
เกม , การรั่วไหลของน้ำมัน BP , และถ้าคุณคลิกเลย
ลิงค์สาม , แล้วคุณอาจได้รับเรื่องราวที่แตกต่างกัน .
ที่นี่อังกฤษผู้ปกครองเรื่องราวเกี่ยวกับ BP น้ำมันรั่วไหล
แล้ว . ข่าว Google ได้ทำ
ถูกดูหมื่น
ข่าวโดยอัตโนมัติและกลุ่มพวกเขากัน .
ดังนั้นข่าวเรื่องที่ทุกคน
เกี่ยวกับหัวข้อเดียวกันได้แสดงด้วยกัน แต่กลับกลายเป็นว่า
การจัดกลุ่มขั้นตอนวิธีและขั้นตอนวิธีการเรียนรู้
unsupervised ใช้ในปัญหาอื่น ๆจำนวนมากเช่นกัน ที่นี่เป็นหนึ่งในความเข้าใจไร
.
นี่คือตัวอย่างของข้อมูล microarray ดีเอ็นเอ ความคิดคือใส่
กลุ่มบุคคลที่แตกต่างกันและ
สำหรับแต่ละพวกเขา คุณวัด
เท่าไหร่ที่พวกเขาทำหรือไม่ได้มียีนบาง
ในทางเทคนิคแล้ว คุณวัดว่ายีนบางอย่างแสดง .
ดังนั้นเหล่านี้สี แดง เขียว เทา
และอื่นๆ พวกเขาแสดงระดับที่แตกต่างกันบุคคลหรือทำ
ไม่ได้มียีนที่เฉพาะเจาะจง .
และสิ่งที่คุณสามารถทำคือใช้ขั้นตอนวิธีการจัดกลุ่มแล้ว
บุคคลในกลุ่มที่แตกต่างกัน ประเภท หรือชนิดที่แตกต่างกันของคน
.
นี่คือการเรียนรู้แบบไม่มีผู้สอนเพราะ
เราไม่ได้บอกขั้นตอนวิธีการล่วงหน้า
เหล่านี้เป็นประเภท 1 คน เป็นประเภท 2 คน
เป็นประเภทที่ 3 คนแล้ว
และแทนแล้วบอกว่าใช่ นี่เป็นพวกข้อมูล .
ฉันไม่รู้ว่ามีอะไรอยู่ในข้อมูลนี้ .
ฉันไม่รู้ว่าใครและประเภทของสิ่งที่ .
ฉันไม่ได้รู้ว่าสิ่งที่ชนิดของคน
คุณโดยอัตโนมัติ แต่สามารถหาโครงสร้าง
ข้อมูลจากคุณโดยอัตโนมัติ
กลุ่มบุคคลในประเภทเหล่านี้
ที่ไม่รู้ล่วงหน้า
เพราะเราไม่ได้ให้คำตอบที่เหมาะสมสำหรับขั้นตอนวิธี
ตัวอย่างในข้อมูลชุดนี้เป็นดาวแคระดำ .
unsupervised การเรียนรู้หรือสามารถใช้พวงของโปรแกรมอื่น ๆ .
มันใช้เพื่อจัดระเบียบกลุ่มคอมพิวเตอร์ขนาดใหญ่ ผมมีเพื่อนบางคนมอง
ศูนย์ข้อมูลขนาดใหญ่ที่
กลุ่มคอมพิวเตอร์ขนาดใหญ่และพยายามที่จะคิดออกซึ่งเครื่องมักจะ
ทำงานด้วยกัน และถ้าคุณสามารถใส่เครื่องเหล่านั้นด้วยกัน
คุณสามารถสร้างศูนย์ข้อมูลของคุณทำงานได้อย่างมีประสิทธิภาพมากขึ้น .
โปรแกรมที่สองนี้อยู่ในการวิเคราะห์เครือข่ายทางสังคม เพื่อให้ความรู้เกี่ยวกับการที่เพื่อน
คุณอีเมล์ มากที่สุด หรือให้เพื่อนของคุณ Facebook หรือ
วงกลมของคุณ Google , สามารถเราโดยอัตโนมัติระบุ ซึ่งกลุ่มเพื่อนๆ
ยังเหนียว , ซึ่งมีกลุ่มของคน
ว่ารู้จักกันได้ยังไง
การแบ่งส่วนตลาด หลาย บริษัท มีฐานข้อมูลขนาดใหญ่ของข้อมูลลูกค้า .
ดังนั้นคุณสามารถดูข้อมูลลูกค้าได้โดยอัตโนมัติชุดนี้
ค้นพบกลุ่มตลาดกลุ่มลูกค้าของคุณโดยอัตโนมัติและ
ในกลุ่มตลาดที่แตกต่างกันเพื่อให้คุณสามารถมากขึ้น
ได้อย่างมีประสิทธิภาพขายหรือตลาด
กลุ่มตลาดที่แตกต่างกันของคุณด้วยกัน
อีกครั้งนี้เป็น unsupervised การเรียนรู้
เพราะเราได้ข้อมูลลูกค้าทั้งหมดนี้
แต่เราไม่รู้ล่วงหน้าแล้ว
กลุ่มตลาดและลูกค้าในแบบของเรา
ชุด คุณรู้มั้ย เราไม่รู้ล่วงหน้าใคร
ส่วนตลาดหนึ่งที่ใน ส่วนสองตลาด และอื่น ๆ .
แต่เราต้องให้ขั้นตอนวิธีการค้นพบทั้งหมดนี้จากข้อมูล .
สุดท้าย ปรากฎว่า การเรียนรู้ คือ คนเดียว
ยังใช้สำหรับการวิเคราะห์ข้อมูลทางดาราศาสตร์และขั้นตอนวิธีการจัดกลุ่มจู่ ๆเหล่านี้ให้ประโยชน์
น่าสนใจอย่างแปลกใจ ทฤษฎีว่า กาแล็กซีเกิด .
ทั้งหมดนี้เป็นตัวอย่างของการจัดกลุ่ม
, ซึ่งเป็น เพียงหนึ่งชนิดของการเรียนรู้แบบไม่มีผู้สอน .
ให้ฉันบอกคุณเกี่ยวกับหนึ่ง .
ผมจะบอกคุณเกี่ยวกับงานเลี้ยงค็อกเทลปัญหา .
คุณเคยไปปาร์ตี้ค็อกเทลก่อนใช่ไหม
เอ่อ คุณสามารถจินตนาการมัน
ปาร์ตี้ในห้องเต็มไปด้วยผู้คนทั้งหมด
นั่งล้อมวง พูดในเวลาเดียวกันและมี
ทั้งหมดนี้ซ้อนเสียง เพราะทุกคน
พูดพร้อมกันและ
มันเกือบจะยากที่จะได้ยิน คนที่อยู่ตรงหน้าคุณ
ดังนั้นบางทีที่
ค็อกเทลปาร์ตี้ กับคน 2
2 คน พูดในเวลาเดียวกัน
และก็ค่อนข้างเล็ก ค็อกเทล ปาร์ตี้
และเราจะทำให้สอง
ไมโครโฟนในห้องแล้ว
มีไมโครโฟน และเพราะไมโครโฟนเหล่านี้อยู่ที่ระยะทางที่แตกต่างจากสอง
ลำโพง , ไมโครโฟนแต่ละระเบียน
รวมกันที่แตกต่างกันของทั้งสองลำโพงเสียง ลำโพงเป็น
บางทีให้ดังขึ้นในไมโครโฟนและลำโพงสองตัว
อาจจะเล็กน้อยดังขึ้นบนไมโครโฟน 2
เพราะไมโครโฟน 2 อยู่ในตำแหน่งที่แตกต่างกันเมื่อเทียบกับ
2 ลำโพง แต่ละกัน
) จะทำให้การรวมกันของทั้งสอง ลําโพงเสียง
ดังนั้นที่นี่เป็นบันทึกจริงของลําโพงทั้งสองบันทึก โดยนักวิจัย .
ผมเล่นเพื่อคุณ
ครั้งแรกมีไมโครโฟนแรกดูเหมือน .
( โน่ ) , 2 ( DOS )
3 ( สาม ) 4 ( กวาโตร่ ) 5
( Cinco ) , 6 ( เซอีส ) , 7 ( คุณ )
8 ( Ocho ) , 9 ( nueve ) , 10 ( Diez Y
ทั้งหมด ) ใช่ บางทีอาจจะไม่น่าสนใจที่สุด
ปาร์ตี้ค็อกเทล มี สอง คน นับหนึ่งถึงสิบ
สองภาษา แต่คุณรู้ สิ่งที่คุณได้ยินคือ
บันทึกไมโครโฟนครั้งแรก นี่เป็นบันทึก
2อูโน่ ( หนึ่ง ) , DOS ( สอง ) สาม ( 3 ) กวาโตร่
( 4 ) , Cinco ( 5 ) , เซอีส ( 6 ) , ( 7 ) , คุณ
เนก ( 8 ) , ( 9 ) nueve Diez Y ( 10 ) .
ดังนั้นเราสามารถทำคือเอา
2 ไมโครโฟน บันทึกและให้พวกเขาไปยัง unsupervised ขั้นตอนวิธีการเรียนรู้
เรียกว่า ค็อกเทลปาร์ตี้ ขั้นตอนวิธี ขั้นตอนวิธี
-
บอกหาโครงสร้างในข้อมูลนี้สำหรับคุณ .
แล้วอัลกอริทึมจะทำ
ฟังเหล่านี้คือบันทึกเสียงและพูด ฟังดูเหมือนคุณ
สองบันทึกเสียงถูกเพิ่มเข้าด้วยกัน หรือที่ถูก
สรุปร่วมกันเพื่อผลิตบันทึกเหล่านี้ที่เรามี .
ว่าแต่ งานเลี้ยงค็อกเทล
ขั้นตอนวิธีจะทำแยกต่างหาก
เสียงออกสองแหล่งที่ถูกเพิ่มหรือถูก
รวม ร่วมกันเพื่อฟอร์มบันทึกอื่น ๆ
และ ในความเป็นจริงนี่คือผลผลิตแรกของงานเลี้ยงค็อกเทลขั้นตอนวิธี .
หนึ่ง , สอง , สาม , สี่ ,
5 , 6 , 7 , 8 , 9 , 10 .
ผมแยกออกเสียงภาษาอังกฤษ
ในหนึ่งของบันทึก และนี่คือ 2 .
อูโน่ โดส แทร quatro Cinco
เซอีส , , , คุณ , , nueve Ocho Diez , Y .
ไม่เลวเหมือนกัน ต้องให้คุณ
อีกตัวอย่างหนึ่ง นี่เป็นอีกหนึ่งบันทึกสถานการณ์อื่นที่คล้ายคลึงกัน
,นี่คือไมโครโฟนแรก
: หนึ่ง สอง สาม สี่ ห้า หก
เจ็ด แปด เก้า สิบ
ตกลงดังนั้นน่าสงสารแล้ว
กลับจากงานเลี้ยงค็อกเทลและเขา ' s ตอนนี้นั่งอยู่ในห้องคนเดียวพูดวิทยุ
นี่คือบันทึกของเขา ไมโครโฟนที่สอง .
หนึ่ง , สอง , สาม , สี่ , ห้า , หก , เจ็ด , แปด , เก้า , สิบ เมื่อคุณได้ให้สองคนนี้
บันทึกไมโครโฟนเพื่ออัลกอริทึมเดียวกัน
สิ่งที่มันไม่เป็นอีกครั้งที่บอกว่า
รู้มั้ย มันฟังดูเหมือนมี
มีสองแหล่งเสียงและนอกจากนี้
อัลบั้มบอกว่า นี่เป็นครั้งแรกของแหล่งเสียง
เจอ หนึ่ง , สอง , สาม , สี่ ,
5 , 6 , 7 , 8 , 9 , 10 .
แล้วนี่ไม่สมบูรณ์แบบมัน
มีเสียง แต่มัน
ยังมีเล็กน้อยของเพลงในนั้น .
แล้วนี่ออกสองขั้นตอนวิธี .
ไม่ได้เลวร้ายเกินไป ในวินาทีนั้นส่งออกจัดการเพื่อกำจัดเสียงทั้งหมด .
และ , คุณรู้ ,
ทำความสะอาดขึ้นเพลงกำจัดนับจากหนึ่งถึงสิบ ดังนั้นคุณอาจดู
เป็น unsupervised อัลกอริทึมการเรียนรู้นี้ และถามว่า ชอบ
ที่ซับซ้อนนี้คือการใช้นี้ ใช่ไหม ?
ดูเหมือนเพื่อจะ
ก็สร้างโปรแกรมนี้ดูเหมือนว่า
ชอบการประมวลผลเสียงนี้คุณ
ต้องเขียนตันของรหัส
หรืออาจจะลิงค์เข้าไปเหมือนพวก Java ห้องสมุดซิน
กระบวนการเสียง ดูเหมือน
โปรแกรมซับซ้อนจริงๆ ทำ
เสียงนี้แบ่งออกเสียงและอื่น ๆ .
ปรากฎว่าขั้นตอนวิธี
ทำสิ่งที่คุณได้ยินมา ว่า สามารถทำได้ด้วย
หนึ่งบรรทัดของรหัส - แสดงตรงนี้ นักวิจัยใช้เวลานาน
เวลามากับบรรทัดของรหัสนี้ .
ผมไม่ได้บอกว่านี่เป็นปัญหาง่าย
แต่มันกลับกลายเป็นว่าเมื่อคุณ
ใช้สภาพแวดล้อมการเขียนโปรแกรมสิทธิหลายขั้นตอนวิธีการเรียนรู้
สามารถโปรแกรมสั้น จริงๆ แล้วนี่ทำไมชั้นนี้เราจะไป
ใช้สภาพแวดล้อมการเขียนโปรแกรมออกเตฟ .
เสียง เป็นซอฟต์แวร์ฟรีเปิดแหล่งที่มา
ชอบ และใช้เครื่องมือหรือโปรแกรมใหม่ขั้นตอนวิธีการเรียนรู้หลาย , เป็นเพียง
ไม่กี่บรรทัดของรหัสที่จะใช้ .
ต่อมาในชั้นนี้ผมจะสอนคุณบ้างแล้ว
ใช้เสียงและคุณจะสามารถใช้บางส่วนของเหล่านี้ algorith
การแปล กรุณารอสักครู่..