劉興亮 | 極簡神經(jīng)網(wǎng)絡(luò)史

01

寫在開頭的

神經(jīng)網(wǎng)絡(luò)是一種受生物啟發(fā)的優(yōu)美編程范式,由相互連接的單元或節(jié)點(稱為人工神經(jīng)元)組成,其組件特征模擬了人類大腦中的神經(jīng)元。它使計算機能夠從觀察到的數(shù)據(jù)中進行學(xué)習(xí),形成概念,做出判斷,給出結(jié)論。

如今人人依賴的人工智能模型依靠的就是深度學(xué)習(xí)——一套強大的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù),為圖像識別、語音識別和自然語言處理領(lǐng)域的許多問題提供了最佳解決方案。

黑格爾在其晦澀難懂的著作《精神現(xiàn)象學(xué)》中說:「當(dāng)花朵盛開時,花蕾消逝了,而我們可能會說花蕾被花朵否定了。」就此,黑格爾將「觀念置于歷史進程中」,使二者合二為一。

沒有一套固定不變的神經(jīng)網(wǎng)絡(luò)概念,只有神經(jīng)網(wǎng)絡(luò)的歷史,一套變化的觀念集群。

下面我們簡單梳理一下神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史。

02

對大腦的認識

知其然還得知其所以然。對人類如何能夠思維以及思維能力的容器——大腦的研究始終不過時。

1)很長時間內(nèi),人類有相當(dāng)一部分人認為人的意識是在心臟。古埃及人在制作木乃伊?xí)r常將大腦丟棄,認為心臟才是思維和情感的中心。

2)公元前5世紀(jì),古希臘的希波克拉底首次提出大腦可能是思維和感知的中心。

3)到公園2世紀(jì),古羅馬的蓋倫通過動物解剖提出大腦與神經(jīng)系統(tǒng)有關(guān),強調(diào)「腦室理論」——認為心理功能發(fā)生在腦室中,他是古代解剖學(xué)的奠基人之一。至此,人們注意到大腦才是意識的發(fā)生地。但對大腦結(jié)構(gòu)的研究仍然要到文藝復(fù)興以后才興起。

4)到20世紀(jì),神經(jīng)科學(xué)興起。拉蒙·卡哈爾證明大腦是由獨立的神經(jīng)元構(gòu)成,而非一個整體網(wǎng)絡(luò)。由此,隨著神經(jīng)元學(xué)說的確立,分子神經(jīng)科學(xué)與認知科學(xué)的興起,人們逐步深入研究突觸、神經(jīng)遞質(zhì)、記憶機制等等。

03

前神經(jīng)網(wǎng)絡(luò)史

沒有任何一門學(xué)科是孤立發(fā)展起來的,必然伴隨著與社會總體變化相對應(yīng)的廣泛領(lǐng)域的觀念發(fā)展,以及由此帶來的相互影響。神經(jīng)科學(xué)(腦科學(xué))的基礎(chǔ)研究對神經(jīng)網(wǎng)絡(luò)(機器學(xué)習(xí))起到了奠基和啟發(fā)作用。

在神經(jīng)網(wǎng)絡(luò)形成概念之前,已經(jīng)有一些歷史的萌芽在潛伏和悄悄發(fā)展。追溯起來,如今的深度神經(jīng)網(wǎng)絡(luò)基于200 多年前統(tǒng)計學(xué)的早期研究。

統(tǒng)計學(xué)怎么會跟神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)呢?

首先,我們一直在討論神經(jīng)網(wǎng)絡(luò),其中一層的輸出用作下一層的輸入,這樣的網(wǎng)絡(luò)被稱為前饋神經(jīng)網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)學(xué)習(xí)算法是——隨機梯度下降。利用梯度下降優(yōu)化權(quán)重,而這一步是權(quán)重推導(dǎo)的核心。

換句話說,模型通過觀察「當(dāng)前預(yù)測錯在哪」,計算每個權(quán)重對錯誤的「貢獻」,然后反方向修正。這個修正是不斷反復(fù)的,直至最后的權(quán)重參數(shù)導(dǎo)出最佳答案。

變量和權(quán)重,是深度學(xué)習(xí)中最多出現(xiàn)的因素。沒有變量,當(dāng)然也就沒有結(jié)果;但沒有權(quán)重就沒有正確的結(jié)果。

好了,現(xiàn)在回到200年前,數(shù)學(xué)家勒讓德和高斯曾用線性回歸的統(tǒng)計學(xué)方法來對一組點進行良好的粗略線性擬合,以預(yù)測行星運動。其原理與前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法是相似的。

200年前的線性回歸統(tǒng)計法,與如今前饋神經(jīng)網(wǎng)絡(luò)的梯度下降法是一種東西。

04

早期

1)1943年,心理學(xué)家W.S. McCulloch和數(shù)學(xué)家W.A. Pitts提出了第一個神經(jīng)元計算模型,為人工神經(jīng)網(wǎng)絡(luò)奠定了理論基礎(chǔ),證明了簡單的神經(jīng)元網(wǎng)絡(luò)可以進行邏輯運算。

2)1940年代末,Donald O. Hebb提出了一種基于神經(jīng)可塑性機制的學(xué)習(xí)假說,即后來的赫布學(xué)習(xí)。它被用于許多早期的神經(jīng)網(wǎng)絡(luò)。

3)1950年,艾倫·圖靈提出了「圖靈測試」,為機器智能的評估提供了概念。

4)1956年,在達特茅斯會議上,約翰·麥卡錫首次提出了“人工智能”這一概念。

5)1958年,F(xiàn)rank.Rosenblatt研制出感知機,這是歷史上第一個能進行模式識別的神經(jīng)網(wǎng)絡(luò)設(shè)備,可以實現(xiàn)基于兩層計算機學(xué)習(xí)網(wǎng)絡(luò)的模式識別。它引入了二元分類器的概念,通過調(diào)整權(quán)重從數(shù)據(jù)中學(xué)習(xí)。盡管感知機只能解決線性可分問題,但它標(biāo)志著神經(jīng)網(wǎng)絡(luò)進入了新的發(fā)展階段。

05

突破、波折期

20 世紀(jì) 60 年代和 70 年代對人工神經(jīng)網(wǎng)絡(luò)進行了基礎(chǔ)研究。

1)1965年,蘇聯(lián)的Alexey Ivakhnenko和 Lapa發(fā)表第一個可行的深度學(xué)習(xí)算法是數(shù)據(jù)處理的組方法,這是一種訓(xùn)練任意深度神經(jīng)網(wǎng)絡(luò)的方法。

2)1967年,第一個通過隨機梯度下降訓(xùn)練的深度學(xué)習(xí)多層感知器由Shun'ichi Amari發(fā)表。

3)1969年:Minsky和Papert的《感知機》出版。這本書指出了單層感知機的局限性,即無法解決異或(XOR)問題,這極大地打擊了人們對神經(jīng)網(wǎng)絡(luò)的熱情,導(dǎo)致了「AI寒冬」。

4)但同在1969年,福島邦彥 (Kunihiko Fukushima)提出了ReLU (整流線性單元) 激活函數(shù)。整流器已成為深度學(xué)習(xí)中最流行的激活函數(shù)。

5)1970年代, Paul Werbos在博士論文中提出了反向傳播(Backpropagation)算法,但當(dāng)時并未引起廣泛關(guān)注。

06

快速發(fā)展期

1980年代是反向傳播算法的重新發(fā)現(xiàn)和應(yīng)用期。由Geoffrey Hinton等人的研究重新發(fā)現(xiàn)了反向傳播算法,并證明了其在多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的有效性。這使得多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成為可能,并重新激發(fā)了對神經(jīng)網(wǎng)絡(luò)的研究興趣。

1)1982年,J.J. Hopfield提出了Hopfield神經(jīng)網(wǎng)絡(luò)模型,在優(yōu)化問題和聯(lián)想記憶方面展現(xiàn)了潛力。

2)1985年,Yann LeCun和Yoshua Bengio開發(fā)了卷積神經(jīng)網(wǎng)絡(luò)(前饋神經(jīng)網(wǎng)絡(luò)的一種)。卷積神經(jīng)網(wǎng)絡(luò)在1994年被LeCun成功應(yīng)用于手寫郵政編碼識別,識別率達到99%,并被美國郵政系統(tǒng)采用,這是卷積神經(jīng)網(wǎng)絡(luò)在實際應(yīng)用中的一個里程碑。

3)1991年,Sepp Hochreiter在其畢業(yè)論文中識別并分析了梯度消失問題,并提出了循環(huán)殘差連接來解決該問題。他和 Schmidhuber 提出了長短期記憶網(wǎng)絡(luò),并在多個應(yīng)用領(lǐng)域創(chuàng)下了準(zhǔn)確率紀(jì)錄。

4)1985 年至 1995 年間,受統(tǒng)計力學(xué)的啟發(fā),Terry.Sejnowski、Peter.Dayan、Geoffrey. Hinton等人開發(fā)了幾種架構(gòu)和方法,包括玻爾茲曼機、限制玻爾茲曼機、亥姆霍茲機、喚醒-睡眠算法。這些都是為深度生成模型的無監(jiān)督學(xué)習(xí)而設(shè)計的。

07

成熟期(深度學(xué)習(xí))

1)2006年,深度學(xué)習(xí)爆發(fā)年。Geoffrey Hinton等人發(fā)表了關(guān)于深度置信網(wǎng)絡(luò)的快速學(xué)習(xí)算法,解決了深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題,證明了深度神經(jīng)網(wǎng)絡(luò)通過預(yù)訓(xùn)練和微調(diào)可以有效地進行學(xué)習(xí)。這標(biāo)志著「深度學(xué)習(xí)」概念的正式提出和興起。

2)2012年,在ImageNet圖像識別挑戰(zhàn)賽中,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同開發(fā)的AlexNet(一個深層卷積神經(jīng)網(wǎng)絡(luò))取得了突破性的成果,以遠超第二名的表現(xiàn)贏得了比賽,證明了深度學(xué)習(xí)在處理復(fù)雜高維度數(shù)據(jù)(如圖像、文本和聲音)方面的強大能力。

3)2016年,Google DeepMind開發(fā)的AlphaGo擊敗人類圍棋冠軍,引發(fā)了社會對人工智能的廣泛關(guān)注。

4)2017年,Google提出了Transformer模型,徹底改變了自然語言處理領(lǐng)域,成為后續(xù)大型語言模型的基礎(chǔ)。

08

寫在最后的

但是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,是建立在科學(xué)的邏輯推理能力(即對變量權(quán)重的合理使用)上,而這需要硬件更強大更不計次數(shù)的計算能力,因此伴隨著神經(jīng)網(wǎng)絡(luò)發(fā)展的是人類在計算機芯片上的投入和突破。二者是互為一體的。

以上極簡神經(jīng)網(wǎng)絡(luò)史,離不開芯片發(fā)展史。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-06-11
劉興亮 | 極簡神經(jīng)網(wǎng)絡(luò)史
劉興亮|極簡神經(jīng)網(wǎng)絡(luò)史

長按掃碼 閱讀全文