默認
打賞 發表評論 37
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)
閱讀(136809) | 評論(37 收藏47 淘帖1 10

原作者:阮一峰(ruanyifeng.com),本文由即時通訊網重新整理發布,感謝原作者的無私分享。


1、寫在前面


論壇和群里常會有技術同行打算自已開發IM或者消息推送系統,很多時候連基本的網絡編程理論(如網絡協議等)都不了解,就貿然定方案、寫代碼,顯得非常盲目且充滿技術風險。

即時通訊網論壇里精心整理了《[通俗易懂]深入理解TCP協議》、《不為人知的網絡編程》、《P2P技術詳解》、《高性能網絡編程》這幾個網絡編程的系列文章,甚至還有圖文并貌+實戰代碼的《NIO框架入門》等等。資料雖好,無奈很多同行或許是時間緊迫,也或許是心態浮躁,反正就是沒辦法靜下心來仔細研讀,導致錯過了很多必須掌握的網絡編程知識基礎(如果您正打算從零開發移動端IM,則建議您從此文開始《新手入門一篇就夠:從零開發移動端IM)。

本次《網絡編程懶人入門》系列文章(共3篇),將為大家(尤其是上面說的浮躁的開發者同行)提供懶人快速入門,希望在你沒辦法耐心讀完上面的幾個系列文章(但還是強烈建議優先去讀一讀)的情況還能對基本的網絡編程知識有所了解和掌握,從而對您的IM系統或消息推系統的技術選型、方案制定、代碼編寫起到理論支撐作用。

本文將從網絡通信協議講起,懶人們,動起來^_^ !

2、正文引言


我們每天使用互聯網,你是否想過,它是如何實現的?

全世界幾十億臺電腦,連接在一起,兩兩通信。上海的某一塊網卡送出信號,洛杉磯的另一塊網卡居然就收到了,兩者實際上根本不知道對方的物理位置,你不覺得這是很神奇的事情嗎?

互聯網的核心是一系列協議,總稱為"互聯網協議"(Internet Protocol Suite)。它們對電腦如何連接和組網,做出了詳盡的規定。理解了這些協議,就理解了互聯網的原理。

下面就是我的學習筆記。因為這些協議實在太復雜、太龐大,我想整理一個簡潔的框架,幫助自己從總體上把握它們。為了保證簡單易懂,我做了大量的簡化,有些地方并不全面和精確,但是應該能夠說清楚互聯網的原理。

另外,如果您很好奇承載這些網絡協議的物理設備是怎么工作的,可以先看看《網絡編程懶人入門(六):史上最通俗的集線器、交換機、路由器功能原理入門》。

3、系列文章


本文是系列文章中的第1篇,本系列文章的大綱如下:


本站的《腦殘式網絡編程入門》也適合入門學習,本系列大綱如下:


如果您覺得本系列文章過于基礎,您可直接閱讀《不為人知的網絡編程》系列文章,該系列目錄如下:


關于移動端網絡特性及優化手段的總結性文章請見:


4、參考資料


TCP/IP詳解 - 第11章·UDP:用戶數據報協議
TCP/IP詳解 - 第17章·TCP:傳輸控制協議
TCP/IP詳解 - 第18章·TCP連接的建立與終止
TCP/IP詳解 - 第21章·TCP的超時與重傳
通俗易懂-深入理解TCP協議(上):理論基礎
通俗易懂-深入理解TCP協議(下):RTT、滑動窗口、擁塞處理
理論經典:TCP協議的3次握手與4次揮手過程詳解
理論聯系實際:Wireshark抓包分析TCP 3次握手、4次揮手過程
計算機網絡通訊協議關系圖(中文珍藏版)
高性能網絡編程(一):單臺服務器并發TCP連接數到底可以有多少
高性能網絡編程(二):上一個10年,著名的C10K并發連接問題
高性能網絡編程(三):下一個10年,是時候考慮C10M并發問題了
高性能網絡編程(四):從C10K到C10M高性能網絡應用的理論探索
簡述傳輸層協議TCP和UDP的區別
為什么QQ用的是UDP協議而不是TCP協議?
移動端即時通訊協議選擇:UDP還是TCP?

5、內容概述


5.1五層模型


互聯網的實現,分成好幾層。每一層都有自己的功能,就像建筑物一樣,每一層都靠下一層支持。用戶接觸到的,只是最上面的一層,根本沒有感覺到下面的層。要理解互聯網,必須從最下層開始,自下而上理解每一層的功能。

如何分層有不同的模型,有的模型分七層,有的分四層。我覺得,把互聯網分成五層,比較容易解釋:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_1.jpg

如上圖所示,最底下的一層叫做"實體層"(Physical Layer),最上面的一層叫做"應用層"(Application Layer),中間的三層(自下而上)分別是"鏈接層"(Link Layer)、"網絡層"(Network Layer)和"傳輸層"(Transport Layer)。越下面的層,越靠近硬件;越上面的層,越靠近用戶。

它們叫什么名字,其實并不重要。只需要知道,互聯網分成若干層就可以了。

5.2層與協議


每一層都是為了完成一種功能。為了實現這些功能,就需要大家都遵守共同的規則。大家都遵守的規則,就叫做"協議"(protocol)。

互聯網的每一層,都定義了很多協議。這些協議的總稱,就叫做"互聯網協議"(Internet Protocol Suite)。它們是互聯網的核心,下面介紹每一層的功能,主要就是介紹每一層的主要協議。

6、實體層


我們從最底下的一層開始。

電腦要組網,第一件事要干什么?當然是先把電腦連起來,可以用光纜、電纜、雙絞線、無線電波等方式。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_2.jpg

這就叫做"實體層",它就是把電腦連接起來的物理手段。它主要規定了網絡的一些電氣特性,作用是負責傳送0和1的電信號。

7、鏈接層


7.1定義


單純的0和1沒有任何意義,必須規定解讀方式:多少個電信號算一組?每個信號位有何意義?

這就是"鏈接層"的功能,它在"實體層"的上方,確定了0和1的分組方式。

7.2以太網協議


早期的時候,每家公司都有自己的電信號分組方式。逐漸地,一種叫做"以太網"(Ethernet)的協議,占據了主導地位。

以太網規定,一組電信號構成一個數據包,叫做"幀"(Frame)。每一幀分成兩個部分:標頭(Head)和數據(Data)。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_3.jpg

"標頭"包含數據包的一些說明項,比如發送者、接受者、數據類型等等;"數據"則是數據包的具體內容。

"標頭"的長度,固定為18字節。"數據"的長度,最短為46字節,最長為1500字節。因此,整個"幀"最短為64字節,最長為1518字節。如果數據很長,就必須分割成多個幀進行發送。

7.3MAC地址


上面提到,以太網數據包的"標頭",包含了發送者和接受者的信息。那么,發送者和接受者是如何標識呢?

以太網規定,連入網絡的所有設備,都必須具有"網卡"接口。數據包必須是從一塊網卡,傳送到另一塊網卡。網卡的地址,就是數據包的發送地址和接收地址,這叫做MAC地址。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_4.jpg

每塊網卡出廠的時候,都有一個全世界獨一無二的MAC地址,長度是48個二進制位,通常用12個十六進制數表示。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_5.jpg

前6個十六進制數是廠商編號,后6個是該廠商的網卡流水號。有了MAC地址,就可以定位網卡和數據包的路徑了。

7.4廣播


定義地址只是第一步,后面還有更多的步驟:

  • 1)首先:一塊網卡怎么會知道另一塊網卡的MAC地址?
    回答是有一種ARP協議,可以解決這個問題。這個留到后面介紹,這里只需要知道,以太網數據包必須知道接收方的MAC地址,然后才能發送。
  • 2)其次:就算有了MAC地址,系統怎樣才能把數據包準確送到接收方?
    回答是以太網采用了一種很"原始"的方式,它不是把數據包準確送到接收方,而是向本網絡內所有計算機發送,讓每臺計算機自己判斷,是否為接收方。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_6.jpg

上圖中,1號計算機向2號計算機發送一個數據包,同一個子網絡的3號、4號、5號計算機都會收到這個包。它們讀取這個包的"標頭",找到接收方的MAC地址,然后與自身的MAC地址相比較,如果兩者相同,就接受這個包,做進一步處理,否則就丟棄這個包。這種發送方式就叫做"廣播"(broadcasting)。

有了數據包的定義、網卡的MAC地址、廣播的發送方式,"鏈接層"就可以在多臺計算機之間傳送數據了。

8、網絡層


8.1網絡層的由來


以太網協議,依靠MAC地址發送數據。理論上,單單依靠MAC地址,上海的網卡就可以找到洛杉磯的網卡了,技術上是可以實現的。

但是,這樣做有一個重大的缺點。以太網采用廣播方式發送數據包,所有成員人手一"包",不僅效率低,而且局限在發送者所在的子網絡。也就是說,如果兩臺計算機不在同一個子網絡,廣播是傳不過去的。這種設計是合理的,否則互聯網上每一臺計算機都會收到所有包,那會引起災難。

互聯網是無數子網絡共同組成的一個巨型網絡,很像想象上海和洛杉磯的電腦會在同一個子網絡,這幾乎是不可能的。

網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_7.jpg

因此,必須找到一種方法,能夠區分哪些MAC地址屬于同一個子網絡,哪些不是。如果是同一個子網絡,就采用廣播方式發送,否則就采用"路由"方式發送。("路由"的意思,就是指如何向不同的子網絡分發數據包,這是一個很大的主題,本文不涉及。)遺憾的是,MAC地址本身無法做到這一點。它只與廠商有關,與所處網絡無關。

這就導致了"網絡層"的誕生。它的作用是引進一套新的地址,使得我們能夠區分不同的計算機是否屬于同一個子網絡。這套地址就叫做"網絡地址",簡稱"網址"。

于是,"網絡層"出現以后,每臺計算機有了兩種地址,一種是MAC地址,另一種是網絡地址。兩種地址之間沒有任何聯系,MAC地址是綁定在網卡上的,網絡地址則是管理員分配的,它們只是隨機組合在一起。

網絡地址幫助我們確定計算機所在的子網絡,MAC地址則將數據包送到該子網絡中的目標網卡。因此,從邏輯上可以推斷,必定是先處理網絡地址,然后再處理MAC地址。

8.2IP協議


規定網絡地址的協議,叫做IP協議。它所定義的地址,就被稱為IP地址。目前,廣泛采用的是IP協議第四版,簡稱IPv4。
IPv4這個版本規定,網絡地址由32個二進制位組成:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_8.jpg

習慣上,我們用分成四段的十進制數表示IP地址,從0.0.0.0一直到255.255.255.255

互聯網上的每一臺計算機,都會分配到一個IP地址。這個地址分成兩個部分,前一部分代表網絡,后一部分代表主機。比如,IP地址172.16.254.1,這是一個32位的地址,假定它的網絡部分是前24位(172.16.254),那么主機部分就是后8位(最后的那個1)。處于同一個子網絡的電腦,它們IP地址的網絡部分必定是相同的,也就是說172.16.254.2應該與172.16.254.1處在同一個子網絡。

但是,問題在于單單從IP地址,我們無法判斷網絡部分。還是以172.16.254.1為例,它的網絡部分,到底是前24位,還是前16位,甚至前28位,從IP地址上是看不出來的。

那么,怎樣才能從IP地址,判斷兩臺計算機是否屬于同一個子網絡呢?這就要用到另一個參數"子網掩碼"(subnet mask)。

所謂"子網掩碼",就是表示子網絡特征的一個參數。它在形式上等同于IP地址,也是一個32位二進制數字,它的網絡部分全部為1,主機部分全部為0。比如,IP地址172.16.254.1,如果已知網絡部分是前24位,主機部分是后8位,那么子網絡掩碼就是11111111.11111111.11111111.00000000,寫成十進制就是255.255.255.0

知道"子網掩碼",我們就能判斷,任意兩個IP地址是否處在同一個子網絡。方法是將兩個IP地址與子網掩碼分別進行AND運算(兩個數位都為1,運算結果為1,否則為0),然后比較結果是否相同,如果是的話,就表明它們在同一個子網絡中,否則就不是。

比如,已知IP地址172.16.254.1和172.16.254.233的子網掩碼都是255.255.255.0,請問它們是否在同一個子網絡?兩者與子網掩碼分別進行AND運算,結果都是172.16.254.0,因此它們在同一個子網絡。

總結一下,IP協議的作用主要有兩個,一個是為每一臺計算機分配IP地址,另一個是確定哪些地址在同一個子網絡。

8.3IP數據包


根據IP協議發送的數據,就叫做IP數據包。不難想象,其中必定包括IP地址信息。但是前面說過,以太網數據包只包含MAC地址,并沒有IP地址的欄位。那么是否需要修改數據定義,再添加一個欄位呢?

回答是不需要,我們可以把IP數據包直接放進以太網數據包的"數據"部分,因此完全不用修改以太網的規格。這就是互聯網分層結構的好處:上層的變動完全不涉及下層的結構。

具體來說,IP數據包也分為"標頭"和"數據"兩個部分:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_9.jpg

"標頭"部分主要包括版本、長度、IP地址等信息,"數據"部分則是IP數據包的具體內容。它放進以太網數據包后,以太網數據包就變成了下面這樣:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_10.jpg

IP數據包的"標頭"部分的長度為20到60字節,整個數據包的總長度最大為65,535字節。因此,理論上,一個IP數據包的"數據"部分,最長為65,515字節。前面說過,以太網數據包的"數據"部分,最長只有1500字節。因此,如果IP數據包超過了1500字節,它就需要分割成幾個以太網數據包,分開發送了。

8.4ARP協議


關于"網絡層",還有最后一點需要說明。因為IP數據包是放在以太網數據包里發送的,所以我們必須同時知道兩個地址,一個是對方的MAC地址,另一個是對方的IP地址。通常情況下,對方的IP地址是已知的(后文會解釋),但是我們不知道它的MAC地址。

所以,我們需要一種機制,能夠從IP地址得到MAC地址。

這里又可以分成兩種情況:

  • 1)第一種情況:如果兩臺主機不在同一個子網絡,那么事實上沒有辦法得到對方的MAC地址,只能把數據包傳送到兩個子網絡連接處的"網關"(gateway),讓網關去處理;
  • 2)第二種情況:如果兩臺主機在同一個子網絡,那么我們可以用ARP協議,得到對方的MAC地址。ARP協議也是發出一個數據包(包含在以太網數據包中),其中包含它所要查詢主機的IP地址,在對方的MAC地址這一欄,填的是FF:FF:FF:FF:FF:FF,表示這是一個"廣播"地址。它所在子網絡的每一臺主機,都會收到這個數據包,從中取出IP地址,與自身的IP地址進行比較。如果兩者相同,都做出回復,向對方報告自己的MAC地址,否則就丟棄這個包。

總之,有了ARP協議之后,我們就可以得到同一個子網絡內的主機MAC地址,可以把數據包發送到任意一臺主機之上了。

9、傳輸層


9.1傳輸層的由來


有了MAC地址和IP地址,我們已經可以在互聯網上任意兩臺主機上建立通信。

接下來的問題是,同一臺主機上有許多程序都需要用到網絡,比如,你一邊瀏覽網頁,一邊與朋友在線聊天。當一個數據包從互聯網上發來的時候,你怎么知道,它是表示網頁的內容,還是表示在線聊天的內容?

也就是說,我們還需要一個參數,表示這個數據包到底供哪個程序(進程)使用。這個參數就叫做"端口"(port),它其實是每一個使用網卡的程序的編號。每個數據包都發到主機的特定端口,所以不同的程序就能取到自己所需要的數據。

"端口"是0到65535之間的一個整數,正好16個二進制位。0到1023的端口被系統占用,用戶只能選用大于1023的端口。不管是瀏覽網頁還是在線聊天,應用程序會隨機選用一個端口,然后與服務器的相應端口聯系。

"傳輸層"的功能,就是建立"端口到端口"的通信。相比之下,"網絡層"的功能是建立"主機到主機"的通信。只要確定主機和端口,我們就能實現程序之間的交流。因此,Unix系統就把主機+端口,叫做"套接字"(socket)。有了它,就可以進行網絡應用程序開發了。

9.2UDP協議


現在,我們必須在數據包中加入端口信息,這就需要新的協議。最簡單的實現叫做UDP協議,它的格式幾乎就是在數據前面,加上端口號。

UDP數據包,也是由"標頭"和"數據"兩部分組成:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_11.jpg


"標頭"部分主要定義了發出端口和接收端口,"數據"部分就是具體的內容。然后,把整個UDP數據包放入IP數據包的"數據"部分,而前面說過,IP數據包又是放在以太網數據包之中的,所以整個以太網數據包現在變成了下面這樣:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_12.jpg

UDP數據包非常簡單,"標頭"部分一共只有8個字節,總長度不超過65,535字節,正好放進一個IP數據包。

9.3TCP協議


UDP協議的優點是比較簡單,容易實現,但是缺點是可靠性較差,一旦數據包發出,無法知道對方是否收到。為了解決這個問題,提高網絡可靠性,TCP協議就誕生了。這個協議非常復雜,但可以近似認為,它就是有確認機制的UDP協議,每發出一個數據包都要求確認。如果有一個數據包遺失,就收不到確認,發出方就知道有必要重發這個數據包了。

因此,TCP協議能夠確保數據不會遺失。它的缺點是過程復雜、實現困難、消耗較多的資源。

TCP數據包和UDP數據包一樣,都是內嵌在IP數據包的"數據"部分。TCP數據包沒有長度限制,理論上可以無限長,但是為了保證網絡的效率,通常TCP數據包的長度不會超過IP數據包的長度,以確保單個TCP數據包不必再分割。

10、應用層


應用程序收到"傳輸層"的數據,接下來就要進行解讀。由于互聯網是開放架構,數據來源五花八門,必須事先規定好格式,否則根本無法解讀。"應用層"的作用,就是規定應用程序的數據格式。

舉例來說,TCP協議可以為各種各樣的程序傳遞數據,比如Email、WWW、FTP等等。那么,必須有不同協議規定電子郵件、網頁、FTP數據的格式,這些應用程序協議就構成了"應用層"。這是最高的一層,直接面對用戶。它的數據就放在TCP數據包的"數據"部分。

因此,現在的以太網的數據包就變成下面這樣:
網絡編程懶人入門(一):快速理解網絡通信協議(上篇)_13.jpg

11、本文小結


至此,整個互聯網的五層結構,自下而上全部講完了。這是從系統的角度,解釋互聯網是如何構成的。下一篇《網絡編程懶人入門(二):快速理解網絡通信協議(下篇)》,我反過來,從用戶的角度,自上而下看看這個結構是如何發揮作用,完成一次網絡數據交換的。敬請期待!

(原文鏈接:點此進入,有改動)

附錄:更多網絡編程資料


技術往事:改變世界的TCP/IP協議(珍貴多圖、手機慎點)
UDP中一個包的大小最大能多大?
Java新一代網絡編程模型AIO原理及Linux系統AIO介紹
NIO框架入門(一):服務端基于Netty4的UDP雙向通信Demo演示
NIO框架入門(二):服務端基于MINA2的UDP雙向通信Demo演示
NIO框架入門(三):iOS與MINA2、Netty4的跨平臺UDP雙向通信實戰
NIO框架入門(四):Android與MINA2、Netty4的跨平臺UDP雙向通信實戰
P2P技術詳解(一):NAT詳解——詳細原理、P2P簡介
P2P技術詳解(二):P2P中的NAT穿越(打洞)方案詳解
P2P技術詳解(三):P2P技術之STUN、TURN、ICE詳解
通俗易懂:快速理解P2P技術中的NAT穿透原理
>> 更多同類文章 ……

即時通訊網 - 即時通訊開發者社區! 來源: - 即時通訊開發者社區!

上一篇:iOS下用UDP傳大文件數據錯亂的問題,跪求解答?下一篇:網絡編程懶人入門(二):快速理解網絡通信協議(下篇)

本帖已收錄至以下技術專輯

推薦方案
評論 37
好文,收藏先
簽名: 該會員沒有填寫今日想說內容.
期待下一篇
引用:yangb 發表于 2017-10-10 16:47
期待下一篇

下一篇明天發布!
簽名: 《盤點移動互聯網時代的社交產品進化史(下篇):大浪淘沙》http://www.uktmgv.tw/thread-2724-1-1.html
看完有收獲,謝謝!
樓主實在是寫的太好了,為您的貢獻精神點贊!
簽名: 學習學習
給樓主大佬遞茶。
之前看了《新手入門一篇就夠:從零開發移動端IM》,根據里面的推薦,去看了《TCP/IP詳解》這書,第一章就懵逼了。感謝大佬這篇文章,讓我豁然開朗,原來是這樣。。。
消化下,然后看下一章
引用:給IM大佬遞茶 發表于 2017-11-10 09:27
給樓主大佬遞茶。
之前看了《新手入門一篇就夠:從零開發移動端IM》,根據里面的推薦,去看了《TCP/IP詳解 ...

是的,論壇資料很多,選適合自已看的著手就行
簽名: 《盤點移動互聯網時代的社交產品進化史(下篇):大浪淘沙》http://www.uktmgv.tw/thread-2724-1-1.html
正在學習網絡編程,之前一直有看網絡的七層模型,不是很理解,這篇文章一下讓我豁然開朗啊,謝謝大神
引用:lanyueboyu 發表于 2017-11-20 17:24
正在學習網絡編程,之前一直有看網絡的七層模型,不是很理解,這篇文章一下讓我豁然開朗啊,謝謝大神

簽名: 《盤點移動互聯網時代的社交產品進化史(下篇):大浪淘沙》http://www.uktmgv.tw/thread-2724-1-1.html
正想加深學習一下網絡編程就看到你的文章,真是時候啊!
簽名: 努力......
學習了
簽名: 法規的非官方個
“"標頭"的長度,固定為18字節” 。 以太網表頭不是14個字節??? 源mac + 目標Mac + type = 6 + 6 + 2=14為什么文中說是18個,加上PCS?
引用:lowett 發表于 2018-07-05 21:45
“"標頭"的長度,固定為18字節” 。 以太網表頭不是14個字節??? 源mac + 目標Mac + type = 6 + 6 + 2=14 ...

作者應該是筆誤,確實應該是14個字節。
講得非常清晰。把每一層的功能都描述得很到位。
物理層:電路信號的控制、電壓范圍控制等;
鏈路層:負責編解碼電路信號,封裝成幀,頭部主要有mac地址;
網絡層:在mac地址基礎上,增加IP地址,和簡單的校驗機制;
傳輸層:用戶做傳輸控制,對應有端口,傳輸層的主要協議有TCP和UDP;
應用層:負責與用戶交互。
引用:Focus 發表于 2018-07-10 15:41
講得非常清晰。把每一層的功能都描述得很到位。
物理層:電路信號的控制、電壓范圍控制等;
鏈路層:負責 ...

總結的不錯!
簽名: 《盤點移動互聯網時代的社交產品進化史(下篇):大浪淘沙》http://www.uktmgv.tw/thread-2724-1-1.html
謝謝大佬講解,
簽名: 后悔沒提前發現這個網站
一層層包含,上面的不影響下面的層,以太網+IP+TCP標頭+應用層數據包
簽名: 好久沒來簽到了
引用:yupen110 發表于 2018-07-30 17:38
一層層包含,上面的不影響下面的層,以太網+IP+TCP標頭+應用層數據包

簽名: 《盤點移動互聯網時代的社交產品進化史(下篇):大浪淘沙》http://www.uktmgv.tw/thread-2724-1-1.html
值得學習
簽名: 開始學習即時通訊
打賞樓主 ×
使用微信打賞! 使用支付寶打賞!

返回頂部
曾氏料二肖中特