當前位置:編程學習大全網 - 源碼破解 - bilibili(1)-爬取視頻信息進行數據分析

bilibili(1)-爬取視頻信息進行數據分析

感謝@雄哥和@遜哥的幫助才得以完成這篇文章,不然,還不知怎麽應對IP限制。

項目地址: /UranusLee/bilibili_spider

通過chrome可以看出來B站視頻統計信息是通過js加載,打開開發者工具可以到stat?aid=31的json文件。

再分析json文件的加載方式,基本可以得到所需要的headers參數。

因為之前壹直都在爬取豆瓣、知乎、拉勾這些有特殊headers的網站,所以,為了省事,還是全部headers都加上。

進行爬取的時候,發生了壹點問題,通過不斷測試,基本可以斷定B站有IP訪問限制,基本上是1分鐘150次以下不會封IP,封閉IP壹次為5分鐘,所以考慮用代理IP,拿著買好的穩定的IP,刻不容緩的加入進來。

總***爬取下來710多W條數據,用了三四天的時間,期間網絡斷掉,或者IP地址停用,壹直耽擱,之所以不準備繼續下去是因為數據還準備做壹個B站每年數據分析,所以選用了aid=11883351這條數據作為截止可以比較好的對應上每年7月初的壹個數據對比分析

發現有播放數為-1的值,總***占數據總量的2%,故而刪除。

可以看出基本上播放量,彈幕,評論回復,收藏,硬幣,分享基本就是長尾數據,有大量的小數值的數據,但是整體的平均值受極值的影響較大。相比較而言view播放量更加有研究性。

1.播放量占比分析

總***分為<500,500-1000,1000-5000,5000-20000,>20000。

播放量整體還是大量的淹沒視頻,播放量小於500的達到了整體視頻的48.8%,而播放量20000以上的只占到5.4%,按照“二八原則”,視頻達到3338以上的播放量即達到B站視頻實際效用的界限。

2.分年份分析B站視頻增長速度

以每年7月份為周期分析

通過aid可以查到所有爬下的數據所屬的時間,再按照概率分析大概的時間就可以得出每壹年7月份的視頻量。

整體的視頻數量增長速度實際上是大致按照每年翻倍的速度來增長,整體增長曲線拋開10-11年,整體增長平和。

2010-2011年之間,必定是發生了事才會導致視頻量突增,才會導致視頻總量增長率超過800%。通過查詢,基本確實如之前所假設壹樣,10年因為Ac fun(A站)確實發生了嚴重的幾次彈幕沖突,A站關閉了彈幕系統,加上很多人打出“ACG滾出ac”的標語,大量的A站up主轉移至B站,開始了B站的逆襲。

14年壹年視頻增長率唯壹壹次跌至94%,是因為14年動畫版權問題,禁止了私自上傳動畫,視頻量比預期下跌了大概8W左右。今年更加誇張的是2018年還沒有到07月份,視頻總量已經達到2200W左右。

3.參與率分析用戶活躍度

彈幕成本是最低的,大概平均27.8人次觀看,就會出現壹次彈幕(包括非會員的觀看次數,但是無法發彈幕,提高了彈幕成本),分享成本不僅僅是會員,非會員沒有登陸也可以分享,這確實42.58人次的成本僅僅高於彈幕成本,說明B站整體視頻風格更加多元化。121.58的投幣成本受限於B站的投幣系統,B幣少,並且獲得有難度,導致投幣成本遠高於其他幾項。

4.投幣分析

B站投幣有“不牛不投,不服不投”的潛性規則,往往壹個視頻的投幣量可以反應視頻的質量和B站的流行趨勢。

排名第壹的是 嗶哩嗶哩2017拜年祭 ,94.1W投幣

排名第二的是 古箏千本櫻——妳可見過如此兇殘的練習曲 ,79.6W投幣

排名第三的是 嗶哩嗶哩2016拜年祭 ,77.2W投幣

然後是敖廠長的兩連擊

敖廠長讓妳耳朵懷孕的FC遊戲 ,74.6W投幣

敖廠長打臉!魂鬥羅水下八關存在 ,73.0W投幣

其實可以看出前三名中,兩次拜年祭以及用戶群體的自發投幣,整個拜年祭已經成為B站文化的壹部分,是每年最核心的壹部分。當然也不缺乏敖廠長這種良心up主,每壹次對於過往遊戲的解疑和介紹,還有那無所不能的哥們,宅男但不失真心,牛逼但非常人親。

文化的多元化才是整個B站撐起壹片天的本質原因,我曾經在B站中過《極樂凈土》的毒,看過外國人在中國成了網紅,聽過古箏彈奏魂鬥羅、彈奏日本電音。這是壹個大熔爐,每個人都可以找到自己喜歡的東西,我突然想起了廣告模塊的壹個高分視頻,彈幕量只有300,但是播放量有2000多萬次,我不知道是B站運營人員清空了壹部分的彈幕和評論,但是壹個廣告在B站,在這個無數個平時看都不看廣告的年輕人,能夠看上2000多萬次,幾乎人均壹次。我才覺得我真正的知道。

----------------------------------------------------分割線-------------------------------------------

數據分析的部分有點意猶未盡,今天實在是困了,今天稍晚或者明天會繼續對於B站各個模塊繼續進行深挖,包括彈幕的語義分析、通過彈幕揣摩劇情、哪種視頻可以火、up主的影響力、視頻質量建模等。

  • 上一篇:matlab階乘怎麽表示
  • 下一篇:電腦無光驅怎麽重裝xp系統
  • copyright 2024編程學習大全網