如何使用Node.js爬取任意網頁資源並輸出PDF文件到本地

需求：

使用Node.js爬取網頁資源，開箱即用的配置

將爬取到的網頁內容以PDF格式輸出

如果妳是壹名技術人員，那麽可以看我接下來的文章，否則，請直接移步到我的github倉庫，直接看文檔使用即可

倉庫地址:附帶文檔和源碼

本需求使用到的技術：Node.js和puppeteer

puppeteer 官網地址: puppeteer地址

Node.js官網地址:鏈接描述

Puppeteer是谷歌官方出品的壹個通過DevTools協議控制headless Chrome的Node庫。可以通過Puppeteer的提供的api直接控制Chrome模擬大部分用戶操作來進行UI Test或者作為爬蟲訪問頁面來收集數據。

環境和安裝

Puppeteer本身依賴6.4以上的Node，但是為了異步超級好用的async/await，推薦使用7.6版本以上的Node。另外headless Chrome本身對服務器依賴的庫的版本要求比較高，centos服務器依賴偏穩定，v6很難使用headless Chrome，提升依賴版本可能出現各種服務器問題（包括且不限於無法使用ssh），最好使用高版本服務器。（建議使用最新版本的Node.js）

小試牛刀，爬取京東資源

const puppeteer = require('puppeteer'); // 引入依賴

(async () => { //使用async函數完美異步

const browser = await puppeteer.launch(); //打開新的瀏覽器

const page = await browser.newPage(); // 打開新的網頁

await page.goto('/download/，Node.js的中文官網下載對應的操作系統包

第二步，在下載安裝完了Node.js後，啟動windows命令行工具(windows下啟動系統搜索功能，輸入cmd，回車，就出來了)

第三步需要查看環境變量是否已經自動配置,在命令行工具中輸入 node -v，如果出現 v10. ***字段，則說明成功安裝Node.js

第四步如果您在第三步發現輸入node -v還是沒有出現對應的字段，那麽請您重啟電腦即可

第五步打開本項目文件夾，打開命令行工具（windows系統中直接在文件的url地址欄輸入cmd就可以打開了），輸入 npm i cnpm nodemon -g

第六步下載puppeteer爬蟲包，在完成第五步後，使用cnpm i puppeteer --save 命令即可下載

第七步完成第六步下載後，打開本項目的url.js，將您需要爬蟲爬取的網頁地址替換上去(默認是/)