A. java爬蟲實時獲取頁面數據並存入資料庫
response push的html標簽你能拿到,就能按規律全部遍歷出來,代碼網上很多
B. python爬蟲可以爬取網頁見不到的東西嗎如web後台資料庫
只有在網站上顯示的東西才能爬到,或者網頁看不到,是網頁請求的介面返回的數據
這些數據都可以拿到,其他的資料庫結構是拿不到的
C. 網路爬蟲可以爬取資料庫里的數據嘛
只會抓取頁面,,當然頁面里你會讀取到資料庫數據。。
所以它不算是抓取你資料庫,只是你用在了頁面上,生成了結果 ,
它抓取你這個結果。。。
其實想想也是知道的,,資料庫除了開發者對程序授權,別人怎麼可以操作得到資料庫,要不然那不是天下大亂了嘛。。。
D. 爬蟲怎麼爬取完整的商品分類列表,並將其完整的關聯的關系也存取資料庫
把爬到的數據用三引號接收再想辦法處理呢
a="""aaa"aa"aa'aa'"""#a為你實際爬到的數據
b="""%s"""%(a)
printb
#列印'"aaa"aa"aa'aa''
E. 求python代碼 用Python爬蟲爬取藝恩網數據 存入一個資料庫 再用flask做個搜索引擎
難點在搜索這塊,存入資料庫不方便做搜索的,可以考慮一些其他方案,比如es和 whoosh,前者比較知名,後者是python的搜索框架,比較簡單
F. 有哪些網站用爬蟲爬取能得到很有價值的數據
一般有一下幾種
一些常用的方法
IP代理
對於IP代理,各個語言的Native
Request
API都提供的IP代理響應的API,
需要解決的主要就是IP源的問題了.
網路上有廉價的代理IP(1元4000個左右),
我做過簡單的測試,
100個IP中,
平均可用的在40-60左右,
訪問延遲均在200以上.
網路有高質量的代理IP出售,
前提是你有渠道.
因為使用IP代理後,
延遲加大,
失敗率提高,
所以可以將爬蟲框架中將請求設計為非同步,
將請求任務加入請求隊列(RabbitMQ,Kafka,Redis),
調用成功後再進行回調處理,
失敗則重新加入隊列.
每次請求都從IP池中取IP,
如果請求失敗則從IP池中刪除該失效的IP.
Cookies
有一些網站是基於cookies做反爬蟲,
這個基本上就是如
@朱添一
所說的,
維護一套Cookies池
注意研究下目標網站的cookies過期事件,
可以模擬瀏覽器,
定時生成cookies
限速訪問
像開多線程,循環無休眠的的暴力爬取數據,
那真是分分鍾被封IP的事,
限速訪問實現起來也挺簡單(用任務隊列實現),
效率問題也不用擔心,
一般結合IP代理已經可以很快地實現爬去目標內容.
一些坑
大批量爬取目標網站的內容後,
難免碰到紅線觸發對方的反爬蟲機制.
所以適當的告警提示爬蟲失效是很有必有的.
一般被反爬蟲後,
請求返回的HttpCode為403的失敗頁面,
有些網站還會返回輸入驗證碼(如豆瓣),
所以檢測到403調用失敗,
就發送報警,
可以結合一些監控框架,
如Metrics等,
設置短時間內,
告警到達一定閥值後,
給你發郵件,簡訊等.
當然,
單純的檢測403錯誤並不能解決所有情況.
有一些網站比較奇葩,
反爬蟲後返回的頁面仍然是200的(如去哪兒),
這時候往往爬蟲任務會進入解析階段,
解析失敗是必然的.
應對這些辦法,
也只能在解析失敗的時候,
發送報警,
當告警短時間到達一定閥值,
再觸發通知事件.
當然這個解決部分並不完美,
因為有時候,
因為網站結構改變,
而導致解析失敗,
同樣回觸發告警.
而你並不能很簡單地區分,
告警是由於哪個原因引起的.
G. 爬蟲爬取小說網,存儲的資料庫怎麼設置
我覺得沒法爬取。因為服務端沒有注入供爬取的代碼。
H. python 爬蟲怎麼處理爬取數據中含有單引號,並將其存入資料庫
把爬到的數據用三引號接收再想辦法處理呢
a="""aaa"aa"aa'aa'"""#a為你實際爬到的數據
b="""%s"""%(a)
printb
#列印'"aaa"aa"aa'aa''
I. 網路爬蟲抓取數據 有什麼好的應用
一般抓數據的話可以學習Python,但是這個需要代碼的知識。
如果是沒有代碼知識的小白可以試試用成熟的採集器。
目前市面比較成熟的有八爪魚,後羿等等,但是我個人習慣八爪魚的界面,用起來也好上手,主要是他家的教程容易看懂。可以試試。
J. 如何利用一些 finance 資料庫 api 批量獲取股票信息
使用Yahoo API獲取股票信息。