国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - 如何使用使用java抓取信息并制作一個排名系統?

瀏覽:123日期:2023-11-13 14:18:10

問題描述

在學習java web 正好有一個有趣的項目可以做 。 我們學校需要晨跑刷卡,體育部提供一個查詢網站,但是不提供接口。 想做一個網站/微信后臺從學校網上抓取信息儲存到數據庫 然后用戶可以通過我的 網站/微信來查詢自己的跑操記錄。并且根據這些記錄顯示排名 等其他的功能。

查詢只需要提供學號和姓名,這個數據已經有了。

模擬登錄 用httpclient 實現。 獲取了整個頁面 頁面是一個表格顯示記錄。 該用什么從頁面里提取數據呢?

關于java web的方向,我只會用jsp 寫一個增刪改查。 對于之后的內容不是太懂 。

我要做這樣一個后臺管理抓取操作 用戶查詢 返回。 該從什么地方開始學? 或者說使用是什么樣的技術/框架呢?

關于查詢的網站: 有一個元素是跑操次數。 之后的是對應的記錄 每條記錄顯示跑操時間 具體到分鐘。

抓取不是最困難的部分,問題是怎么做一個這樣一個管理系統 對于如何開發一個完整的web全棧 沒有思路。 我發現我不能評論。。。

謝謝!

問題解答

回答1:

我就隨便說個,因為我也沒想到用什么方法。

用Jsoup去爬頁面數據,哈哈

回答2:

想到了幾點,簡單說下:1.數據抓取,可以自己寫抓取程序,制定數據爬取的時間規則之類的2.數據處理,抓取到網頁的內容通過jsoup或者其他方式對網頁有效內容提取,并設計數據結構,學號應該是唯一的,可以有學員表和晨跑記錄表,通過學號進行關聯3.我的個人理解是按照次數排序,因為想了下,如果按照時間排序是不合理的,因為是沒有辦法判斷真正的晨跑時間的,那我這里就按次數來說吧,可以直接在學員表存放跑步次數的字段,減少通過記錄表查詢,提高效率,就是需要數據處理時維護此字段

回答3:

一般來說呢,是基于httpclient這樣的工具將返回包拿到,解析報文實體(這里指html頁面),接下來就是利用xpath、正則、類似于jQuery方式解析DOM元素獲取你想要的數據(如jsoup包),如果還嫌麻煩可以使用webmagic框架

回答4:

模擬登陸:用瀏覽器打開登陸頁觀察接收學號密碼的url;模擬登陸時post數據到該url;從response的header中解析Set-cookie字段信息;

數據抓取:向體育數據頁發起get請求(帶上上一步中拿到的cookie字段),拿到response,然后進行正則解析獲得數據即可;

建議:緩存用戶每次查詢的數據,比如緩存2個小時,建議使用redis;數據庫可以存查詢到的數據,先從redis中取數據,取不到再模擬登陸拿新數據。至于數據庫這一層,個人感覺可有可無,有的話也可以進行數據分析什么的

標簽: java
相關文章:
主站蜘蛛池模板: 亚洲rct中文字幕在线 | 中文字幕亚洲国产 | 国产美女操 | 成人软件18免费网站 | 色综合久久久久久久 | 日韩免费一区二区三区在线 | 九九九九九九 | 免费日韩一级片 | 国产欧美日韩精品一区二 | 国产精品九九久久一区hh | 久久免费精品国产72精品剧情 | 国产精品免费一区二区区 | 欧美国产综合日韩一区二区 | 日本a级精品一区二区三区 日本a级毛片免费视频播放 | 男人桶女人逼 | 亚洲99在线的 | 99热久久国产综合精品久久国产 | 精品免费久久久久久成人影院 | 成人精品视频一区二区在线 | 久久亚洲国产午夜精品理论片 | 一级特黄国产高清毛片97看片 | 成人18网站 | 永久在线 | 国产精品视频久 | 男人天堂手机在线 | 日韩在线视频免费 | 特黄a三级三级三级 | 免费国产成人高清在线看软件 | 色www永久免费 | 日本aaaa精品免费视频 | 美女拍拍拍爽爽爽爽爽爽 | 毛片在线视频在线播放 | 韩国v欧美v亚洲v日本v | 国产免费久久精品 | 香蕉亚洲精品一区二区 | 精品女厕沟底拍撒尿 | 小屁孩cao大人免费网站 | www中文字幕| 亚洲国产欧美日韩 | 精品国产一区二区三区在线观看 | 亚洲一级毛片欧美一级说乱 |