




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
信息采集與大數(shù)據(jù)分析科研平臺建設需求一、需求概述標的名稱數(shù)量具體內容數(shù)量單位全球信息采集與大數(shù)據(jù)分析科研平臺1套多語種文獻資料庫8個外文網(wǎng)站的數(shù)據(jù)抓取、清洗和文本分析端口,全網(wǎng)搜索1項翻譯機4臺計算機輔助翻譯軟件系統(tǒng)1項二、需求內容(一)多語種文獻資料庫1.英語、德語、法語、阿拉伯語、西班牙語、俄語、日語、韓語8個語種文獻資料庫,包括數(shù)據(jù)匯入、數(shù)據(jù)共享、數(shù)據(jù)查詢、小語種翻譯、賬號權限管理等主要模塊,各模塊功能如下:2.數(shù)據(jù)匯入:采集數(shù)據(jù)匯入、用戶資料編輯、上傳;3.數(shù)據(jù)共享:數(shù)據(jù)展示、查看、取用;4.數(shù)據(jù)查詢:搜索功能、主題分類;5.賬號權限管理:賬號管理、角色權限、用戶分組管理、登錄控制、賬號注冊。(二)外文網(wǎng)站的數(shù)據(jù)抓取、清洗和文本分析端口,全網(wǎng)搜索:共1項(服務期2年)。1.采集內容使用爬蟲技術,采集范圍包括800個外文網(wǎng)站(外文網(wǎng)站目錄由采購人提供),采集內容包括文章標題、時間、作者、正文、鏈接,采集頻率為每天采集一次,數(shù)據(jù)每24小時更新,數(shù)據(jù)存儲在本地,數(shù)據(jù)接入資料庫。中標方須根據(jù)數(shù)據(jù)采集要求,在定向800個網(wǎng)站進行數(shù)據(jù)收集,使用語言包括英語、德語、法語、阿拉伯語、西班牙語、俄語、日語、韓語,并將所采集數(shù)據(jù)進行數(shù)字化轉化,同時確保數(shù)據(jù)的真實性、完整性和合法性。2.詞語分析根據(jù)抓取的數(shù)據(jù)進行每周關鍵詞、熱詞分析提示。3.海外內容搜索接入全網(wǎng)搜索入口、800個外文網(wǎng)站全部內容搜索入口,提供線路供搜索海外內容,外文網(wǎng)站域名由后臺限定。4.數(shù)據(jù)抓取要求4.1反爬機制要求為確保網(wǎng)絡爬蟲系統(tǒng)能夠高效穩(wěn)定地采集所需信息,需要滿足以下反爬機制:1)使用代理IP網(wǎng)絡爬蟲應具備代理IP功能,代理IP應用于規(guī)避目標網(wǎng)站的IP封鎖等限制,確保順利進行數(shù)據(jù)采集。2)模擬登錄網(wǎng)絡爬蟲系統(tǒng)應支持模擬登錄功能,實現(xiàn)自動化登錄操作,并保證賬號和密碼的安全傳輸和存儲。3)分析網(wǎng)頁源碼實現(xiàn)網(wǎng)頁源碼分析功能,通過使用瀏覽器自帶的開發(fā)者工具等技術,提取難以采集的頁面中的所需信息。4)使用API接口在可能的情況下,應優(yōu)先使用目標網(wǎng)站提供的API接口來獲取所需信息。4.2數(shù)據(jù)去重和增量更新要求為保證數(shù)據(jù)的準確性和避免不必要的資源浪費,網(wǎng)絡爬蟲系統(tǒng)需要實現(xiàn)數(shù)據(jù)去重和增量更新功能。將爬取過程中產(chǎn)生的URL進行存儲,并確保URL的唯一性,免重復請求。網(wǎng)絡爬蟲系統(tǒng)應對爬取到的每條數(shù)據(jù)進行唯一標識的制定,確保爬取的數(shù)據(jù)在持久化存儲前進行去重,避免重復存儲相同的數(shù)據(jù)。4.3分布式等問題要求網(wǎng)絡爬蟲系統(tǒng)需要支持分布式部署,以提高爬蟲的效率、速度和可靠性。采用分布式爬蟲技術,將爬蟲任務劃分成多個子任務,提高爬蟲的效率和穩(wěn)定性。(三)性能先進的翻譯機:共4臺。擁有離線翻譯、拍照翻譯、語音速記、揚聲器等功能,支持英語、德語、法語、阿拉伯語、西班牙語、俄語、日語、韓語8個語種,網(wǎng)絡支持WiFi、蜂窩數(shù)據(jù)等方式。(四)計算機輔助翻譯軟件系統(tǒng):共1項。1.支持語言數(shù)量在線翻譯定向外文網(wǎng)站搜集到的內容,支持英語、德語、法語、阿拉伯語、西班牙語、俄語、日語、韓語等70種語言。2.文件格式支持pdf\doc\docx\xls\xlsx\txt\ppt\pptx共8種文件格式。3.文檔翻譯支持文本、文檔翻譯,自動識別源語言語種,支持OFFICE系列/PDF等多種文檔格式翻譯,翻譯結果原格式、原譯導出,支持30M以上文檔大小。4.翻譯歷史用戶翻譯歷史記錄留存、自主管理,支持通過語言方向、文檔名稱等條件檢索。5.用戶管理授權用戶登錄后才可以使用翻譯功能,翻譯調用情況可以實時查看。6.翻譯頁數(shù)20萬頁(無時間周期限制,直至20萬頁用完為止)。7.賬號數(shù)量1個主賬號+100個子帳號+3條vip專屬通道+5條普通通道。(五)培訓和售后服務提供相關用戶培訓文檔,培訓形式、時間等根據(jù)招標人要求確定。提供自終驗合格之日起2年的質保,人員5*12小時響應。三、技術要求(一)技術1、系統(tǒng)應采用B/S模式,前后端分離和微服務架構進行開發(fā);2、采用Java語言開發(fā),符合J2EE規(guī)范;3、數(shù)據(jù)庫需采用關系型數(shù)據(jù)庫,支持Oracle、MySql,支持千萬級以上數(shù)據(jù)的復雜搜索和統(tǒng)計;4、支持分布式部署,通過消息隊列,集群管理,負載均衡等方式對關鍵數(shù)據(jù)的訪問進行加速,保證系統(tǒng)的正常使用;5、采用RBAC權限模型支持用戶身份認證和訪問控制,并對用戶的關鍵數(shù)據(jù)進行加密,防止用戶敏感信息泄露,系統(tǒng)需要采取防火墻保護和入侵檢測等措施來保障系統(tǒng)的安全性。6、系統(tǒng)的開發(fā)過程需要遵循軟件開發(fā)生命周期(SDLC)的各個階段,如需求分析、設計、編碼、測試、部署和維護等,以確保系統(tǒng)的高質量和穩(wěn)定性;(二)性能1.穩(wěn)健性和快速性(1)支持大于1000人并發(fā)用戶;(2)保證7×24小時運行,對于軟件更新、加載時不影響正常業(yè)務;(3)業(yè)務高峰時服務器內存不大于70%,CPU使用率不低于30%,不高于90%;(4)簡單頁面操作響應速度小于1秒;平均延時小于3秒,最大延時不超過30秒,報表統(tǒng)計生成頁面不超過15秒。(5)支持負載均衡、可擴展性,可支持系統(tǒng)彈性擴縮容(6)支持千萬級數(shù)據(jù)的搜索與統(tǒng)計,對關鍵數(shù)據(jù)的搜索效率不得超過1秒。2.兼容性(1)能夠最大限度地保證學?,F(xiàn)有各種計算機軟、硬件資源的可用性和連續(xù)性,以及學校未來應用的發(fā)展;(2)客戶端支持chrome、firefox等主流瀏覽器;(3)前端服務器要求支持nginx、jetty,應用服務器支持各種主流應用服務器Tomcat等;(4)服務器操作系統(tǒng)支持各種主流操作系統(tǒng)平臺,如Windows、Linux、Unix等;3.安全性(1)與防止對程序技術的非授權的故意或者意外訪問的能力有關的軟件屬性;(2)采用多種備份機制保證數(shù)據(jù)庫和文件系統(tǒng)不因服務器故障導致數(shù)據(jù)丟失;(3)應用系統(tǒng)必須提供完善的審計功能,對系統(tǒng)關鍵數(shù)據(jù)的每一次增加、修改和刪除都能記錄相應的修改時間、操作人和修改前的數(shù)據(jù)記錄;(4)應用系統(tǒng)必須支持操作失效時間的配置。當操作員在所配置的時間內沒有對界面進行任何操作則該應用自動失效;(5)數(shù)據(jù)備份:支持系統(tǒng)內高速度、大容量自動的數(shù)據(jù)存儲、備份與恢復;實現(xiàn)增量備份,即只備份那些上次備份之后更改過的文件;4.易用性(1)包括統(tǒng)一的操作風格、簡潔的用戶界面、智能的操作提示等;(2)對一些頻繁使用的操作界面要考慮增強用戶體驗,如增加智能提示、自動完成等輔助功能;(3)使用Ajax技術減少用戶的等待或頻繁刷屏等問題;(4)用戶登錄后點擊不超過3次,即可訪問業(yè)務所需要的功能;(5)普通用戶的培訓不超過2天、管理員培訓不超過一周即可熟練掌握軟件的操作技能;(三)技術開發(fā)方案1.本項目擬采用的技術開發(fā)方案如下:序號項目可選方案1應用及消息中間件服務器操作系統(tǒng)Linux內核系統(tǒng)2數(shù)據(jù)庫服務器操作系統(tǒng)Linux內核系統(tǒng)3客戶端操作系統(tǒng)無限制4數(shù)據(jù)庫管理系統(tǒng)Navicat5開發(fā)平臺Vue.jsJdk1.86開發(fā)技術SpringCloud,Springboot,Maven,Git,Redis,MySql,Nginx,ElasticSearch7開發(fā)工具IDEA:Java應用程序開發(fā)Navicat:數(shù)據(jù)庫運維管理工具VSCode:設計頁面版式、操作界面FinalShell:服務器運維工具代碼掃描工具TAPD:項目系統(tǒng)Bug跟蹤管理工具Git:項目管理工具2.基本開發(fā)架構全球信息采集與大數(shù)據(jù)分析科研平臺序號產(chǎn)品端功能模塊分項功能實現(xiàn)的功能要求及參數(shù)1前端頁面展示設計規(guī)范1.視覺呈現(xiàn)遵循統(tǒng)一的規(guī)范體系,體現(xiàn)頁面設計規(guī)范性整體的統(tǒng)一性;2.需求調研:對使用者,使用環(huán)境,使用方式,策劃出最終用戶合適的數(shù)據(jù)平臺;3.架構策劃:整站架構,個性化頁面架構梳理;4.設計原型:根據(jù)需求調研,進行設計原型分析以及方案的改進;2登錄、注冊注冊用戶1.手機注冊:支持找回密碼、、修改個人信息、更改密碼等3.用戶登錄:支持賬號密碼登錄、短信驗證登錄3登錄、注冊及賬號權限管理1.配置不同賬號查看全球信息采集與科研平臺的權限,分發(fā)賬號給對應人員2.普通用戶可前臺自行注冊,通過后或注冊后可查看球信息科研數(shù)據(jù)庫5資源稿件上傳1.用戶可對全球信息采集與科研數(shù)據(jù)庫進行在線投稿,投稿內容需要經(jīng)過系統(tǒng)審核,支持敏感詞檢測等2.支持用戶上傳本地文件以豐富全球信息采集與科研數(shù)據(jù)庫,上傳文件類型包括圖文、視頻等類型;6全球信息采集與科研數(shù)據(jù)資源檢索1.支持數(shù)據(jù)資源精準搜索與模糊搜索;2.支持按稿件標題、描述、發(fā)文人、發(fā)布時間、搜索內容等進行篩選、過濾;7數(shù)據(jù)統(tǒng)計分析1.全球信息采集與科研數(shù)據(jù)庫資源總量統(tǒng)計;2.全球信息采集與科研數(shù)據(jù)庫資源增量統(tǒng)計;3.數(shù)據(jù)支持可視化報表展示8個人中心1.個人資料:可查看、修改或完善個人信息(頭像、昵稱、所在單位等)2.賬號信息:可查看個人賬號信息支持修改密碼9管理后臺管理員系統(tǒng)權限部門管理/角色管理/菜單管理10管理權限1.管理后臺采取總管理賬戶及各分管理賬戶的權限設置;2.可開設不同用戶賬號和密碼,分設不同人員管理數(shù)據(jù)庫不同模塊;3.具備權限的分賬戶可登錄管理權限范圍內的模塊,但對于其他模塊則不可見;13用戶管理1.列表頁可查看所有用戶信息2.支持修改、刪除、批量刪除用戶信息3.支持通過關鍵詞檢索用戶14全球信息采集與科研數(shù)據(jù)庫列表1.可查看所有審核通過后的資源稿件2.可查看單個稿件的瀏覽量、點贊量等3.支持查詢刪除、批量刪除稿件4.支持導出稿件、視頻等資源15多端兼容展示1.默認制作網(wǎng)站以PC版電腦為主,即1920*1080的分辨率電腦;2.其余PC版兼容主流分辨率:16多語言支持多語言版本1.支持將指定語種的內容進行在線翻譯;2.支持多語種動態(tài)擴展功能,后期可根據(jù)客戶訴求進行其他語言版本新增。17三方數(shù)據(jù)對接按照采購人的要求,為日后其他系統(tǒng)的對接開放接口,提供接口數(shù)據(jù),服務費用包含在本項目總價中。四、安全服務要求系統(tǒng)安全防護建設要按照國家關于信息系統(tǒng)安全管理有關要求及國家有關安全策略、法規(guī)、標準和管理要求進行,以風險評估和需求分析為基礎,堅持適度安全、技術與管理并重、分級與多層保護和動態(tài)發(fā)展等原則,保證網(wǎng)絡與信息安全和監(jiān)管與服務的有效性。安全系統(tǒng)建設內容包括信息安全管理規(guī)章制度、資源安全、應用安全、系統(tǒng)安全、網(wǎng)絡安全等方面。(一)安全合規(guī)要求設計開發(fā)系統(tǒng)的安全功能需滿足國家法律要求、需要滿足招標人的安全監(jiān)管要求及網(wǎng)信系統(tǒng)安全標準,相關要求包括不限于以下:《網(wǎng)絡安全法》。承諾交付的系統(tǒng)在通過以上合規(guī)要求時提供技術支持;如果遇到因功能缺失導致無法滿足合規(guī)要求時,應立即響應并對安全功能改進。(二)安全管理要求應采取必要的措施和機制保證設計開發(fā)業(yè)務系統(tǒng)的安全性。措施應包括不限于以下部分:(1)設置安全專員;(2)定期安全培訓;(3)定期安全自查與改進。(三)漏洞規(guī)避要求應確保交付的成果不存在中高危漏洞和安全缺陷。(1)不得存在高危漏洞包括不限于:注入漏洞XSS跨站漏洞已公開的框架漏洞CSRF漏洞非法上傳漏洞遠程包含漏洞遠程執(zhí)行漏洞硬編碼漏洞水平權限、垂直權限漏洞其他owasptop10漏洞(2)不得存在安全設計缺陷包括不限于:密碼未加密或弱加密存儲已公開的框架漏洞撞庫攻擊、密碼破解遍歷漏洞惡意注冊漏洞驗證碼繞過短信、郵件接口轟炸漏洞偽隨機重放漏洞敏感信息泄露取回密碼繞過驗證(3)應采取必要的手段包含不限于:代碼審計、黑盒掃描、人工滲透測試等方法對系統(tǒng)可能存在的漏洞和缺陷進行發(fā)現(xiàn)并修復。(4)承諾交付給買方的系統(tǒng)已經(jīng)經(jīng)過全面的安全測試并已經(jīng)修復。(四)平臺安全服務保障1.服務器系統(tǒng)每周對平臺進行數(shù)據(jù)安全備份(包含源程序和數(shù)據(jù)庫),以及根據(jù)采購人需求做服務器數(shù)據(jù)隔天回滾恢復工作;2.服務人員每月15日、30日檢查平臺運行頁面顯示等情況;3.技術人員每月檢查平臺前后臺程序/數(shù)據(jù)庫安全問題,確保采購人平臺防篡改/暗鏈修復,防止挖礦腳本,防止反射型XSS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度景區(qū)景點精細化保潔服務協(xié)議
- 二零二五年度二手車轉讓及過戶手續(xù)協(xié)議
- 二零二五年度新型小區(qū)門衛(wèi)管理及應急預案合同
- 2025年度綠色節(jié)能庫房租賃合同
- 2025年度高新技術企業(yè)員工勞動合同解除終止協(xié)議書
- 2025年度物業(yè)服務合同主體變更協(xié)議范本
- 二零二五年度大數(shù)據(jù)服務股權投資與轉讓協(xié)議
- 二零二五年度冷凍庫租賃及冷鏈物流配送中心建設合同
- 二零二五年度離婚協(xié)議中財產(chǎn)分割執(zhí)行監(jiān)督補充協(xié)議
- 蘇武牧羊傳紅色故事觀后感
- 第3課《列夫·托爾斯泰》課件-2024-2025學年統(tǒng)編版語文七年級下冊
- TSDLPA 0001-2024 研究型病房建設和配置標準
- 陜09J01 建筑用料及做法圖集
- 安全教育培訓記錄表參考模板范本
- 建筑冷熱源素材
- 網(wǎng)絡安全用戶實體行為分析技術UEBA白皮書
- 室內設計-中式古典風格課件
- MOC3061驅動BT134雙向可控硅
- 無線通信與網(wǎng)絡復習資料
- 八大員考試試題——勞務員題庫
- 人教版小學數(shù)學五年級下冊教材分析
評論
0/150
提交評論