版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1頁(yè)共19頁(yè)第4頁(yè),共19頁(yè)通過(guò)Python語(yǔ)言的Scrapy框架股票投資規(guī)劃的分析系統(tǒng)第一章引言 11.1研究背景 11.2研究意義 11.3系統(tǒng)概述 11.4論文的主要內(nèi)容及章節(jié)安排 2第二章計(jì)算機(jī)技術(shù)與金融知識(shí) 22.1計(jì)算機(jī)相關(guān)技術(shù) 22.1.1Python語(yǔ)言 22.1.2Scrapy框架 32.2金融知識(shí) 52.2.1投資流派的介紹 52.2.2入場(chǎng)時(shí)機(jī)的判斷 52.2.3白馬股的特征和篩選過(guò)程 6第三章系統(tǒng)需求與設(shè)計(jì) 83.1系統(tǒng)的需求 83.2系統(tǒng)的設(shè)計(jì) 83.2.1數(shù)據(jù)收集模塊的設(shè)計(jì) 93.2.2數(shù)據(jù)處理模塊的設(shè)計(jì) 9第四章系統(tǒng)的實(shí)現(xiàn) 94.1數(shù)據(jù)收集模塊的實(shí)現(xiàn) 94.2數(shù)據(jù)處理模塊的實(shí)現(xiàn) 11第五章系統(tǒng)測(cè)試 125.1測(cè)試思路 125.2測(cè)試過(guò)程 125.3本章總結(jié) 15第六章結(jié)論 156.1論文總結(jié) 156.2改進(jìn)方向 16摘要:本畢設(shè)是一個(gè)通過(guò)Python語(yǔ)言的Scrapy框架收集數(shù)據(jù),并依據(jù)一定的金融知識(shí)對(duì)數(shù)據(jù)進(jìn)行篩選,最終給出股票投資規(guī)劃的分析系統(tǒng)。通過(guò)在股票行情網(wǎng)站的數(shù)據(jù)的收集和分析,本系統(tǒng)最終可以幫助人在投資股票時(shí)做出合理的規(guī)劃。本畢設(shè)基本完成了預(yù)定的計(jì)劃,能夠從股票網(wǎng)站中合理的搜集數(shù)據(jù),并依照所學(xué)金融知識(shí)做出分析,逐步篩選數(shù)據(jù),基本能夠給出一份依照金融學(xué)知識(shí)的投資名單。關(guān)鍵詞:股票,Python,Scrapy框架第一章引言1.1研究背景二十一世紀(jì)以來(lái),我們的生活隨著計(jì)算機(jī)技術(shù)的發(fā)展開(kāi)始了日新月異的變化,計(jì)算機(jī)技術(shù)的應(yīng)用逐步的改變我們?cè)镜纳?,乃至于成為了不可替代的一部分。隨著“互聯(lián)網(wǎng)+”戰(zhàn)略的提出[1],傳統(tǒng)行業(yè)與計(jì)算機(jī)技術(shù)的結(jié)合已經(jīng)成為一種必然的趨勢(shì),尤其是與金融產(chǎn)業(yè)的結(jié)合已經(jīng)被廣泛的認(rèn)可和執(zhí)行。金融產(chǎn)業(yè)需要及時(shí)的信息交流以及大量的數(shù)據(jù)處理,而不管是大量數(shù)據(jù)的搜集,還是對(duì)大量的數(shù)據(jù)進(jìn)行比較篩選,這些都離不開(kāi)計(jì)算機(jī)技術(shù)的幫助。同樣的,作為個(gè)人,也可應(yīng)通過(guò)應(yīng)用計(jì)算機(jī)技術(shù),初步的參與金融行業(yè),其中最常見(jiàn)的行為就是投資股票。一方面,投資股票市場(chǎng)有利于國(guó)家經(jīng)濟(jì)的發(fā)展,第一,股市是國(guó)家經(jīng)濟(jì)支撐的重要部分;第二,股市是融資市場(chǎng),也是投資市場(chǎng);第三,炒股是需要交手續(xù)費(fèi)的,每交易一次都會(huì)交相對(duì)應(yīng)的手續(xù)費(fèi)[2]。另一方面,投資股票市場(chǎng)可以幫助自己抵御風(fēng)險(xiǎn)。比如2020年突發(fā)的新冠疫情導(dǎo)致經(jīng)濟(jì)下行,如果有相應(yīng)的副業(yè)以作支撐就可以比較成功的抵御風(fēng)險(xiǎn),其中投資股市由于分散精力少是很適合成為副業(yè)的。 綜上,投資股票市場(chǎng)既有利于國(guó)家經(jīng)濟(jì)發(fā)展,又有能幫助個(gè)人進(jìn)行風(fēng)險(xiǎn)規(guī)避,最重要的是在計(jì)算機(jī)技術(shù)的發(fā)展和支持下,個(gè)人有能力對(duì)自己的投資做出合理規(guī)劃,所以可以預(yù)計(jì),未來(lái)會(huì)有越來(lái)越多的人投身股市。1.2研究意義根據(jù)Mob研究院的數(shù)據(jù),2020年股民規(guī)模已經(jīng)破億,95后的股民已經(jīng)進(jìn)入股市,其中約有一半人的月收入在5000元以下,一半人的學(xué)歷不足本科[3]。有相當(dāng)多的人不能輕松承擔(dān)炒股可能的風(fēng)險(xiǎn),或是缺乏一定的金融知識(shí)難以對(duì)自己的投資做出合理規(guī)劃。所以如果能依據(jù)一定的金融學(xué)知識(shí),幫助他們做出合理的股票投資規(guī)劃或是給出一些參考意見(jiàn),不僅有利于他們自身的經(jīng)濟(jì)狀況的改善,更進(jìn)一步說(shuō),能夠更好的幫助整體金融產(chǎn)業(yè)的發(fā)展,使得投資更加集中于優(yōu)質(zhì)的公司,對(duì)整體經(jīng)濟(jì)起到促進(jìn)作用。1.3系統(tǒng)概述 本系統(tǒng)主要是基于Python的Scrapy框架進(jìn)行開(kāi)發(fā)和設(shè)計(jì)的。本系統(tǒng)基本步驟為從雪球網(wǎng)[5]合理的獲取足夠的股票信息,然后對(duì)這些數(shù)據(jù)逐步的篩選,最后得出可供選擇的投資名單。其中,收集信息步驟分為用Scrapy框架構(gòu)建爬蟲(chóng),調(diào)整爬蟲(chóng)參數(shù)以獲取數(shù)據(jù),然后對(duì)數(shù)據(jù)做初步處理以方便后續(xù)篩選。在具體的數(shù)據(jù)處理階段,主要分為四個(gè)步驟:根于ROE(凈資產(chǎn)收益率)篩選,剔除周期股票,剔除業(yè)績(jī)下滑的股票,最后檢驗(yàn)數(shù)據(jù)的真?zhèn)?,剔除?shù)據(jù)造假的股票。最終的結(jié)果是得出一個(gè)股票的建議投資名單。以上步驟的依照原理和具體操作,會(huì)在后續(xù)論文中詳細(xì)寫(xiě)明。1.4論文的主要內(nèi)容及章節(jié)安排論文章節(jié)安排如下:第1章:介紹我國(guó)金融展業(yè)與計(jì)算機(jī)技術(shù)緊密結(jié)合的時(shí)代背景,以及畢設(shè)意義所在,并介紹本論文的章節(jié)安排。第2章:介紹系統(tǒng)開(kāi)發(fā)過(guò)程中用到的計(jì)算機(jī)技術(shù)和金融知識(shí)。第3章:介紹了系統(tǒng)的需求和基本設(shè)計(jì)。第4章:詳細(xì)介紹了系統(tǒng)的實(shí)現(xiàn)過(guò)程。第5章:對(duì)系統(tǒng)的數(shù)據(jù)收集功能和數(shù)據(jù)分析功能進(jìn)行測(cè)試。第6章:對(duì)于研究過(guò)程做出總結(jié),分析本系統(tǒng)進(jìn)一步發(fā)展的可能和方向。第二章計(jì)算機(jī)技術(shù)與金融知識(shí)2.1計(jì)算機(jī)相關(guān)技術(shù)2.1.1Python語(yǔ)言Python是由GuidovanRossum從八十年代末開(kāi)始,最終在荷蘭國(guó)家數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究所設(shè)計(jì)出來(lái)。它是一種面向編程邏輯,并使用第三方庫(kù)來(lái)完成程序運(yùn)行的語(yǔ)言,尤其善于解決各種問(wèn)題的計(jì)算部分的實(shí)現(xiàn),適用面十分廣泛[6]。Python語(yǔ)言特點(diǎn):(1)通用性:可以用于普世的計(jì)算問(wèn)的求解,不局限于某一特定領(lǐng)域的應(yīng)用,故此python語(yǔ)言的通用性是它最顯著的特點(diǎn)。(2)可讀性:通過(guò)縮進(jìn)實(shí)現(xiàn)的強(qiáng)制可讀性,使得編寫(xiě)的代碼干凈整潔,邏輯清晰。由于編程思維幾乎與人類(lèi)日常生活中的思維習(xí)慣一致,所以非常適合人類(lèi)閱讀。(3)易于編寫(xiě):Python語(yǔ)言有較少的底層語(yǔ)法元素,并且不去操作內(nèi)容,所以非常易于編寫(xiě)。(4)面對(duì)對(duì)象:Python既支持面向過(guò)程的函數(shù)編程也支持面向?qū)ο蟮某橄缶幊?。?)跨平臺(tái)性:大多數(shù)的Python程序即使不做任何改變,也可以可在主流計(jì)算機(jī)平臺(tái)上運(yùn)行。這無(wú)疑簡(jiǎn)化了我們的開(kāi)發(fā)流程。(6)第三方庫(kù):Python擁有大量的第三方庫(kù),這些庫(kù)是由全世界的Python使用者在自己的工作中逐漸形成的,并且第三方庫(kù)的數(shù)量依然在逐年快速的增長(zhǎng)。這些庫(kù)開(kāi)源開(kāi)放,任何人只需要很簡(jiǎn)單的操作,就可以安裝并使用這些庫(kù)。使用第三方庫(kù)可以減免很多重復(fù)的操作,提高工作效率,有利于整個(gè)python生態(tài)長(zhǎng)期向好[6]。2.1.2Scrapy框架Scrapy框架是一個(gè)功能強(qiáng)大并且運(yùn)行快速的網(wǎng)絡(luò)爬蟲(chóng)框架,是基于Python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)的重要技術(shù)路線(xiàn)[7]。Scrapy框架一共包含7個(gè)部分,其中5個(gè)部分為框架的主體部分,另外兩個(gè)為中間件。5個(gè)主體部分為Engine模塊,Scheduler模塊,Downloader模塊,Spider模塊和ItemPipeline模塊。在Engine模塊和Spider模塊之間,以及Engine模塊和Downloader模塊之間,有兩個(gè)中間件模塊,分別是DownloaderMiddlewares和SpiderMiddlewares。這些模塊行程的結(jié)構(gòu)一般稱(chēng)為“5+2”結(jié)構(gòu),他們共同構(gòu)成了Scrapy框架[7]。其中Engine模塊,Scheduler模塊,Downloader模塊在建立框架是就已經(jīng)實(shí)現(xiàn),他們分別實(shí)現(xiàn)以下功能:Engine模塊:負(fù)責(zé)Spider模塊、ItemPipeline模塊、DownLoader模塊、Scheduler模塊中間的數(shù)據(jù)傳遞。Scheduler模塊:負(fù)責(zé)接受Engine模塊發(fā)送過(guò)來(lái)的Request請(qǐng)求,并按照既定的方式對(duì)Request請(qǐng)求進(jìn)行調(diào)度,然后交還給Engine模塊。Downloader模塊:負(fù)責(zé)處理Engine模塊發(fā)送過(guò)來(lái)的Request,真實(shí)地連接互聯(lián)網(wǎng)并爬取數(shù)據(jù),將獲取的數(shù)據(jù)封裝為Response返還給Engine模塊。而Spider模塊和ItemPipeline模塊則需要用戶(hù)進(jìn)行配置。他們分別實(shí)現(xiàn)以下功能:Spider模塊:負(fù)責(zé)解析Downloader模塊返回的Response,產(chǎn)生Item(爬取項(xiàng))和新的Request(爬取請(qǐng)求)。(2)ItemPipeline模塊:負(fù)責(zé)以流水線(xiàn)方式處理Spider模塊產(chǎn)生的Item。用戶(hù)提交的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求以及從網(wǎng)絡(luò)上獲取的相關(guān)信息等一系列數(shù)據(jù),在這些模塊之間流動(dòng),形成數(shù)據(jù)流,其中有三條數(shù)據(jù)流為主要的數(shù)據(jù)流路徑。從Spider模塊開(kāi)始,經(jīng)過(guò)Engine模塊到達(dá)Scheduler模塊。在這條路徑中,Engine模塊從Spider模塊中獲得用戶(hù)的請(qǐng)求,然后轉(zhuǎn)發(fā)給Scheduler模塊。Scheduler模塊對(duì)爬取請(qǐng)求進(jìn)行調(diào)度。從Scheduler模塊開(kāi)始,經(jīng)過(guò)Engine模塊到達(dá)Downloader模塊。然后再?gòu)腄ownloader模塊傳回Engine模塊,最終到達(dá)Spider模塊。在這條路徑中,Engine模塊從Scheduler模塊獲得即將要爬取的網(wǎng)絡(luò)請(qǐng)求,通過(guò)DownloaderMiddlewares中間件發(fā)動(dòng)給Downloader模塊。Downloader模塊真實(shí)的鏈接互聯(lián)網(wǎng),并爬取相關(guān)的網(wǎng)頁(yè)。爬取結(jié)束后,Downloader模塊將所爬取的內(nèi)容封裝為Response 傳給Engine模塊,最后再通過(guò)SpiderMiddlewares中間件發(fā)送給Spider模塊。從Spider模塊開(kāi)始,經(jīng)過(guò)Engine模塊到達(dá)ItemPipeline模塊以及Scheduler模塊。Spider模塊首先處理從Downloader模塊獲得的Response ,產(chǎn)生兩個(gè)數(shù)據(jù)類(lèi)型,分別為爬取項(xiàng)Item和新的爬取請(qǐng)求Request。Engine模塊收到從Spider模塊發(fā)送的爬取項(xiàng)Item和新的爬取請(qǐng)求Request之后,將Item發(fā)送給ItemPipeline模塊,將Request發(fā)送給Scheduler模塊,從而為后續(xù)的數(shù)據(jù)處理,以及新的網(wǎng)絡(luò)爬蟲(chóng)請(qǐng)求做好準(zhǔn)備[7]。由以上三條主要路徑可以得出,Engine模塊中樞控制各個(gè)模塊的數(shù)據(jù)流,整個(gè)框架的執(zhí)行是從向Engine模塊發(fā)送請(qǐng)求開(kāi)始,到ItemPipeline模塊獲得數(shù)據(jù)為止[7]。所以在正式使用Scrapy框架時(shí),只需先編寫(xiě)Spider模塊和ItemPipeline模塊,就可以順利進(jìn)行工作。2.2金融知識(shí)2.2.1投資流派的介紹股票投資有很多不同的流派,其中自主要的有五個(gè),分別是技術(shù)投資派,宏觀(guān)投資派,有效市場(chǎng)派,成長(zhǎng)投資派和價(jià)值投資派。他們的基本介紹如下:技術(shù)投資派:以某只股票的價(jià)格當(dāng)前走勢(shì)為依據(jù),預(yù)測(cè)此股票未來(lái)的漲跌。宏觀(guān)投資派:認(rèn)為市場(chǎng)向好,則股市向好,故研究經(jīng)濟(jì)就可以指導(dǎo)投資規(guī)劃。有效市場(chǎng)派:認(rèn)為市場(chǎng)絕大多數(shù)情況下對(duì)股票的定價(jià)是正確的。成長(zhǎng)投資派:關(guān)注公司的未來(lái)是否會(huì)有足夠高的增長(zhǎng)。價(jià)值投資派:關(guān)注公司的現(xiàn)在是否有足夠低的價(jià)格[8]。其中技術(shù)投資派需要猜測(cè)市場(chǎng)情緒,宏觀(guān)投資派需要研究國(guó)家經(jīng)濟(jì),有效市場(chǎng)派則需要從各種渠道獲得消息,這三種投資流派對(duì)于普通個(gè)體來(lái)說(shuō)很難進(jìn)行實(shí)際操作。而另外兩種流派都是關(guān)注與公司本身的,一個(gè)側(cè)重于公司未來(lái)的發(fā)展,尋找資質(zhì)優(yōu)秀的公司與他共同成長(zhǎng);另一個(gè)側(cè)重于尋找當(dāng)前價(jià)格被低估的公司,低價(jià)買(mǎi)入,等市場(chǎng)發(fā)現(xiàn)他們的價(jià)格是再以高價(jià)賣(mài)出。由于數(shù)據(jù)需求量小,具體數(shù)據(jù)內(nèi)容基本公開(kāi),所以這兩種方法都適合一般個(gè)體進(jìn)行實(shí)際操作,在有足有的數(shù)據(jù)支撐的前提下,成長(zhǎng)投資派的收益一般會(huì)高于價(jià)值投資派,而且操作過(guò)程更為簡(jiǎn)便。所以,系統(tǒng)依照成長(zhǎng)投資派的操作原理和處理方式進(jìn)行開(kāi)發(fā)。2.2.2入場(chǎng)時(shí)機(jī)的判斷我們投資股票的獲益機(jī)制為在于在股票便宜時(shí)買(mǎi)入,在價(jià)格升高后視情況賣(mài)出,所以判斷一個(gè)只股票當(dāng)前的價(jià)格高低是投資的基礎(chǔ)。判斷的主要依據(jù)是市盈率PE和市凈率PB。其中:市盈率PE=市值凈利潤(rùn) 市凈率PB=市值凈資產(chǎn)市值為購(gòu)買(mǎi)本公司所需財(cái)產(chǎn),凈利潤(rùn)為公司一年的盈利,凈資產(chǎn)為公司當(dāng)前財(cái)產(chǎn)。[8]所以從公式可以的得出,市盈率是回本的時(shí)間,市盈率越低,則越能快速的賺回本金并開(kāi)始盈利;市凈率相當(dāng)于購(gòu)買(mǎi)本公司的價(jià)格與公司當(dāng)前資產(chǎn)的比值,數(shù)值越低,說(shuō)前公司當(dāng)前市場(chǎng)價(jià)格越低,越有投資價(jià)值。綜上,當(dāng)PB或者PE處于較低的價(jià)格時(shí),則這只股票有投資價(jià)值。既然單個(gè)股票可以通過(guò)的PE和PB來(lái)判斷,那么把股市看做一個(gè)整體,計(jì)算整體的PB和PE,有:市盈率(全體)=市值總和凈利潤(rùn)總和 市凈率(全體)=就可以對(duì)當(dāng)前的股市的大環(huán)境有一個(gè)初步的判斷。 由于股市的中重要的主體為滬深300和中證500,這800只股票基本決定了當(dāng)前的大環(huán)境,隨意只需要判斷這800只股票的總市盈率和市凈率,就可以進(jìn)而判斷整個(gè)股市是否應(yīng)該入場(chǎng)。最后,由于PB和PE是反映某個(gè)股票當(dāng)前的狀態(tài),所以不同股票互相之間比較沒(méi)有意義,應(yīng)該把一只股票的不同時(shí)期的PB的PE進(jìn)行對(duì)比,將最高點(diǎn)和最低點(diǎn)作為基準(zhǔn),判斷當(dāng)前的數(shù)值在一段時(shí)間以來(lái)所處的位置,用百分比來(lái)表示。同樣的,這個(gè)思路一樣可以拓廣到整體股市以及決定性的800只股票。最終就得到了我們判斷當(dāng)前是否應(yīng)該進(jìn)行投資的依據(jù)。即滬深300和中證500這兩個(gè)整體的任意一個(gè)整體滿(mǎn)足PE處于近十年數(shù)值的0-50%區(qū)間內(nèi)并且PB處于近十年數(shù)值的0-20%區(qū)間內(nèi),當(dāng)前市場(chǎng)適合投資。2.2.3白馬股的特征和篩選過(guò)程我們選取的投資流派是成長(zhǎng)投資流派,這種流派的核心是找“白馬股”并對(duì)白馬股進(jìn)行長(zhǎng)期跟蹤和投資。所以我們需要先明確什么才是“白馬股”。“白馬股”的特點(diǎn)有以下三個(gè):投資回報(bào)率高長(zhǎng)期業(yè)績(jī)優(yōu)秀信息相對(duì)可靠[9]以上三點(diǎn)必須同時(shí)滿(mǎn)足才可以認(rèn)定為“白馬股”,一旦不再同時(shí)滿(mǎn)足上述三個(gè)特點(diǎn),則不再是“白馬股”,需要果斷出手。依照這些特點(diǎn),我們就可以從眾多股票中篩選出“白馬股”,并對(duì)他們進(jìn)行長(zhǎng)期投資了,下面介紹詳細(xì)的篩選步驟。首先,白馬的第一個(gè)特點(diǎn)為投資回報(bào)率高,回報(bào)率的公式如下:投資回報(bào)率=賣(mài)入價(jià)格賣(mài)出價(jià)格而如果是長(zhǎng)期投資,則年化復(fù)合收益率如下:年化復(fù)合收益率=賣(mài)入價(jià)格賣(mài)出價(jià)格^以長(zhǎng)期投資為前提,一只股票的回報(bào)率與凈資產(chǎn)收益率密切相關(guān)凈資產(chǎn)收益率(ROE)=凈利潤(rùn)凈資產(chǎn)(2.5由于成長(zhǎng)投資流派是長(zhǎng)期投資,而在長(zhǎng)期投資時(shí),ROE近似等于年化符合收益率,是故選擇ROE長(zhǎng)期高的股票,就能夠?qū)崿F(xiàn)長(zhǎng)期的獲益。所以篩選“白馬股”的第一個(gè)步驟為篩選ROE連續(xù)7年≥15%的股票。其次,“白馬股”第二個(gè)特點(diǎn)為長(zhǎng)期業(yè)績(jī)優(yōu)秀,所以我們之后的步驟為剔除周期股和業(yè)績(jī)下滑的公司。首先是剔除周期股。周期股是指業(yè)績(jī)緊隨著經(jīng)濟(jì)周期而起伏的公司的股票。這種公司目前來(lái)看,甚至一段時(shí)間來(lái)看業(yè)績(jī)優(yōu)秀,單會(huì)隨著經(jīng)濟(jì)周期不可逆轉(zhuǎn)的下滑,而判斷經(jīng)濟(jì)周期是何時(shí)上升何時(shí)下降極為困難,而且需要時(shí)時(shí)密切關(guān)注,在判斷出周期性下行到來(lái)時(shí)及時(shí)拋售。這種做法不符合我們成長(zhǎng)投資流派的操作理念,所以刪除全部的周期股票。由于一只股票是否是周期股基本由公司本身所處行業(yè)決定,所以只需要判斷公司行業(yè)就可以快速高效的刪除周期股。一般認(rèn)為,以下四類(lèi)行業(yè)的股票為周期股:(1)作為工業(yè)基礎(chǔ)原材料的大宗商品相關(guān)行業(yè),比如采掘服務(wù)、鋼鐵、化工合成材料、化工新材料、石油礦業(yè)開(kāi)采、有色冶煉加工和化學(xué)制品等。(2)航運(yùn)業(yè),比如遠(yuǎn)洋運(yùn)輸、港口航運(yùn)、機(jī)場(chǎng)航運(yùn)、交運(yùn)設(shè)備服務(wù)等。(3)非生活必需品行業(yè)及與之相關(guān)的行業(yè),比如國(guó)防軍工、汽車(chē)整車(chē)、汽車(chē)零部件、建筑材料、建筑裝飾、房地產(chǎn)等。(4)非銀行的金融行,比如證券,保險(xiǎn)等。[8]依據(jù)股票所屬行業(yè),直接刪除屬于上述四類(lèi)的股票即可。然后是剔除業(yè)績(jī)下滑的公司,這些公司雖然不是周期股票,凈資產(chǎn)收益率也常年大于15%,但是目前已經(jīng)有了業(yè)績(jī)下滑的現(xiàn)狀,需要盡早剔除。判斷公司業(yè)績(jī)下滑的依據(jù)有以下方面:年度營(yíng)收增長(zhǎng)率=本年的營(yíng)業(yè)收入?去年的營(yíng)業(yè)收入去年的營(yíng)業(yè)收入(2.6年度凈利潤(rùn)增長(zhǎng)率=本年的凈利潤(rùn)?去年的凈利潤(rùn)去年的凈利潤(rùn)(2.7季度營(yíng)收增長(zhǎng)率=本季度的營(yíng)業(yè)收入?去年同季度的營(yíng)業(yè)收入去年同季度的營(yíng)業(yè)收入(2.8季度凈利潤(rùn)增長(zhǎng)率=本季度的凈利潤(rùn)?去年同季度的凈利潤(rùn)去年同季度的凈利潤(rùn)(2.9以上四個(gè)指標(biāo),只要有一個(gè)為負(fù)數(shù),明該公司業(yè)績(jī)已經(jīng)下滑,應(yīng)該及時(shí)剔除。最后,由于“白馬股”的第三個(gè)特點(diǎn)為信息相對(duì)可靠,我們需要檢驗(yàn)當(dāng)前股票列表中股票的數(shù)據(jù)真實(shí)性,最后一個(gè)步驟即為用小熊定理檢驗(yàn)。一般來(lái)說(shuō),股票的數(shù)據(jù)造假有一下幾種可能:公司真貨假賣(mài),雖然營(yíng)業(yè)收入很高,但實(shí)際貨物并沒(méi)有賣(mài)出。公司存貨造假。公司有破產(chǎn)可能。對(duì)于以上三種造假方式,我們可以用以下三條定理來(lái)一一檢驗(yàn)。小熊定理一:連續(xù)兩年應(yīng)收賬款上升幅度大于營(yíng)業(yè)收入上升幅度,則有真貨假賣(mài)風(fēng)險(xiǎn)。其中應(yīng)收賬款為企業(yè)賣(mài)產(chǎn)品給客戶(hù),但還未收的錢(qián),也就是客戶(hù)簽的白條。營(yíng)業(yè)收入為企業(yè)賣(mài)產(chǎn)品獲得的收入。小熊定理二:連續(xù)2年存貨增長(zhǎng)大于營(yíng)業(yè)收入增長(zhǎng)有可能存貨造假。小熊定理三:流動(dòng)負(fù)債大于流動(dòng)資產(chǎn),則有可能破產(chǎn)。其中流動(dòng)負(fù)債為一年內(nèi)必須要還的錢(qián),如應(yīng)付賬款、短期借款等。流動(dòng)資產(chǎn)為一年內(nèi)可變現(xiàn)的資產(chǎn),如貨幣資金、存貨、預(yù)付款項(xiàng)[8]。第三章系統(tǒng)需求與設(shè)計(jì)3.1系統(tǒng)的需求由于最后的輸出結(jié)果為一份可供參考的股票投資名單,所以從結(jié)果倒退需求,我們的系統(tǒng)首先需要大量的股票數(shù)據(jù)以從中選取“白馬股”,然后需要能對(duì)于大量股票的數(shù)據(jù)進(jìn)行分析以得出列表。所以系統(tǒng)主要由兩個(gè)模塊,分別為數(shù)據(jù)收集模塊和數(shù)據(jù)分析模塊。數(shù)據(jù)收集模塊方面,我們要有能力對(duì)于網(wǎng)上公開(kāi)的數(shù)據(jù)進(jìn)行收集和整理,所以需要一個(gè)Scrapy爬蟲(chóng)來(lái)爬取數(shù)據(jù),并對(duì)數(shù)據(jù)做初步整理。至于數(shù)據(jù)的分析方面,由于我們的操作過(guò)程其實(shí)是根據(jù)股票的數(shù)據(jù),決定是否從股票的列表中將其剔除,所以事實(shí)上我們需要編寫(xiě)一個(gè)程序以遍歷一個(gè)二維數(shù)據(jù)并對(duì)每一行做操作,這個(gè)需求可以用Python語(yǔ)言調(diào)用csv庫(kù)來(lái)實(shí)現(xiàn)。3.2系統(tǒng)的設(shè)計(jì)3.2.1數(shù)據(jù)收集模塊的設(shè)計(jì)本模塊需要構(gòu)建Scrapy爬蟲(chóng)以爬取股票相關(guān)網(wǎng)站,并最終輸出csv文件以便于后續(xù)數(shù)據(jù)處理?;具^(guò)程為安裝Python環(huán)境并下載和安裝Scrapy框架相關(guān)第三方庫(kù)。然后建議一個(gè)Scrapy爬蟲(chóng)框架,配置Spider模塊和ItemPipeline模塊,使其可以對(duì)相應(yīng)網(wǎng)站進(jìn)行數(shù)據(jù)的爬取和輸出爬取項(xiàng)目,最終輸出csv文件。3.2.2數(shù)據(jù)處理模塊的設(shè)計(jì)首先是對(duì)于上述得出的csv文件進(jìn)行補(bǔ)充,由于本人能力代碼有限,加之股票網(wǎng)站以當(dāng)前數(shù)據(jù)為主,而很少顯示往年數(shù)據(jù),所以需要通過(guò)愛(ài)問(wèn)財(cái)網(wǎng)站[4]進(jìn)行數(shù)據(jù)的填補(bǔ)。由于數(shù)據(jù)處理的過(guò)程依照篩選白馬股的四個(gè)步驟,所以通過(guò)Python語(yǔ)言調(diào)用csv庫(kù)實(shí)現(xiàn)處理二維數(shù)組即可實(shí)現(xiàn),編寫(xiě)工具為Pycharm。為了保證最后得出數(shù)據(jù)的可信度,每次做數(shù)據(jù)篩選時(shí),都需要生成并保留當(dāng)前篩選文件,以便后續(xù)查閱。第四章系統(tǒng)的實(shí)現(xiàn)4.1數(shù)據(jù)收集模塊的實(shí)現(xiàn)首先從Python官網(wǎng)下載安裝包并安裝,本次開(kāi)發(fā)使用的是Python3.7版本。然后安裝Scrapy框架,直接通過(guò)pip命令操作,輸入pipinstallscrapy,安裝結(jié)束后然輸入scrapy-h,對(duì)Scrapy框架的安裝進(jìn)行測(cè)試,正常輸出操作說(shuō)明則安裝成功,前期準(zhǔn)備工作完成。之后,則是新建Scrapy工程文件,首先用cd命令進(jìn)入選定地址開(kāi)始創(chuàng)建,輸入scrapystartprojectwork,work為工程名。之后在工程文件下創(chuàng)建爬蟲(chóng),輸入scrapygenspiderstockquote,Stock為爬蟲(chóng)名稱(chēng)。進(jìn)入先前選定文件夾,發(fā)現(xiàn)基本的框架已經(jīng)生成,接下來(lái)只需要配置stock.py,piplines.py,settings.py這三個(gè)文件,確??梢哉_的從網(wǎng)站爬取數(shù)據(jù)即可,對(duì)這三個(gè)文件的配置是本模塊設(shè)計(jì)的關(guān)鍵,下面對(duì)三個(gè)文件的配置思路和細(xì)節(jié)進(jìn)行詳細(xì)解釋?zhuān)海?)stock.py文件:stock文件關(guān)聯(lián)Spider模塊,我們需要讓他可以正確的向Engine模塊發(fā)送Request,由于個(gè)人代碼能力有限以及部分股票網(wǎng)站的存在反爬設(shè)計(jì),所以最后選擇雪球網(wǎng)進(jìn)行爬取,雪球網(wǎng)額的網(wǎng)址基本格式為股票代碼(例如SZ300783),所以我們將股票代碼依次輸入到S/之后,即可訪(fǎng)問(wèn)雪球網(wǎng)全部股票的具體數(shù)據(jù)。股票的具體代碼可以通過(guò)愛(ài)問(wèn)財(cái)網(wǎng)站[4]直接搜索并下載。然后查看網(wǎng)頁(yè)源代碼,發(fā)現(xiàn)我們所需要的具體信息在源代碼之中,如圖。3.1網(wǎng)頁(yè)源代碼中的具體信息首先用response函數(shù)獲取網(wǎng)頁(yè)代碼,然后新建字典變量以存儲(chǔ)關(guān)鍵信息。已知網(wǎng)頁(yè)中的具體信息是以表格形式存儲(chǔ)的,所以為從圖中代碼獲取關(guān)鍵信息,我們可以用BeautifulSoup庫(kù)對(duì)這段代碼進(jìn)行解析并提取數(shù)據(jù)。然后利用循環(huán)遍歷表格,并將關(guān)鍵數(shù)據(jù)寫(xiě)入字典保存,關(guān)鍵代碼如下:獲取網(wǎng)頁(yè)代碼:name=re.search(r'<divclass="stock-name">(.*?)</div>',response.text).group(1)獲取表格信息:tableHtml=re.search(r'"tableHtml":"(.*?)",',response.text).group(1)用BeautifulSoup庫(kù)對(duì)表格解析:soup=BeautifulSoup(tableHtml,"html.parser")table=soup.table最后循環(huán)遍歷表格,寫(xiě)入字典:infoDict.update({l[0].__str__():l[1].__str__()})至此,stock文件配置完畢。(2)piplines.py文件:此文件關(guān)聯(lián)ItemPipeline模塊,配置的重點(diǎn)在于正確處理接受的數(shù)據(jù)。主要操作有在使用爬蟲(chóng)時(shí),打開(kāi)文件;關(guān)閉爬蟲(chóng)時(shí),關(guān)閉文件;使用爬蟲(chóng)時(shí),處理文件。第三點(diǎn)為編寫(xiě)重點(diǎn),并且為后續(xù)數(shù)據(jù)處理方便,同時(shí)輸出csv文件:3.2在打開(kāi)文件時(shí)的具體操作,輸出csv文件(3)最后對(duì)setting.py文件做處理,使得能夠正常訪(fǎng)問(wèn)網(wǎng)站并爬取數(shù)據(jù),文件中已經(jīng)寫(xiě)好大量的配置方案,對(duì)其修改即可,修改內(nèi)容如下:ITEM_PIPELINES={'work.pipelines.stockPipeline':300,}至此,Scrapy的配置結(jié)束,可以進(jìn)行網(wǎng)頁(yè)的訪(fǎng)問(wèn)與內(nèi)容的獲取。數(shù)據(jù)搜集模塊的功能實(shí)現(xiàn)。4.2數(shù)據(jù)處理模塊的實(shí)現(xiàn)首先安裝Pycharm,然后建立select.py文件對(duì)數(shù)據(jù)進(jìn)行處理。調(diào)用csv庫(kù),方便后續(xù)對(duì)csv文件進(jìn)行操作:importcsv然后我們每次的操作均為根據(jù)特定數(shù)據(jù)符合情況與否,判斷整個(gè)一行數(shù)據(jù)的去去留,所以每次操作的代碼基本按照下方模式編寫(xiě):(1)明確兩個(gè)文件,a為進(jìn)行數(shù)據(jù)篩選的文件,b為將相應(yīng)數(shù)據(jù)寫(xiě)入的文件old_path='./a.csv'new_path='./b.csv'(2)打開(kāi)兩個(gè)文件進(jìn)行操作:withopen(old_path,'r',encoding='utf-8')asold_f,\open(new_path,'w',encoding='utf-8')asnew_f:f_csv_old=csv.reader(old_f)f_csv_new=csv.writer(new_f,lineterminator='\n')(3)進(jìn)入循環(huán),對(duì)二維函數(shù)的每一行進(jìn)行遍歷:fori,old_rowinenumerate(f_csv_old):判斷條件是否符合:(a)如果是對(duì)數(shù)據(jù)判斷:iffloat(old_row[a])>=x特定數(shù)據(jù)是否滿(mǎn)足條件,注意使用float函數(shù)使得表格中的數(shù)據(jù)可以進(jìn)行操作。(b)如果是對(duì)文字判斷,如剔除周期股:周期股相關(guān)參數(shù)有三個(gè)詞語(yǔ),使用“-”相連接,定義flag=1。提取參數(shù)list=old_row[2]剔除間隔符號(hào)content_list=list.split("-")然后用循環(huán)判定是否存在帶有周期股特征的詞語(yǔ),如果不存在,則flag+1。最后當(dāng)且僅當(dāng)flag=4,即3個(gè)詞語(yǔ)均與周期股無(wú)關(guān)時(shí),寫(xiě)入新文件。將符合條件的數(shù)據(jù)寫(xiě)入新文件:f_csv_new.writerow(old_row)按照上述格式,依次完成篩選ROE大于等于15%,剔除白馬股,剔除業(yè)績(jī)下滑股票,檢驗(yàn)數(shù)據(jù)安全四步操作,則數(shù)據(jù)分析系統(tǒng)實(shí)現(xiàn)完畢。第五章系統(tǒng)測(cè)試5.1測(cè)試思路 運(yùn)行Scrapy爬蟲(chóng)框架,從雪球網(wǎng)(/S/)獲取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行初步處理,輸出csv文件。 運(yùn)行sclect.py,對(duì)數(shù)據(jù)進(jìn)行篩選,逐步剔除ROE不足15%,周期股,業(yè)績(jī)下滑的股票,以及最終用小熊三定理檢測(cè)出數(shù)據(jù)不真實(shí)的股票。最終獲得一份值得投資的股票列表。5.2測(cè)試過(guò)程運(yùn)行爬蟲(chóng),輸入scrapycrawlstock圖4.1爬蟲(chóng)部分運(yùn)行過(guò)程得出數(shù)據(jù),以待進(jìn)一步處理。圖4.2stock爬蟲(chóng)得到的txt文件和csv文件由于后續(xù)分析需要很多往年數(shù)據(jù),而爬取往年數(shù)據(jù)難度過(guò)大,所以手動(dòng)搜索對(duì)數(shù)據(jù)進(jìn)行填充,可以直接在愛(ài)問(wèn)財(cái)網(wǎng)站輸入需要的數(shù)據(jù)進(jìn)行下載。圖4.3通過(guò)愛(ài)問(wèn)財(cái)網(wǎng)站進(jìn)行數(shù)據(jù)補(bǔ)充圖4.4處理后的數(shù)據(jù)在整合數(shù)據(jù)之后,運(yùn)行select.py,對(duì)數(shù)據(jù)進(jìn)行處理,結(jié)果如下圖4.4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年新推出二手房交易合同范本3篇
- 基于2025年度市場(chǎng)情況的營(yíng)銷(xiāo)合同的營(yíng)銷(xiāo)策略和營(yíng)銷(xiāo)目標(biāo)2篇
- 二零二五年餐飲店設(shè)備租賃合同范本及維護(hù)保養(yǎng)協(xié)議3篇
- 2025年授權(quán)培訓(xùn)協(xié)議合同范本:個(gè)性化定制培訓(xùn)合作框架3篇
- 二零二四賣(mài)房協(xié)議范本:住宅交易合同3篇
- 二零二五年建筑公司員工職業(yè)規(guī)劃與發(fā)展指導(dǎo)合同3篇
- 精2024年度智能家居系統(tǒng)安裝合同
- 二零二五年度互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)租賃合同4篇
- 2025版生態(tài)園林景觀(guān)設(shè)計(jì)施工一體化合同4篇
- 二零二五年房地產(chǎn)養(yǎng)老地產(chǎn)合作開(kāi)發(fā)合同3篇
- 2025年工程合作協(xié)議書(shū)
- 2025年山東省東營(yíng)市東營(yíng)區(qū)融媒體中心招聘全媒體采編播專(zhuān)業(yè)技術(shù)人員10人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年宜賓人才限公司招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- KAT1-2023井下探放水技術(shù)規(guī)范
- 駕駛證學(xué)法減分(學(xué)法免分)題庫(kù)及答案200題完整版
- 竣工驗(yàn)收程序流程圖
- 清華經(jīng)管工商管理碩士研究生培養(yǎng)計(jì)劃
- 口腔科診斷證明書(shū)模板
- 管溝挖槽土方計(jì)算公式
- 國(guó)網(wǎng)浙江省電力公司住宅工程配電設(shè)計(jì)技術(shù)規(guī)定
- 煙花爆竹零售應(yīng)急預(yù)案
評(píng)論
0/150
提交評(píng)論