Python金融數(shù)據(jù)分析與挖掘(微課版) 課件匯 黃恒秋 6-1.公司治理結構數(shù)據(jù) - 11-3.月行業(yè)聯(lián)動與輪動分析_第1頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件匯 黃恒秋 6-1.公司治理結構數(shù)據(jù) - 11-3.月行業(yè)聯(lián)動與輪動分析_第2頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件匯 黃恒秋 6-1.公司治理結構數(shù)據(jù) - 11-3.月行業(yè)聯(lián)動與輪動分析_第3頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件匯 黃恒秋 6-1.公司治理結構數(shù)據(jù) - 11-3.月行業(yè)聯(lián)動與輪動分析_第4頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件匯 黃恒秋 6-1.公司治理結構數(shù)據(jù) - 11-3.月行業(yè)聯(lián)動與輪動分析_第5頁
已閱讀5頁,還剩176頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章

金融數(shù)據(jù)基礎公司治理結構數(shù)據(jù)概述公司治理結構數(shù)據(jù)主要指標解讀公司治理結構數(shù)據(jù)概述第6章

公司治理結構,主要分為四個部分:基本信息、高管動態(tài)、股東股本和會議情況。基本信息反映了公司治理結構的基本內容,包括公司基本情況、股本結構是否變化、股東總數(shù)、前十大股東是否存在關聯(lián)、員工人數(shù)、離休職工人數(shù)、董事長持股數(shù)量與持股比例、總經理持股數(shù)量與持股比例、董事長與總經理是否兼任等;除此之外,還包括了董事、監(jiān)事和高管的年薪收入水平,公司的股權激勵和實施情況等。高管動態(tài)反映了“董監(jiān)高”管理層的個人簡歷信息、職務、年齡、教育背景、持股情況、激勵情況、活動情況、參會情況和個人投資行為。股東股本反映了十大股東和十大流通股東的持股性質、持股數(shù)量和持股比例,股本結構(未流通股:國有股、法人股、內部職工股、基金配售股、轉配股、優(yōu)先股、監(jiān)管層股、戰(zhàn)略投資者股等和流通股:A股、B股和H股)及其變動情況會議情況反映了董事會、監(jiān)事會、股東大會、戰(zhàn)略委員會、審計委員會、薪酬與考核委員會、提名委員會相關會議情況。公司治理結構數(shù)據(jù)主要指標解讀第5章

公司高管,包括姓名、職務、學歷、年薪、持股情況等?;谶@些信息,可以衍生出一些諸如董事長和總經理是否兼任,獨立董事人數(shù),管理層學歷水平、專業(yè)能力水平、平均年齡、專業(yè)背景是否與公司業(yè)務相符、持股占比等指標,進而研究公司管理層的管理能力等維度公司治理結構數(shù)據(jù)主要指標解讀第5章

高管增/減持股份,包括變動日期、高管姓名、增/減持數(shù)量、成交均價、交易方式等。高管作為最了解公司管理和經營狀況的知情人士,其一舉一動都備受市場的關注,也是研究公司當前發(fā)展境況的一個重要參考方面。如果大量高管通過市場競價密集增持本公司股份,說明可能看好公司發(fā)展或者有積極事件發(fā)生或能增加投資者信心。公司治理結構數(shù)據(jù)主要指標解讀第5章

股本結構變動情況,主要包括變動日期、變動原因、已流通股份和流通受限股份。事實上,為了確保公司的穩(wěn)定、持續(xù)經營和良好發(fā)展,公司控股股東或大股東(股份持有量較大者)、高管、戰(zhàn)略投資者等持有的股份及股權激勵股份和轉增股份,是受到一定的流通限制的,即獲得其股份之后,需經過一定時間之后才能上市交易,可能是幾個月、一年或幾年。這些受到流通限制的股份,可能是低于市場價格獲得,而且一般是公司的管理和經營利益相關方或者戰(zhàn)略投資方,為了保護廣大投資者,不得不采取的措施公司治理結構數(shù)據(jù)主要指標解讀第5章

十大股東的信息,包括股東名次、股東名稱、持股數(shù)量、持股比例和股份性質。十大股東一般是公司經營管理決策的重要制定者、執(zhí)行者和受益者,對公司的發(fā)展起到決定性作用,其持有公司股份比例反映了股權的集中程度。公司治理結構數(shù)據(jù)主要指標解讀第5章

股東人數(shù)的變化情況,包括截止日期、股東人數(shù)、股東人數(shù)變動幅度。股東人數(shù)的變化,可以直觀感受到公司的受歡迎程度、市場環(huán)境變化等,進一步可以研究籌碼的分散程度第6章

金融數(shù)據(jù)基礎財務報表數(shù)據(jù)概述財務報表數(shù)據(jù)主要指標解讀財務報表數(shù)據(jù)概述第6章

財務報表,主要包括上市公司資產負債表、利潤表和現(xiàn)金流量表。資產負債表,是反映企業(yè)在某一特定日期(如月末、季末、年末)全部資產、負債和所有者權益情況的會計報表。資產又分為流動資產和非流動資產,流動資產為短期內能變現(xiàn)的資產,如貨幣資金、交易性金融資產、短期投資凈額、應收票據(jù)、應收賬款、合同資產等;非流動資產為短期內不能變現(xiàn)的資產,比如債權投資、長期應收賬款凈額、投資性房地產凈額、固定資產凈額、在建工程凈額、工程物資、無形資產凈額、商譽凈額等。負債分為流動負債和非流動負債,流動負債為短期內需償還的負債,比如短期借款、應付票據(jù)、應付賬款、合同負債、應付職工薪酬、應交稅費、應交利息等;非流動負責為短期內無需償還的負債,如長期借款、租賃負債、長期應付款等。所有者權益,即企業(yè)資產扣除負債后,由所有者享有的剩余權益。所有者權益,也稱為股東權益,包括實收資本(或股本)、資本公積、盈余公積和未分配利潤。財務報表數(shù)據(jù)概述第6章

財務報表,主要包括上市公司資產負債表、利潤表和現(xiàn)金流量表。利潤表,反映企業(yè)在一定會計期間經營成果的報表,主要包括收入、成本和費用相關數(shù)據(jù)信息。營業(yè)總收入=營業(yè)收入+利息凈收入+其他業(yè)務收入。營業(yè)總成本=營業(yè)成本+稅金及附加+業(yè)務及管理費+銷售費用+管理費用+財務費用+研發(fā)費用+其他業(yè)務成本。營業(yè)利潤=營業(yè)總收入-營業(yè)總成本+其他收益及利潤。利潤總額=營業(yè)利潤+營業(yè)外收入-營業(yè)外支出。除此之外,還有一些常用的指標,比如基本每股收益、歸屬于母公司所有者的凈利潤等。財務報表數(shù)據(jù)概述第6章

財務報表,主要包括上市公司資產負債表、利潤表和現(xiàn)金流量表?,F(xiàn)金流量表,反映在某固定期間內(如每月或每季),企業(yè)現(xiàn)金(包含銀行存款)的增減變動情況表。主要包括三大塊內容:經營活動產生的現(xiàn)金流量凈額、投資活動產生的現(xiàn)金流量凈額和籌資活動產生的現(xiàn)金流量凈額。現(xiàn)金流量作為企業(yè)的生命線,對企業(yè)的生存和發(fā)展起到決定性作用,也是研究公司行業(yè)地位、資產和利潤質量的有力數(shù)據(jù)支撐。事實上,資產負債表和利潤表都是核算出來的,而現(xiàn)金流量表的數(shù)據(jù)是真實存在的銀行資金流水,做不得半點虛假。財務報表主要指標解讀第5章

資產類科目指標主要有貨幣資金、流動資產、非流動資產和總資產;負債類科目指標主要包括流動負債、長期借款、非流動負債和總負債;股東權益類科目指標包括股本、未分配利潤和所有者權益,其中所有者權益=總資產-總負債財務報表主要指標解讀第5章

主要指標包括營業(yè)總收入、營業(yè)總成本、營業(yè)利潤、利潤總額、所得稅和歸屬母公司凈利潤。這些指標均不難理解,反應的是上市公司經營成果,其中歸屬母公司凈利潤,就是歸屬上市公司所有者(股東)的凈利潤,上市公司凈利潤也通常是指這個指標。財務報表主要指標解讀第5章

投資活動包括實物投資(固定資產、在建工程等),也包括金融資產投資;籌資活動包括企業(yè)資本構成發(fā)生變化的活動,比如股本擴張或股本溢價或股本結構發(fā)生變化等,也包括債務結構發(fā)生變化,比如對外舉債、向銀行貸款或發(fā)行債券等行為。除投資活動和籌資活動之外,就是經營活動。第6章

金融數(shù)據(jù)基礎財務分析指標數(shù)據(jù)概述財務分析數(shù)據(jù)主要指標解讀財務分析指標數(shù)據(jù)概述第6章

財務分析指標數(shù)據(jù),屬于衍生指標,它們是基于財務報表數(shù)據(jù)和股票交易情況數(shù)據(jù),利用相關的專業(yè)公式或算法計算出來的。一般包括償債能力、運營能力、盈利能力、發(fā)展能力、每股指標和相關主要考察指標等。這里我們主要參考巨潮資訊網提供的財務分析指標來進行介紹,旨在一個拋磚引玉的作用財務分析主要指標解讀第5章

主要指標包括基本每股收益、每股凈資產、每股資本公積金、凈利潤增長率、營業(yè)總收入增長率和加權凈資產收益率。其中前三者屬于每股類指標,其計算方法分別為期末的凈利潤、所有者權益和資本公積金除以期末股本。凈利潤增長率和營業(yè)總收入增長率,屬于同比計算,即(本年度同期值-上年度同期值)/上年度同期值。凈資產收益率,其計算方法為凈利潤除以加權平均股東權益,反映的是單位資產獲利能力。財務分析主要指標解讀第5章

償還能力(也稱償債能力)的主要指標,包括流動比率、速動比率和資產負債率。其中流動比率=流動資產/流動負債,反應的是短期內能變現(xiàn)的資產與短期內需償還的負債之間的比率。一般地,比率越大,企業(yè)資產變現(xiàn)能力越強,償債能力亦越強。速動比率=(流動資產-存貨-預付賬款)/流動負債。相比流動比率,速動比率進一步扣除變現(xiàn)速度較慢的資產。資產負債率=總負債/總資產,反映了公司進行經營活動的能力和債權人發(fā)放貸款的安全程度。財務分析主要指標解讀第5章

運營能力的主要指標,包括應收賬款周轉率、存貨周轉率、流動資產周轉率、固定資產周轉率和總資產周轉率。其中應收賬款周轉率=期末營業(yè)收入/(應收賬款期末余額+應收賬款期初余額)*0.5;存貨周轉率=期末營業(yè)成本/(存貨期末余額+存貨期初余額)*0.5;流動資產周轉率=期末營業(yè)收入/(流動資產期末余額+流動資產期初余額)*0.5;固定資產周轉率=期末營業(yè)收入/(固定資產期末余額+固定資產期初余額)*0.5;總資產周轉率=營業(yè)收入/(總資產期末余額+總資產期初余額)*0.5。周轉率是衡量公司資產管理效率的指標,一般周轉率越高越有利,越能反映公司的運營能力。這里從收賬、存貨、流動資產、固定資產和總資產等幾個方面來進行考察財務分析主要指標解讀第5章

盈利能力和發(fā)展能力方面的主要指標,包括營業(yè)利潤率、凈利潤率、毛利率、總資產報酬率和營業(yè)收入增長率、總資產增長率、營業(yè)利潤增長率、凈利潤增長率、凈資產增長率;其中營業(yè)利潤率=營業(yè)利潤/營業(yè)收入,凈利潤率=凈利潤/營業(yè)收入,毛利率=(營業(yè)收入-營業(yè)成本)/營業(yè)收入,總資產報酬率=(利潤總額+利息支出)/(期末總資產+期初總資產)*0.5,類似地,總資產凈利潤率=凈利潤/(期末總資產+期初總資產)*0.5。而發(fā)展能力方面的指標,主要是考察其增長率,即(當年同期指標值-上年同期指標值)/上年同期指標值。第6章

金融數(shù)據(jù)基礎股票交易數(shù)據(jù)基本知識股票交易數(shù)據(jù)生產場景高頻數(shù)據(jù)(10檔行情)股票交易日頻數(shù)據(jù)和股票價格指數(shù)股票交易數(shù)據(jù)基本知識第6章

股票交易數(shù)據(jù)最主要是兩個方面:一個是價,包括成交價、委托價;一個是量,包括成交量、委托量;一般地,以日為單位的交易數(shù)據(jù)(統(tǒng)計當天的交易情況,比如開盤價、最高價、最低價、收盤價是多少,總成交量又是多少等),主要是成交價和成交量數(shù)據(jù),沒有委托價和量數(shù)據(jù)。以秒、分鐘為單位的交易數(shù)據(jù)(稱為高頻數(shù)據(jù)),則更為詳細,不僅包括成交價、成交量數(shù)據(jù),還包括委托量、委托價數(shù)據(jù)。股票交易數(shù)據(jù)基本知識第6章

我們以一個買賣白菜的市場為例,形象的解釋這些術語。為了公平起見,我們對日常的白菜市場制定一些規(guī)則。首先,有賣白菜的,我們稱為供應方,或者是賣方;同樣的,也有買白菜的,我們稱為需求方,或者是買方其次,這個菜市場有一個開放時間,比如9:15-15:00,其中11:30-13:00休息。為了使買賣雙方都有一個公平的價格,它應該由市場決定。9:15-9:25這10分鐘內,在場的買方都報出自己需要購買的數(shù)量和單價,賣方也報出自己能供應的數(shù)量及單價。10分鐘結束后,不允許再報了,我們要找到這樣一個價格,使得成交量最大化,就是第一筆成交價格,稱為開盤價,這個過程稱為集合競價。開盤價是買賣雙方最早的集體博弈的結果,比較有意義,為了讓雙方都有一個短暫的消化時間,9:25-9:30這5分鐘內不交易。9:30開始繼續(xù)交易,交易價格的產生不再是通過集合競價,而是進入連續(xù)競價階段。股票交易數(shù)據(jù)基本知識第6章

連續(xù)競價交易,即買賣雙方都可以隨時報出自己的數(shù)量和單價,但又是如何促成交易的呢?這里有一個原則,即價格越優(yōu)的報單就越排在前面,如果價格都一樣,則先報的排在前面,即價格優(yōu)先、時間優(yōu)先原則。何為優(yōu)的報價,對于買方,越高的報價就越優(yōu);對于賣方,越低的報價越優(yōu);這樣,只要符合買賣雙方的交易條件,就會連續(xù)成交,一直持續(xù)到結束。最后一筆交易的價格,即為收盤價。統(tǒng)計當天所有的交易,價格最高的即為最高價、最低的即為最低價。當然,交易也會產生交易量和交易金額等數(shù)據(jù)。最后,一天交易結束之后統(tǒng)計的數(shù)據(jù)稱為日頻數(shù)據(jù),一天只有一條記錄,主要指標數(shù)據(jù)是當天的開盤價、最高價、最低價、收盤價、總成交量、總成交金額。如果以秒或分鐘為頻率統(tǒng)計的數(shù)據(jù),稱為高頻數(shù)據(jù),他們主要是統(tǒng)計截止當前時間和相鄰兩個時間點產生的數(shù)據(jù)。高頻數(shù)據(jù)除了成交價格、成交量和金額之外,還有一些未成交的買賣雙方委托價格和委托量數(shù)據(jù)。如果把白菜比喻成股票等證券,白菜市場看成是證券交易所,買方和賣方看成投資者,產生的數(shù)據(jù)就是股票交易數(shù)據(jù)。股票交易數(shù)據(jù)生產場景第6章

我們可以想象這樣一個場景,一個投資者在券商的行情軟件提交委托訂單,而券商的行情軟件是與交易所交易系統(tǒng)聯(lián)網的,從而投資者的委托訂單被送達交易系統(tǒng),進行撮合成交。目前市場上有數(shù)量眾多的投資者、券商和相關交易所,他們共同構成了中國的證券期貨場內交易市場這里有兩個微觀數(shù)據(jù):一個是投資者的委托訂單數(shù)據(jù),稱為逐筆委托數(shù)據(jù);一個是交易所系統(tǒng)的成交數(shù)據(jù),稱為逐筆成交數(shù)據(jù)。這兩個數(shù)據(jù)是時間序列數(shù)據(jù),時間精確到毫秒,詳細完整地記錄了每一位投資者每一筆委托訂單信息及交易系統(tǒng)每一筆交易的成交信息。高頻數(shù)據(jù)則是由這兩個微觀數(shù)據(jù)加工而成股票交易數(shù)據(jù)生產場景第6章

高頻數(shù)據(jù)分為兩種:一種是超高頻數(shù)據(jù),比如以上的逐筆委托數(shù)據(jù)和逐筆成交數(shù)據(jù),這是一類比較特殊的高頻數(shù)據(jù);一種是通常意義上的高頻數(shù)據(jù),屬于等間隔取樣(或者等間隔的整數(shù)倍取樣,主要是因為取樣的時候,沒有對應的委托數(shù)據(jù)或成交數(shù)據(jù),則順延至下一次取樣,直到取樣成功為止)。這里的取樣,是指截止當前時間,統(tǒng)計匯總逐筆委托數(shù)據(jù)和逐筆成交數(shù)據(jù)而形成的行情數(shù)據(jù)(或稱快照數(shù)據(jù))。匯總統(tǒng)計過程是由交易所完成的,我們只需接收交易所發(fā)送的行情數(shù)據(jù)即可。根據(jù)統(tǒng)計匯總的頻率高低和內容的詳細程度不同,交易所分為基本行情(5檔)和深度行情(10檔和超高頻數(shù)據(jù))兩個品種。10檔高頻數(shù)據(jù)第6章

靜態(tài)字段:證券代碼、交易日期、昨收盤價時間字段:數(shù)據(jù)生成時間成交字段:(開、高、低、最新)價、截止當前總成交筆數(shù)、分筆期間成交筆數(shù)、

截止當前總成交量、分筆期間成交量、截止當前總成交額、分筆期間成交額委托字段:賣委托總量、賣委托加權平均價、委賣10至委賣01價、申賣量10至申賣量01、

買委托總量、買委托加權平均價、委買01至委買10、委買量01至委買量10.說明:數(shù)據(jù)生成時間,其實就是統(tǒng)計截止時間,假設數(shù)據(jù)生成時間是0941.230,這個時間通常是某筆交易發(fā)生的時間,則統(tǒng)計[0925.000,0941.230]該時間段內逐筆成交數(shù)據(jù)表的成交數(shù)據(jù),形成本條記錄的成交字段數(shù)據(jù),同時再統(tǒng)計[0915,0941.230]該時間段內有效的逐筆委托數(shù)據(jù)(不包括撤單的記錄),形成本條記錄的委托字段數(shù)據(jù)。換言之,成交字段數(shù)據(jù),就是截止0941.230該時間點,已經成交的事實,而委托字段數(shù)據(jù)則是可供選擇的有望在下一刻成交的總量和可能獲得的價格,為推斷未來成交情況提供基礎數(shù)據(jù)。10檔高頻數(shù)據(jù)第6章

10檔高頻數(shù)據(jù)第6章

10檔高頻數(shù)據(jù)第6章

10檔高頻數(shù)據(jù)第6章

以093013100這個數(shù)據(jù)生產時間的記錄為例,它表示的是平安銀行(代碼:000001)在20130301交易日(TRDDATE)內,截止093013100當前時間(DATATIME)的最高成交價(HIGHPX)為22.930最低成交價(LOWPX)為22.820最近一次交易的價格(最新價,LASTPX)為22.880,累計發(fā)生的總成交量(TOTALVOLUME)為1889900分筆期間的成交量(與上一條記錄之間的時間間隔發(fā)生的交易量,CQ)為10400可供購買的總量(即賣方的總供應量,TOTALOFFERQTY)為6470952其中賣方提供的最低價格(S01)為22.900賣方提供的最低價位上的供應量(SV01)為372617……日頻數(shù)據(jù)第6章

日頻交易數(shù)據(jù),主要是統(tǒng)計當天交易情況的數(shù)據(jù),上一節(jié)也提到,高頻交易10檔行情數(shù)據(jù)表最后一條記錄數(shù)據(jù)就是日頻交易數(shù)據(jù)的來源,字段包括股票代碼、交易日期、收盤價、成交量、成交金額、開盤價、最高價、最低價等。StkcdTrddtClsprcDnshrtrdDnvaltrdOpnprcHiprcLoprcAdjprcwdAdjprcnd3000152017-05-1532.883314184107995576.532.432.8832.35244.9883236.32463000152017-05-1633.8474677915804871132.833.8832.5251.8433242.93713000152017-05-1733.31373243012511258333.5733.933.26248.1923239.41523000152017-05-1822.235758990128095499.322.0622.4921.89249.7941239.66663000152017-05-1922.46449048145514093.822.2722.9522.02251.7044241.49943000152017-05-2222.574798200107396565.522.4622.8522253.6146243.3322……………………………………………………由于分紅送股轉增股等行為,正常的收盤價是不具可比性的,基于投資者權益不變的原則(假設投資者在除權之前購買了股票或者是一位長期投資者,公司的送股、轉增股和分紅等權益均享有,即個人的資產權益不發(fā)生變化),需要對這個收盤價做出調整,于是衍生出了常見的兩個指標:考慮現(xiàn)金紅利再投資的收盤價可比價和不考慮現(xiàn)金紅利再投資的收盤價可比價股票價格指數(shù)第6章

股票價格指數(shù),反映多只股票或股票投資組合整體趨勢的指標,比如:反映上海證券交易所A股整體趨勢的上證A股指數(shù);反映深圳證券交易所A股主板、中小板和創(chuàng)業(yè)板各板塊整體趨勢的深證主板指數(shù)、中小板指數(shù)和創(chuàng)業(yè)板指數(shù);反映中國大陸A股市場整體趨勢的滬深300指數(shù)(從上海、深圳兩個證券交易所選取具有代表性的300只股票作為樣本進行計算)。事實上,股票價格指數(shù)屬于衍生性指標,其基礎數(shù)據(jù)是個股交易數(shù)據(jù),其計算公式為:股票價格指數(shù)=指數(shù)所包含的股票總市值/指數(shù)所包含的股票基準日總市值。這里的總市值一般為調整性總市值,即根據(jù)不同的規(guī)則約束和調整機制,選擇個股范圍,并對參與計算的個股賦予不同的權重。股票價格指數(shù)第6章

為了方便理解,我們基于深圳創(chuàng)業(yè)板的所有股票2017年個股交易數(shù)據(jù),自建一個指數(shù)。StkcdTrddtClsprcDnshrtrdDnvaltrdOpnprcHiprcLoprc3000012017-01-0317.428140604898570217.3617.5217.343000012017-01-0417.7548001088465166217.4117.8917.333000012017-01-0517.6533944986008666217.7517.8617.613000012017-01-0617.4130020605243240417.6417.6617.383000012017-01-0917.4424145834205844017.3717.5417.313000012017-01-1017.3520724093604314717.3917.4717.323000012017-01-1117.6877575881.37E+0817.3518.1617.123000012017-01-1218.05107386841.93E+0817.6918.1417.453000012017-01-1317.4158797771.05E+0817.9618.117.4…………………………………………字段依次表示股票代碼、交易日期、收盤價、交易量、交易金額、開盤價、最高價和最低價。股票價格指數(shù)第6章

以2017年第一個交易日(2017-01-03)為基準日,基點設為1000點,其計算公式為:每日總市值/基準日總市值*1000,進一步地,我們還將其指數(shù)趨勢圖繪制出來importpandasaspdimportmatplotlib.pyplotaspltimportnumpyasnpplt.rcParams['font.sans-serif']='SimHei'df=pd.read_excel('創(chuàng)業(yè)板2017年個股交易數(shù)據(jù).xlsx')df1=df.groupby(['Trddt'])['Dnvaltrd'].sum()#分組統(tǒng)計每日總市值index=df1.values/df1.values[0]*1000#計算指數(shù)x=np.array(range(len(df1)))plt.figure(figsize=(8,6))plt.plot(x,index)plt.xticks(x[0:len(x):40],df1.index[0:len(x):40],rotation=45)plt.ylabel('指數(shù)')plt.title('2017年創(chuàng)業(yè)板自建指數(shù)走勢圖')plt.savefig('2017年創(chuàng)業(yè)板自建指數(shù)走勢圖')第7章

基礎案例案例介紹周最小最大交易日獲取股票價格指數(shù)周收益率計算案例介紹第7章

計算上證A股指數(shù)(代碼:000002)2017年的周收益率。周收益率=(周最大交易日收盤指數(shù)?周最小交易日收盤指數(shù))/周最小交易日收盤指數(shù)本案例使用了交易日歷表和指數(shù)日交易數(shù)據(jù)表MarkettypeClddtDaywkState12017-01-032O12017-01-043O12017-01-054O12017-01-065O12017-01-091O12017-01-102O12017-01-113O12017-01-124O12017-01-135O……………………IndexcdIdxtrd01Idxtrd050000022017-01-033283.450000022017-01-043307.450000022017-01-053314.390000022017-01-063302.790000022017-01-093320.530000022017-01-103310.490000022017-01-113284.370000022017-01-123266.040000022017-01-133259.27………………周最小和最大交易日獲取第7章

由于我們獲取的數(shù)據(jù)為日行情交易數(shù)據(jù),無法直接計算周收益率,需要對交易日歷數(shù)據(jù)進行處理,即找出每周的最大交易日和最小交易日。從交易日歷表的星期(Daywk)字段可以看出,當前星期值比下一個星期值大,其對應的交易日即為本周的最大交易日,下一個星期值對應的交易日即為下周的最小交易日。算法如下:輸入:交易日歷數(shù)據(jù)表date。輸出:周最小交易日和最大交易日列表list1和list2。Step1:定義空的列表list1和list2,將交易日歷表中的首個交易日添加到list1中。Step2:從第2個交易日開始至倒數(shù)第2個交易日,如果其星期值大于下一個交易日的星期值,

則將其交易日添加到list2中,下一個交易日添加到list1中。Step3:將最后的交易日添加到list2中。周最小和最大交易日獲取第7章

importpandasaspdx=pd.read_excel('TRD_Cale.xlsx')list1=['2017-01-03']list2=[]fortinrange(1,len(x)-1):p=x.iloc[t-1,[2]][0]q=x.iloc[t,[2]][0]ifq<p:list1.append(x.iloc[t,[1]][0])list2.append(x.iloc[t-1,[1]][0])list2.append('2017-12-29')周收益率計算第7章

獲得每周的最小交易日列表list1和最大交易日列表list2后,可以通過循環(huán)的方式,依次取最大交易日和最小交易日對應的收盤指數(shù),利用前面介紹的公式計算即可獲得周收益率指標數(shù)據(jù)。data=pd.read_excel('IDX_Idxtrd.xlsx')importnumpyasnpr=np.zeros(len(list1))foriinrange(len(list1)):p1=data.loc[data['Idxtrd01'].values==list1[i],'Idxtrd05'].valuesp2=data.loc[data['Idxtrd01'].values==list2[i],'Idxtrd05'].valuesr[i]=(p2-p1)/p1第0周的最大交易日2017年1月6日對應的收盤指數(shù)3302.76,減去第0周最小交易日2017年1月3日對應的收盤指數(shù)3283.45,再除以第0周最小交易日2017年1月3日對應的收盤指數(shù)3283.45,就可以得到周收益率指標數(shù)據(jù)為:0.00589015。周收益率計算第7章

importpandasaspdA=pd.read_excel('IDX_Idxtrd.xlsx')A['Idxtrd01']=pd.to_datetime(A.iloc[:,1])A['month']=A['Idxtrd01'].dt.monthA['week']=A['Idxtrd01'].dt.isocalendar().weekA_w=A.iloc[:,[2,4]]A_m=A.iloc[:,[2,3]]p1=A_w.groupby(['week'])['Idxtrd05'].first().valuesp2=A_w.groupby(['week'])['Idxtrd05'].last().valuesw_r=(p2-p1)/p1可參考第3章中的時間元素提取和分組統(tǒng)計方法進行計算,其方法更加簡潔,但是結果可能存在一些差異。第7章

基礎案例案例介紹指標計算案例介紹第7章

找出“計算機、通信和其他電子設備制造業(yè)”所有上市公司2015年~2017年連續(xù)3年凈利潤增長率都在40%以上的公司。當期凈利潤增長率=(當期凈利潤?上期凈利潤)/上期凈利潤。本案例使用的數(shù)據(jù)表包括:計算機、通信和其他電子設備制造業(yè)公司利潤表和股票行業(yè)基本信息表StkcdAccperB0020001010000162014-12-3152623527.860000162015-12-31-12568193150000162016-12-3195673028.030000162017-12-3150570251560000202014-12-317687620.270000202015-12-31-4200845.61………………StkcdStknmeNnindnmae000016深康佳A計算機、通信和其他電子設備制造業(yè)000020深華發(fā)A計算機、通信和其他電子設備制造業(yè)000021深科技計算機、通信和其他電子設備制造業(yè)000045深紡織A計算機、通信和其他電子設備制造業(yè)000050深天馬A計算機、通信和其他電子設備制造業(yè)000063中興通訊計算機、通信和其他電子設備制造業(yè)000066中國長城計算機、通信和其他電子設備制造業(yè)000068華控賽格計算機、通信和其他電子設備制造業(yè)………………指標計算第7章

上市公司凈利潤增長率指標計算的基本思路如下:首先需要選擇滿足2014年~2017年都存在利潤數(shù)據(jù)的上市公司,不滿足條件的刪除。其方法是將data2.xlsx中的Stkcd列轉化為序列,采用值統(tǒng)計函數(shù)value_counts()即可實現(xiàn)篩選。其次對滿足條件的股票代碼,采用循環(huán)的方式,依次取得4年的凈利潤數(shù)據(jù),將其轉化為Numpy數(shù)據(jù)組的形式,假設記為d,則3年的凈利潤增長率=(d[1:]-d[0:-1])/d[0:-1]。最后將結果整理為數(shù)據(jù)框的形式展現(xiàn)出來。指標計算第7章

#1.數(shù)據(jù)準備importpandasaspddt=pd.read_excel('data2.xlsx')code=dt['Stkcd'].value_counts()code=list(code[code==4].index)info=pd.read_excel('info.xlsx')S=pd.Series(info.iloc[:,1].values,index=info.iloc[:,0].values)#2.預定義列表,用于存放各年的凈利潤增長率,并賦值計算list1=[]list2=[]list3=[]list4=[]fortinrange(len(code)):d=dt.iloc[dt.iloc[:,0].values==code[t],2].values

r=(d[1:]-d[0:-1])/d[0:-1]iflen(r[r>0.4])==3:list1.append(S[code[t]])list2.append(r[0])list3.append(r[1])list4.append(r[2])#3.結果轉換為數(shù)據(jù)框D={'2015':list2,'2016':list3,'2017':list4}D=pd.DataFrame(D,index=list1)第7章

基礎案例案例介紹繪圖數(shù)據(jù)計算繪圖及圖形保存案例介紹第7章

本案例主要介紹股票日收盤價格、成交量的走勢圖以及月交易量分布餅圖的繪制技能,并進一步介紹了子圖的繪制方法。股票代碼交易日期收盤價交易量6000002017-01-0316.3162371256000002017-01-0416.33296587346000002017-01-0516.3264376466000002017-01-0616.18171955986000002017-01-0916.2149087456000002017-01-1016.1979967566000002017-01-1116.169193332……………………(1)繪制股票代碼600000日期為2017年1月3日—2017年1月20日的收盤價格走勢圖。(2)繪制股票代碼600000日期為2017年1月3日—2017年1月24日的交易量柱狀圖。(3)計算股票代碼600000,2017年1月—11月的交易量,并繪制其餅圖。(4)將以上的價格走勢圖、柱狀圖、餅圖在同一個figure上以子圖的形式繪制出來。任務如下:繪圖數(shù)據(jù)計算第7章

importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdata=pd.read_excel('trd.xlsx')dt=data.loc[data['股票代碼']==600000,['交易日期','收盤價','交易量']]I1=dt['交易日期'].values>='2017-01-03'I2=dt['交易日期'].values<='2017-01-20'dta=dt.iloc[I1&I2,:]y1=dta['收盤價']x1=range(len(y1))I3=dt['交易日期'].values>='2017-01-03'I4=dt['交易日期'].values<='2017-01-24'dta=dt.iloc[I3&I4,:]y2=dta['交易量']x2=range(len(y2))D=np.zeros((11))list1=list()forminrange(11):m=m+1ifm<10:m1='2017-0'+str(m)+'-01'm2='2017-0'+str(m)+'-31'mon='0'+str(m)else:m1='2017-'+str(m)+'-01'm2='2017-'+str(m)+'-31'mon=str(m)I1=dt['交易日期'].values>=m1I2=dt['交易日期'].values<=m2D[m-1]=dt.iloc[I1&I2,[2]].sum()[0]list1.append(mon)繪圖及圖形保存第7章

1.股票價格走勢圖繪制plt.figure(1)plt.plot(x1,y1)plt.xlabel(u'日期',fontproperties='SimHei')plt.ylabel(u'收盤價',fontproperties='SimHei')plt.title(u'收盤價走勢圖',fontproperties='SimHei')plt.savefig('1')繪圖及圖形保存第7章

2.交易量分布柱狀圖plt.figure(2)plt.bar(x2,y2)plt.xlabel(u'日期',fontproperties='SimHei')plt.ylabel(u'交易量',fontproperties='SimHei')plt.title(u'交易量趨勢圖',fontproperties='SimHei')plt.savefig('2')繪圖及圖形保存第7章

3.月交易量分布餅圖plt.figure(3)plt.pie(D,labels=list1,autopct='%1.2f%%')#保留小數(shù)點后兩位plt.title(u'月交易量分布圖',fontproperties='SimHei')plt.savefig('3')繪圖及圖形保存第7章

4.收盤價走勢圖、交易量分布圖和月交易量餅圖組成的3×1子圖plt.figure(4)plt.figure(figsize=(14,6))plt.subplot(1,3,1)plt.plot(x1,y1)plt.xlabel(u'日期',fontproperties='SimHei')plt.ylabel(u'收盤價',fontproperties='SimHei')plt.title(u'收盤價走勢圖',fontproperties='SimHei')plt.subplot(1,3,2)plt.bar(x2,y2)plt.xlabel(u'日期',fontproperties='SimHei')plt.ylabel(u'交易量',fontproperties='SimHei')plt.title(u'交易量趨勢圖',fontproperties='SimHei')plt.subplot(1,3,3)plt.pie(D,labels=list1,autopct='%1.2f%%')#保留小數(shù)點后兩位plt.title(u'月交易量分布圖',fontproperties='SimHei')plt.savefig('4')第7章

基礎案例案例介紹圖像繪制案例介紹第7章

今有中小板股票002001~002020共20個,以及2016年5月1日—2016年8月1日的交易數(shù)據(jù)StkcdTrddtClsprc0020012016-05-0320.990020012016-05-0420.420020012016-05-0520.490020012016-05-0618.70020012016-05-0918.670020012016-05-1019.07………………其中字段依次表示股票代碼、交易日期、收盤價。任務如下:(1)計算每只股票10日移動平均收盤價格數(shù)據(jù)。(2)繪制每只股票收盤價走勢圖和移動平均收盤價走勢圖,并用子圖的形式表示出來。案例介紹第7章

說明:每個figure按照2×2劃分,即每個figure繪制4只股票的收盤價走勢圖和移動平均價格走勢圖,20只股票則需要5個figure,使用循環(huán)的方式實現(xiàn)。提示:可以考慮使用Python中的取余運算來實現(xiàn),取余符號為%,例如:0%4=01%4=12%4=23%4=34%4=05%4=16%4=27%4=38%4=09%4=1……凡是取余為0的時候都需要創(chuàng)建一個figure,在這個figure中繪制4個子圖。圖形繪制第7章

importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplttrd=pd.read_excel('trd.xlsx')#獲取股票代碼,并轉化為列表的形式c=trd['Stkcd'].value_counts()code=list(c.index)#動態(tài)計算需要q個figure,#其中每個figure繪制4個子圖,每個子圖代表一個股票#初始值設置q=0q=0#循環(huán)對每一個股票繪制其圖形foriinrange(20):

#第i個股票的收盤價記為p,并計算其移動平均價

#構造繪圖的橫軸和縱軸坐標值

p=trd.loc[trd['Stkcd'].values==code[i],'Clsprc']

avg_p=p.rolling(10).mean()

x1=np.arange(0,len(p))

y1=p.values

y2=avg_p[9:]

x2=np.arange(9,len(p))

#如果i與4整除,代表需要重新建一個figure(每個figure有4個子圖)

ifi%4==0:

q=q+1

plt.figure(q)

plt.figure(figsize=(8,6))

plt.subplot(2,2,i%4+1)

plt.tight_layout()#用于設置圖像外部邊緣自動調整

plt.plot(x1,y1)

plt.plot(x2,y2)

plt.savefig(str(q))圖形繪制第7章

第7章

基礎案例案例介紹指標計算模型求解案例介紹第7章

滬深300指數(shù)作為中國股票價格指數(shù)的代表,也是中國股指期貨的標的指數(shù),對其走勢預測具有積極的現(xiàn)實意義與應用價值。今有滬深300指數(shù)2014年的交易數(shù)據(jù)。IndexcdIdxtrd01Idxtrd02Idxtrd03Idxtrd04Idxtrd05Idxtrd060003002014-01-022323.432325.992310.652321.98451942.90003002014-01-032311.972314.842280.892290.78597826.50003002014-01-062286.372286.372229.332238.646630040003002014-01-072222.312246.792218.6522384375310003002014-01-082240.642262.582228.422241.91513488.50003002014-01-092236.972258.892220.82222.22559870.40003002014-01-102216.522224.492200.222204.85541692.90003002014-01-1322072222.072183.62193.68501227.70003002014-01-142192.842214.122179.912212.85540499.50003002014-01-152210.022215.92193.82208.94489624……………………………………字段依次表示指數(shù)代碼、交易日期、開盤價、最高價、最低價、收盤價、成交量。案例介紹第7章

計算如下指標:A1(收盤價/均價):收盤價/過去10個交易日的移動平均收盤價。A2(現(xiàn)量/均量):成交量/過去10個交易日的移動平均成交量。A3(收益率):(當日收盤價?前日收盤價)/前日收盤價。A4(最高價/均價):最高價/過去10個交易日的移動均平均收盤價。A5(最低價/均價):最低價/過去10個交易日的移動平均收盤價。A6(極差):最高價?最低價(衡量波動性)。A7(瞬時收益):收盤價?開盤價。Y(決策變量):后交易日收盤價?當前交易日收盤價,如果大于0,記為1;如果小于等于0,記為?1。同時對指標A1~A7做標準化處理:(當前值?均值)/標準差,最終得到以下標準的數(shù)據(jù)結構形式。IDA1A2A3A4A5A6A7Y123……取后30行數(shù)據(jù)作為測試樣本,剩下的數(shù)據(jù)作為訓練樣本,分別利用神經網絡、支持向量機、邏輯回歸模型進行訓練及測試,獲得對應模型的準確率和預測準確率。指標計算第7章

1.計算特征指標X,即A1~A7importpandasaspdtd=pd.read_excel('index300.xlsx')A1=td['Idxtrd05']/td['Idxtrd05'].rolling(10).mean()A2=td['Idxtrd06']/td['Idxtrd06'].rolling(10).mean()A3=td['Idxtrd08']A4=td['Idxtrd03']/td['Idxtrd05'].rolling(10).mean()A5=td['Idxtrd04']/td['Idxtrd05'].rolling(10).mean()A6=td['Idxtrd03']-td['Idxtrd04']A7=td['Idxtrd05']-td['Idxtrd02']X={'A1':A1,'A2':A2,'A3':A3,'A4':A4,'A5':A5,'A6':A6,

'A7':A7}X=pd.DataFrame(X)X=X.iloc[9:-1,]#注意X從第10行數(shù)據(jù)開始,至倒數(shù)第1行指標計算第7章

2.計算決策變量Y#錯位相減,獲得指數(shù)的漲跌額,即收盤指數(shù)序列中的第2個元素至最后一個元素對應減去第1個元素至倒數(shù)第1個元素Y=td['Idxtrd05'].values[1:]-td['Idxtrd05'].values[:-1]#Y與X的下一個交易日對應,故Y的值從第11行數(shù)據(jù)開始#由于錯位相減是從第2行開始的,故指標從第10行開始取Y=Y[9:]#走勢標識設置Y[Y>0]=1Y[Y<=0]=-1#對應的Y值Y=Y.reshape(len(Y),1)模型求解第7章

1.訓練樣本與測試樣本的劃分x_train=X.iloc[:len(X)-30,:]Y_train=Y[:len(Y)-30]x_test=X.iloc[len(X)-30:,:]Y_test=Y[len(Y)-30:]2.模型訓練與求解#支持向量機模型fromsklearnimportsvmclf=svm.SVC(kernel='rbf')clf.fit(x_train,Y_train)rv1=clf.score(x_train,Y_train);R=clf.predict(x_test)R=R.reshape(len(R),1)Z=R-Y_testRs1=len(Z[Z==0])/len(Z)第7章

基礎案例案例介紹案例分析及計算案例介紹第7章

以申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司2015年的盈利能力指標數(shù)據(jù)為基礎字段名稱指標名稱說明F050502B凈資產收益率B凈利潤/股東權益平均余額(X1)F050102B資產報酬率B(利潤總額+財務費用)/平均資產總額(X2)F050202B總資產凈利潤率B凈利潤/總資產平均余額(X3)F051201B投入資本回報率(凈利潤+財務費用)/(資產總計?流動負債+應付票據(jù)+短期借款+一年內到期的非流動負債)(X4)F051501B營業(yè)凈利率凈利潤/營業(yè)收入(X5)F053301B營業(yè)毛利率(營業(yè)收入?營業(yè)成本)/營業(yè)收入(X6)F051401B營業(yè)利潤率營業(yè)利潤/營業(yè)收入(X7)F052101B成本費用利潤率(利潤總額)/(營業(yè)成本+銷售費用+管理費用+財務費用)(X8)采用K-均值聚類算法,將上市公司分為5類,并計算每類公司當年的總利潤平均增長率每類公司當年的總利潤平均增長率=(該類公司當年的總利潤平均值-該類公司上年的總利潤平均值)/該類公司上年的總利潤平均值。每類公司當年的總利潤平均值=(該類別中所有公司當年利潤之和)/該類別的公司數(shù)量案例分析及計算第7章

1.獲取2015年所有公司股票的財務指標數(shù)據(jù)importpandasaspdimportnumpyasnpdata=pd.read_excel('財務指標數(shù)據(jù).xlsx')data2=data.iloc[:,[0,2,3,4,5,6,7,8,9]]案例分析及計算第7章

2.對財務指標數(shù)據(jù)進行清洗#去掉小于0的指標值和nan值data2=data2[data2>0]data2=data2.dropna()3.對財務指標數(shù)據(jù)進行異常值處理#數(shù)據(jù)轉化為Numpy數(shù)組的形式,同時每個大于其均值8倍的指標視為異常值,并刪掉data2=data2.valuesforiinrange(1,9):data2=data2[data2[:,i]<8*np.mean(data2[:,i]),:]案例分析及計算第7章

4.選擇“計算機”行業(yè)所有上市公司的數(shù)據(jù)(本步驟可以通過內連接關聯(lián)獲?。念A處理過的財務指標數(shù)據(jù)中選擇申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司的數(shù)據(jù)。其處理過程分兩步。(1)獲取申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司的股票代碼。

dta=pd.read_excel('申萬行業(yè)分類.xlsx')

#申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司股票代碼

stkcd=dta.loc[dta['行業(yè)名稱'].values=='計算機','股票代碼'].values案例分析及計算第7章

4.選擇“計算機”行業(yè)所有上市公司的數(shù)據(jù)執(zhí)行算法如下:Step1:獲取預處理過的財務指標數(shù)據(jù)data2中的所有代碼,s=data2[:,0]。Step2:s循環(huán)地與申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司股票代碼stkcd做存在性判斷。Step3:得到滿足判斷條件的邏輯數(shù)組I,以I作為邏輯索引,取data2表中的元素即可。s=data2[:,0]I=s==stkcd[0]foriinrange(1,len(stkcd)):I1=s==stkcd[i]I=I|I1ddata=data2[I,:]#申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司股票代碼對應的財務數(shù)據(jù)#提取申萬行業(yè)分類表中“計算機”行業(yè)所有上市公司股票碼對應的財務指標數(shù)據(jù)X,用來做主成分分析。X=ddata[:,1:](2)從預處理過的財務指標數(shù)據(jù)中選擇滿足條件的數(shù)據(jù)。案例分析及計算第7章

5.對指標數(shù)據(jù)X做標準化處理#這里采用極差法進行標準化。fromsklearn.preprocessingimportMinMaxScalerscaler=MinMaxScaler()scaler.fit(X)X=scaler.transform(X)6.對標準化后的X做主成分分析fromsklearn.decompositionimportPCApca=PCA(n_components=0.95)#累計貢獻率為95%Y=pca.fit_transform(X)#提取的主成分tzxl=ponents_#返回特征向量gxl=pca.explained_variance_ratio_#返回主成分方差百分比(貢獻率)#對主成分Y做標準化處理(極差法)scaler=MinMaxScaler()scaler.fit(Y)Y=scaler.transform(Y)案例分析及計算第7章

Y1=0.3583×X1+0.3777×X2+0.4025×X3+0.4337×X4+0.375×X5+0.2696×X6+0.3205×X7+0.2508×X8Y2=0.3593×X1+0.1897×X2+0.1434×X4+0.4053×X4?0.3458×X5?0.658×X6?0.2331×X7?0.2076×X8Y3=0.0673×X1+0.0213×X2?0.0006×X3+0.32×X4?0.3328×X5+0.6801×X6?0.4713×X7?0.3118×X8Y1-綜合盈利能力因子;Y2-產品競爭力因子;Y3-管理能力因子案例分析及計算第7章

7.K-均值聚類分析fromsklearn.clusterimportKMeansmodel=KMeans(n_clusters=5,random_state=0,max_iter=1000)model.fit(Y)c=model.labels_#類標簽center=model.cluster_centers_#聚類中心center=pd.DataFrame(center)center.columns=['Y1','Y2','Y3']案例分析及計算第7章

7.K-均值聚類分析Fs=pd.Series(c,index=ddata[:,0])Fs=Fs.sort_values()co=pd.read_excel('公司基本信息表.xlsx')co1=pd.Series(co['Stknme'].values,index=co['Stkcd'].values)foriinrange(5):

q=co1[Fs[Fs==i].index]

q=pd.DataFrame(q)

q.to_excel('c'+str(i)+'.xlsx')類別股票代碼0科遠股份、合眾思壯、易聯(lián)眾、初靈信息、數(shù)碼科技、御銀股份、長亮科技、新國都、安碩信息、匯金股份、北信源、創(chuàng)業(yè)軟件、華平股份、久其軟件、華力創(chuàng)通、銀之杰、方直科技、美亞柏科、榕基軟件、東方通、英飛拓、新北洋、旋極信息、中威電子、科大訊飛、迪威迅、威創(chuàng)股份、新開普、立思辰、任子行、輝煌科技、天璣科技、遠光軟件1運達科技、朗瑪信息、華銘智能、東方國信、捷成股份、兆日科技、二三四五、康拓紅外、聯(lián)絡互動、思維列控、拓爾思、東方網力、世紀瑞爾2深科技、中科金財、太極股份、常山北明、浩豐科技、潤和軟件、航天長峰、高偉達、證通電子、川大智勝、寶信軟件、南天信息、皖通科技、金財互聯(lián)、四方精創(chuàng)、神州泰岳、萬達信息、云賽智聯(lián)、索菱股份、飛利信、方正科技、京天利、同有科技、漢鼎宇佑、創(chuàng)意信息、達實智能、數(shù)字政通、達華智能、千方科技、紫光股份、漢邦高科、易華錄、石基信息、榮之聯(lián)、中遠海科、天源迪科、華勝天成、海蘭信、朗科科技、東軟集團、榮科科技、同方股份、賽為智能、南威軟件、*ST中安3博彥科技、中科創(chuàng)達、久遠銀海、金橋信息、華東電腦、華宇軟件、藍盾股份、浙大網新、浪潮軟件、真視通、捷順科技、航天信息、金證股份、銀信科技、浪潮信息、信息發(fā)展、飛天誠信、佳都科技、聚龍股份、衛(wèi)士通、信雅達、神州信息、廣電運通、浩云科技、新大陸、中科曙光、東華軟件、神思電子、衛(wèi)寧健康、恒華科技、漢得信息4贏時勝、廣聯(lián)達、超圖軟件、用友網絡、恒生電子、綠盟科技、四維圖新、啟明星辰案例分析及計算第7章

8.計算每類公司2015年總利潤平均值增長率rd=pd.read_excel('利潤數(shù)據(jù).xlsx')r_c=[]#預定義每個類別總利潤平均增長率forninrange(5):#獲得第n類股票代碼列表cn=list(Fs[Fs==n].index)#預定義第n類股票2014年和2015年的總利潤值r1_n=0r2_n=0#循環(huán)地對第n類中的每個股票進行計算fortincn:#第n類股票中第t只股票I1=rd['Accper'].values=='2014-12-31'I2=rd['Accper'].values=='2015-12-31'I3=rd['Stkcd'].values==tindex1=I1&I3index2=I2&I3

#第n類股票中第t只股票2014年的利潤值r1=rd.loc[index1,'B002000101'].values#第n類股票中第t只股票2015年的利潤值r2=rd.loc[index2,'B002000101'].valuesiflen(r1)>0:r1_n=r1_n+r1iflen(r2)>0:r2_n=r2_n+r2#第n類股票2015年的總利潤平均值p2=r2_n/len(cn)#第n類股票2014年的總利潤平均值p1=r1_n/len(cn)#將總利潤平均增長率添加到r_c中r_c.append((p2-p1)/p1)#將每個類別的總利潤平均增長率添加到聚類中心后面列r_c=np.array(r_c)dt=np.hstack((center.values,r_c))dtt=pd.DataFrame(dt)dtt.columns=['Y1','Y2','Y3','r_c']案例分析及計算第7章

8.計算每類公司2015年總利潤平均值增長率中r_c列為各類公司的總利潤平均增長率。從圖7-21中可以看出,第2類(index為1)上市公司的綜合盈利能力最強,而且其產品競爭力和管理能力也相對較好,最終結果也可以看出,當年的總利潤平均增長率也最高第7章

基礎案例問題描述數(shù)據(jù)預處理關聯(lián)規(guī)則挖掘問題描述第7章

為了探討國際上主要股票價格指數(shù)之間的漲跌關聯(lián)情況,選取12個主要國家或者地區(qū)中具有代表性的股票價格指數(shù)交易數(shù)據(jù),數(shù)據(jù)表包括國際股票價格指數(shù)基本信息表和國際股票價格指數(shù)日交易數(shù)據(jù)表。IndexcdIdxnmeDJI美國道瓊斯工業(yè)指數(shù)FCHI法國CAC40指數(shù)FTSE英國富時100指數(shù)GDAXI德國DAX指數(shù)HSI中國香港恒生指數(shù)KS11韓國KOSPI指數(shù)MCIX俄羅斯Micex指數(shù)N225日本日經225SENSEX印度孟買30指數(shù)STI富時新加坡海峽時報指數(shù)TWII中國臺灣加權指數(shù)000300中國滬深300指數(shù)IndexcdTrddtOpnidxHighidxLowidxClsidxDJI2010-01-0410430.6910604.9710430.6910583.96DJI2010-01-0510584.5610584.5610522.5210572.02DJI2010-01-0610564.7210594.9910546.5510573.68DJI2010-01-0710571.1110612.3710505.2110606.86DJI2010-01-0810606.410619.410554.3310618.19DJI2010-01-1110620.3110676.2310591.5910663.99DJI2010-01-1210662.8610663.0810568.8410627.26………………………………其中字段依次為指數(shù)代碼、交易日期、開盤指數(shù)、最高指數(shù)、最低指數(shù)、收盤指數(shù)。數(shù)據(jù)區(qū)間從2010年1月至2019年8月。問題:在一國或地區(qū)由于受某事件的影響造成其主要股票價格指數(shù)下跌幅度較大時,另一國或地區(qū)的主要股票價格指數(shù)在同期是否也會有較大幅度的下跌?注意,這里下跌幅度較大定義為:跌幅大于等于0.5%。數(shù)據(jù)預處理第7章

(1)計算各指數(shù)的跌幅指標數(shù)據(jù),其中跌幅計算公式為:

(當日收盤指數(shù)?上日收盤指數(shù))/上日收盤指數(shù)為了便于關聯(lián)規(guī)則挖掘,我們將跌幅指標數(shù)據(jù)轉化為0、1布爾值,即跌幅大于等于0.5%記為1,否則為0。圖中第一行代表了中國滬深300指數(shù)的跌幅數(shù)據(jù),其中2010年1月5日的值為0,表示跌幅沒有超過0.5%,而2010年1月6日的值為1,表示當日跌幅超過了0.5%。數(shù)據(jù)預處理第7章

(2)各指數(shù)交易日期做一致化處理。事實上,不同國家或地區(qū)的交易日期并不完全相同,為了便于挖掘有意義的關聯(lián)規(guī)則,需要在所有指數(shù)交易日均相同的情況下進行挖掘。這里以中國滬深300指數(shù)交易日為篩選基準。顯示12個國際指數(shù),2010年1月至2019年8月的共同交易日一共1569個,基于一致化的交易日期,就可以構造關聯(lián)規(guī)則挖掘所需的布爾數(shù)據(jù)集了。數(shù)據(jù)預處理第7章

(3)構造關聯(lián)規(guī)則挖掘所需的布爾值數(shù)據(jù)集,其結果如下。道瓊斯工業(yè)指數(shù)DJI在2010年1月15日的收盤指數(shù)跌幅在0.5%以上,中國滬深300指數(shù)當日的收盤指數(shù)跌幅低于0.5%,而且12個國際指數(shù)交易日期也做了一致化處理,下面將基于該數(shù)據(jù)集挖掘關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘第7章

采用第5章介紹的一對一關聯(lián)規(guī)則挖掘算法,最小支持度設置為大于0.1,最小置信度為大于0.6。c=list(Data.columns)c0=0.6#最小置信度s0=0.1#最小支持度list1=[]#預定義定義列表list1,用于存放規(guī)則list2=[]#預定義定義列表list2,用于存放規(guī)則的支持度list3=[]#預定義定義列表list3,用于存放規(guī)則的置信度forkinrange(len(c)):forqinrange(len(c)):

#對第c[k]個項與第c[q]個項挖掘關聯(lián)規(guī)則

#規(guī)則的前件為c[k]

#規(guī)則的后件為c[q]

#要求前件和后件不相等ifc[k]!=c[q]:c1=Data[c[k]]c2=Data[c[q]]

I1=c1.values==1I2=c2.values==1

t12=np.zeros((len(c1)))t1=np.zeros((len(c1)))t12[I1&I2]=1t1[I1]=1sp=sum(t12)/len(c1)#支持度co=sum(t12)/sum(t1)#置信度

#取置信度大于等于c0的關聯(lián)規(guī)則ifco>=c0andsp>=s0:list1.append(c[k]+'--'+c[q])list2.append(sp)list3.append(co)#定義字典,用于存放關聯(lián)規(guī)則及其置信度、支持度

R={'rule':list1,'support':list2,'confidence':list3}#將字典轉化為數(shù)據(jù)框R=pd.DataFrame(R)#將結果導出到ExcelR.to_excel('rule1.xlsx')關聯(lián)規(guī)則挖掘第7章

IDrulesupportconfidence1DJI--FCHI0.13001910.682DJI--GDAXI0.12109620.6333333333FCHI--FTSE0.19184190.6644591614FCHI--GDAXI0.22498410.7792494485FTSE--FCHI0.19184190.7757731966FTSE--GDAXI0.18419380.7448453617GDAXI--FCHI0.22498410.8364928918GDAXI--FTSE0.18419380.6848341239KS11--HSI0.13957930.63662790710KS11--N2250.1389420.6337209311STI--HSI0.14404080.704049844一對一關聯(lián)規(guī)則挖掘結果如下:支持度在0.1以上、置信度在0.6以上的有11個關聯(lián)規(guī)則,其中置信度最高達83.65%,即德國DAX指數(shù)和法國CAC40指數(shù),其意義表示如果德國DAX指數(shù)下跌幅度大于等于0.5%,那么同期法國CAC40指數(shù)下跌幅度大于等于0.5%的可能性為83.65%。第8章

上市公司綜合評價指標選擇、數(shù)據(jù)處理主成分分析與綜合排名投資組合收益率計算與量化投資策略設計基于總體規(guī)模與投資效率指標的綜合評價(指標選擇)第8章

字段名稱字段中文名稱字段說明Stkcd股票代碼Accper會計年度2013-12-31、2014-12-31、2015-12-31、2016-12-31、2017-12-31B0011010

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論