會計研究方法論 第4版 課件 第9章 非結(jié)構(gòu)化數(shù)據(jù)分析方法_第1頁
會計研究方法論 第4版 課件 第9章 非結(jié)構(gòu)化數(shù)據(jù)分析方法_第2頁
會計研究方法論 第4版 課件 第9章 非結(jié)構(gòu)化數(shù)據(jù)分析方法_第3頁
會計研究方法論 第4版 課件 第9章 非結(jié)構(gòu)化數(shù)據(jù)分析方法_第4頁
會計研究方法論 第4版 課件 第9章 非結(jié)構(gòu)化數(shù)據(jù)分析方法_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主講人:XXX第九章非結(jié)構(gòu)化數(shù)據(jù)分析方法01文本分析方法02圖像分析方法03音頻分析方法目錄CONTENTS04視頻分析方法01文本分析方法文本書面語言的表現(xiàn)形式通常由具有完整、系統(tǒng)含義的一個或多個句子構(gòu)成文本分析從文本中提取特征項并進行量化的方法體系文本內(nèi)容的定性和定量分析(一)文本分析的含義信息來源公眾公司披露的文本外部專業(yè)機構(gòu)發(fā)布的文本媒體報道文本社交網(wǎng)絡(luò)文本(一)文本分析的信息來源(二)文本分析的實施數(shù)據(jù)搜集與準備文本分析使用的技術(shù)方法文本分析的實施01數(shù)據(jù)收集:從各信息來源獲取原始文本數(shù)據(jù)如數(shù)據(jù)庫、社交媒體、互聯(lián)網(wǎng)等信息來源數(shù)據(jù)清洗:對文本數(shù)據(jù)進行一系列預(yù)處理包括去除HTML標簽、糾正拼寫錯誤、過濾停用詞、詞干化、詞形還原等文本分詞:將連續(xù)的字序列重新分成詞語序列,尤其適用于中文文本1.數(shù)據(jù)收集與準備(二)文本分析的實施021.字典法:定義:基于預(yù)設(shè)的字典和規(guī)則識別目標文檔中的詞匯,通過統(tǒng)計計算得到文本的量化特征文本分析步驟:識別詞語識別句子特征提取2.文本分析的技術(shù)方法(二)文本分析的實施022.人工判別法:定義:由專業(yè)人員對文本進行分類和標注,適用于需要高精度的文本分類任務(wù)優(yōu)勢:基于人類的語言理解能力和專業(yè)知識與經(jīng)驗,克服字典法的局限性局限:人工識別工作量大2.文本分析的技術(shù)方法(二)文本分析的實施023.機器學習法:定義:利用訓練樣本進行反復(fù)訓練,獲得具有文本信息分類能力的模型基于是否需要輸入人工標簽的分類:有監(jiān)督的學習算法:根據(jù)人工標注的素材來引導計算機模擬人類行為無監(jiān)督的學習算法:利用聚類算法來識別文本特征2.文本分析的技術(shù)方法(二)文本分析的實施(三)文本特征1.文本數(shù)量3.文本可讀性文本特征2.文本情緒4.文本相似度01文本數(shù)量定義:對文本數(shù)據(jù)集進行的計數(shù),以度量與指定主體相關(guān)的某類文本的累計數(shù)量度量方法:計數(shù)特定時間段內(nèi)或數(shù)據(jù)集內(nèi)的文本條目數(shù)02文本情緒定義:文本所表達的情感極性

(如積極、消極、中性)或情感類別

(如喜悅、悲傷、憤怒)度量方法:字典法(三)文本特征03文本可讀性定義:衡量文本是否便于理解度量方法:Fog指數(shù)(Li,2008)04文本相似度定義:衡量兩個文本之間的相似程度度量方法基于關(guān)鍵詞匹配將文本映射到向量空間,計算余弦相似度深度學習算法(三)文本特征問題的提出分析師報告中的定性文本表述能否為信息使用者提供定量預(yù)測以外的增量信息理論分析與研究假設(shè)研究假設(shè):分析師報告總體文本語氣更積極(消極),投資者對有利(不利)定量預(yù)測信息的反應(yīng)更強研究設(shè)計與方法文本分析方法:樸素貝葉斯機器學習方法計算分析師報告層面總體語氣研究結(jié)果分析師報告文本意見更積極(消極)時,投資者對有利(不利)的分析師定量預(yù)測的反應(yīng)更強烈(四)圖像分析在會計學術(shù)研究中的應(yīng)用示例未來發(fā)展可考慮將文本信息整合到大數(shù)據(jù)的分析框架下02局限現(xiàn)有文獻從文本中提取的對象特征碎片化,未充分考慮各類文本特征間影響傳統(tǒng)的文本分析框架中,僅考慮文本自身,未考慮所研究的文本信息在各類文本中的位置01(五)文本分析的局限和未來02圖像分析方法圖像的定義“圖”指用點、線、符號、文字和數(shù)字等描繪事物的幾何特征、形態(tài)、位置及大小“像”是人的視覺系統(tǒng)所接受的圖在人腦中所形成的印象或認識圖像分析的定義將數(shù)學模型和計算機算法結(jié)合處理圖像,用來分析圖像的底層特征和上層結(jié)構(gòu),提取智能性信息,對圖像進行理解和解釋圖像分析過程對圖像的預(yù)處理、特征提取、分類和解釋數(shù)字圖像已轉(zhuǎn)換為由邏輯0和l組成的計算機可讀二進制格式的圖像圖像分析技術(shù)主要關(guān)注數(shù)字圖像的處理(一)圖像分析的含義與信息來源圖像的信息來源企業(yè)管理層與證券分析師的照片高管社交賬戶頭像年報中的董事長簽名審計報告中的注冊會計師簽名腦電圖衛(wèi)星云圖(一)圖像分析的含義與信息來源數(shù)據(jù)來源數(shù)據(jù)庫

財務(wù)報告互聯(lián)網(wǎng)公開數(shù)據(jù)第三方數(shù)據(jù)圖像預(yù)處理過程灰度化去噪對比度增強1.數(shù)據(jù)搜集和準備02人工標注法根據(jù)圖像內(nèi)容對圖像進行分類和標注軟件分析法提取圖像基本特征,并利用基本特征和標注后的圖像數(shù)據(jù)集訓練卷積神經(jīng)網(wǎng)絡(luò)等深度學習模型,以輸出需要預(yù)測的特征2.圖像分析的技術(shù)方法01(二)圖像分析的實施①人臉特征會計學指標:面部吸引力、面部寬高比、面部可信度②簽名圖像特征定義:人們書寫或簽字時的潛意識行為會計學指標:簽名圖像的大小④腦電圖和眼動儀成像特征定義:使用腦部電極和眼動追蹤眼鏡識別人類情緒的多模態(tài)圖形會計學指標:個體注意力③衛(wèi)星遙感成像特征定義:用于地球科學研究,包括生物圈、冰凍圈、水圈或大氣層的影響的分析產(chǎn)品會計學指標:燈光亮度指標(三)圖像特征問題的提出審計師的自戀程度如何影響其出具的審計報告質(zhì)量理論分析與研究假設(shè)自戀審計師的積極自我認知觀點,對審計質(zhì)量呈現(xiàn)出正向和負向的影響,凈效應(yīng)取決于哪種力量占主導地位審計師自戀程度的度量獲取上市公司年報中審計合伙人的簽名圖像,使用ImageJ軟件測量簽名大小,衡量審計師自戀程度研究結(jié)果審計質(zhì)量隨著審計合伙人自戀程度的增加而提高(四)圖像分析在會計學術(shù)研究中的應(yīng)用示例未來發(fā)展企業(yè)發(fā)布圖像信息更生動形象,圖像分析應(yīng)用場景將更廣泛圖像質(zhì)量提高,圖像分析準確性不斷提高未來的圖像分析技術(shù)需要更快的處理速度和更低的功耗02局限圖像來源少圖像分析技術(shù)耗用大量計算資源有些圖像屬于瞬時圖像,只能代表一次性事件01(五)圖像分析的局限和未來03音頻分析方法聲音定義:由聲源引起的分子振蕩產(chǎn)生的機械波音頻定義:可以被電腦或其他設(shè)備處理、存儲和傳輸?shù)穆曇舻谋磉_形式音頻分析:定義:從音頻數(shù)據(jù)中抽取出信息、并為音頻信號賦予含義分類:語音分析

、音樂分析、一般聲音分析優(yōu)點:提供言語無法表達的額外信息;幫助人們理解言語內(nèi)容;音頻中的信息難以被完全控制01(一)音頻分析的含義與信息來源會計學領(lǐng)域的音頻信息來源公司披露類音頻如電話會議公開宏觀會議類音頻如美國聯(lián)邦公開市場委員會FOMC會議的音頻交易場所環(huán)境聲音如芝加哥交易所國債期貨交易場所的日內(nèi)交易背景聲音02(一)音頻分析的含義與信息來源1.音頻的獲取2.音頻的預(yù)處理3.音頻的處理4.有效性的驗證驗證方法實驗驗證人工審查外部信息驗證機器學習法步驟:提取特征向量、應(yīng)用機器學習模型、預(yù)測輸出特征方法分類:直接應(yīng)用音頻分析模型和訓練機器學習模型人工識別法優(yōu)點:較為靈活缺點:成本高、可復(fù)制性低處理步驟格式轉(zhuǎn)換拆分其他預(yù)處理流程降噪對齊音頻現(xiàn)實的時間點獲取方法錄制從視頻中提取數(shù)據(jù)庫中獲取(最常用)(二)音頻分析的實施聲音情緒定義:衡量聲音的情緒和情感狀態(tài)度量方法:機器學習01聲音認知失調(diào)標記定義:反映在聲音中的個人認知失調(diào)程度度量指標:說謊可能性02發(fā)言者個人特征特征內(nèi)容:性別、年齡、口音、幽默感特征提取方法:機器學習03(三)音頻特征13242.理論分析與研究假設(shè)財務(wù)錯報的可能性與首席執(zhí)行官聲音中包含的認知失調(diào)標記的程度正相關(guān)1.問題的提出如何檢測財務(wù)錯報3.研究設(shè)計使用商用LVA軟件Ex-SenseProR識別音頻中的認知水平指標,度量認知失調(diào)程度4.研究結(jié)果聲音認知失調(diào)與公司的財務(wù)重述、重述公告日股價跌幅顯著正相關(guān)(四)音頻分析在會計學術(shù)研究中的應(yīng)用示例未來發(fā)展:音頻數(shù)量和種類的日趨豐富帶來研究潛力分析技術(shù)的應(yīng)用推動音頻特征的進一步豐富02局限可研究的音頻種類和樣本數(shù)量有限構(gòu)建獨特特征的成本較高01(五)音頻分析的局限和未來04視頻分析方法PART01視頻分析是從視頻中提取時間和空間維度特征的一系列方法,屬于計算機視覺領(lǐng)域。視頻包含音頻、視覺和文本等多種數(shù)據(jù),是信息高度密集型的數(shù)據(jù)類型。(一)視頻分析的含義與信息來源01視頻定義:對動態(tài)形式視覺信息的記錄,其中包括一系列單個畫面,通常伴隨著音頻分類:數(shù)字視頻和模擬視頻視頻分析定義:從視頻中提取時間和空間維度特征的一系列方法,包括對象檢測、動作識別、自動化安全和監(jiān)督等多種技術(shù)PPT中視頻分析主要指數(shù)字視頻分析優(yōu)點

提供與特定主體個人特征

(如五官、身高、音色、性格)有關(guān)的信息傳遞溝通中的各類非言語線索(如表情、肢體動作等)PART01視頻分析是從視頻中提取時間和空間維度特征的一系列方法,屬于計算機視覺領(lǐng)域。視頻包含音頻、視覺和文本等多種數(shù)據(jù),是信息高度密集型的數(shù)據(jù)類型。(一)視頻分析的含義與信息來源02視頻信息來源公司披露類視頻初創(chuàng)企業(yè)的推介視頻上市公司的上市路演視頻公司高管采訪類視頻新聞媒體對上市公司高管的采訪視頻公開宏觀會議類視頻如美國聯(lián)邦公開市場委員會會議1.視頻的獲取獲取來源數(shù)據(jù)爬取軟件或算法從互聯(lián)網(wǎng)中爬取錄制2.視頻的預(yù)處理預(yù)處理步驟匹配公司代碼視頻拆分視覺維度信息拆分(二)視頻分析的實施驗證方法替代性度量方法驗證人工審查4.有效性的驗證機器學習法直接應(yīng)用視頻分析模型

訓練機器學習模型人工識別法優(yōu)點:可度量視頻觀看者的主觀感受缺點:度量出的特征難以復(fù)制、成本過高且無法保證精確性3.視頻的處理(二)視頻分析的實施面部表情面部情緒:面部表達的情緒和情感狀態(tài)面部表情不對稱度:人臉一側(cè)相對于另一側(cè)的表情強度或肌肉參與程度的不對稱程度肢體語言身體擴張程度:身體四肢

(手和腳)和頭部的擴張程度溝通風格與印象發(fā)言者的綜合特征:如整體溝通風格、給觀眾留下的印象等(三)視頻特征01020304問題的提出管理層的身體運動是否與公司預(yù)測和估值信息中的有利報告以及公

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論