版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
匯報人:XX2024-01-11Python文件和數(shù)據(jù)格式化全面掌握目錄文件基本操作與讀寫數(shù)據(jù)類型與格式化輸出文件內(nèi)容格式化處理數(shù)據(jù)清洗與整理技巧實戰(zhàn)案例:Python在數(shù)據(jù)處理中的應用01文件基本操作與讀寫使用`open()`函數(shù)打開文件,指定文件名和打開模式(如讀取模式"r"、寫入模式"w"、追加模式"a"等)。打開文件使用`close()`方法關閉文件,釋放資源。關閉文件打開與關閉文件使用`read()`方法一次性讀取整個文件內(nèi)容。讀取整個文件逐行讀取讀取指定字符使用`readlines()`方法或循環(huán)遍歷文件對象逐行讀取。使用`read(size)`方法讀取指定數(shù)量的字符。030201讀取文件內(nèi)容寫入文件內(nèi)容寫入字符串使用`write()`方法將字符串寫入文件。寫入多行使用`writelines()`方法將字符串列表寫入文件,實現(xiàn)多行寫入。123使用`os.getcwd()`獲取當前工作目錄路徑。獲取當前路徑使用`os.path.join()`將目錄和文件名拼接成完整路徑。拼接路徑使用`os.path.split()`將完整路徑分割為目錄和文件名。分割路徑文件路徑處理02數(shù)據(jù)類型與格式化輸出數(shù)字類型包括整數(shù)(int)、浮點數(shù)(float)、復數(shù)(complex)等。字符串類型由零個或多個字符組成的有序字符序列,用單引號、雙引號或三引號表示。列表類型可以包含任意類型的對象,是有序的集合,可以隨時添加和刪除其中的元素。元組類型與列表類似,但元組的元素不能修改。字典類型由鍵和值組成的數(shù)據(jù)項構成的集合,是無序的。集合類型不包含重復元素的無序集合。Python基本數(shù)據(jù)類型格式化輸出方法010203使用`%`操作符進行格式化輸出:通過在字符串中插入格式占位符,然后使用`%`操作符將值填充到占位符中。使用`str.format()`方法進行格式化輸出:通過調用字符串的`format()`方法,并在其中使用花括號`{}`作為占位符,然后將值填充到占位符中。使用f-string進行格式化輸出:在Python3.6及更高版本中,可以使用f-string(格式化字符串字面值)進行格式化輸出。通過在字符串前加上`f`或`F`,然后在字符串中使用花括號`{}`作為占位符,并將變量或表達式放在占位符中。%%表示百分號本身。%x或%X表示十六進制數(shù),用于將整數(shù)轉換為十六進制字符串。%f表示浮點數(shù),用于將浮點數(shù)轉換為字符串。%s表示字符串,用于將對象轉換為字符串。%d表示十進制整數(shù),用于將整數(shù)轉換為字符串。字符串格式化操作符格式化輸出示例使用%操作符進行格式化輸出示例```pythonname="Alice"格式化輸出示例age=25print("Mynameis%sandI'm%dyearsold."%(name,age))格式化輸出示例格式化輸出示例```使用`str.format()`方法進行格式化輸出示例```pythonname="Bob"格式化輸出示例VSage=30print("Mynameis{}andI'm{}yearsold.".format(name,age))格式化輸出示例```使用f-string進行格式化輸出示例格式化輸出示例```pythonname="Charlie"格式化輸出示例格式化輸出示例01age=3502print(f"Mynameis{name}andI'm{age}yearsold.")```0303文件內(nèi)容格式化處理讀取特定格式文件內(nèi)容使用Python內(nèi)置函數(shù)`open()`打開文本文件,通過指定文件名和模式(如讀取模式"r")進行讀取,使用`read()`或`readlines()`方法讀取文件內(nèi)容。讀取CSV文件使用Python標準庫中的`csv`模塊,通過創(chuàng)建`csv.reader`對象來讀取CSV文件內(nèi)容,按行或按列進行數(shù)據(jù)處理。讀取JSON文件使用Python標準庫中的`json`模塊,通過`json.load()`函數(shù)讀取JSON文件內(nèi)容,將JSON數(shù)據(jù)轉換為Python對象(如列表或字典)進行處理。讀取文本文件寫入文本文件使用Python內(nèi)置函數(shù)`open()`打開或創(chuàng)建文本文件,通過指定文件名和模式(如寫入模式"w")進行寫入,使用`write()`方法將數(shù)據(jù)寫入文件。寫入CSV文件使用Python標準庫中的`csv`模塊,通過創(chuàng)建`csv.writer`對象來將數(shù)據(jù)按CSV格式寫入文件,可以設置列名、分隔符等參數(shù)。寫入JSON文件使用Python標準庫中的`json`模塊,通過`json.dump()`函數(shù)將數(shù)據(jù)轉換為JSON格式并寫入文件,可以設置縮進、排序等參數(shù)。將數(shù)據(jù)按指定格式寫入文件使用Python標準庫中的`os`模塊,通過`os.walk()`或`os.listdir()`函數(shù)遍歷指定目錄下的所有文件,獲取文件名列表。遍歷目錄根據(jù)文件名、擴展名或其他條件對文件進行過濾,選擇需要處理的文件。文件過濾對選定的多個文件執(zhí)行相同的讀寫操作,如批量讀取數(shù)據(jù)、批量寫入數(shù)據(jù)等。批量讀寫批量處理多個文件調整縮進和空格根據(jù)代碼規(guī)范或排版要求,調整代碼行的縮進和空格,使代碼結構更清晰易讀。代碼高亮顯示將代碼中的關鍵字、變量名、字符串等不同類型的文本設置為不同的顏色或樣式,提高代碼的可讀性。刪除空白行和注釋通過正則表達式匹配空白行和注釋行,將其從文件內(nèi)容中刪除,優(yōu)化文件排版。文件內(nèi)容排版優(yōu)化04數(shù)據(jù)清洗與整理技巧識別缺失值通過Pandas庫中的isnull()和notnull()函數(shù)識別數(shù)據(jù)中的缺失值。刪除缺失值使用dropna()函數(shù)刪除含有缺失值的行或列。填充缺失值使用fillna()函數(shù)對缺失值進行填充,可以指定填充的值或使用均值、中位數(shù)等統(tǒng)計量進行填充。缺失值處理利用箱線圖(BoxPlot)識別數(shù)據(jù)中的異常值,箱線圖通過四分位數(shù)(Q1、Q2、Q3)和IQR(內(nèi)四分位距)來確定異常值的范圍。箱線圖識別異常值通過計算數(shù)據(jù)的Z-Score(標準分數(shù)),將Z-Score大于3或小于-3的數(shù)據(jù)視為異常值。Z-Score識別異常值對于識別出的異常值,可以選擇刪除、替換為特定值或使用插值等方法進行處理。處理異常值異常值識別與處理數(shù)據(jù)類型查看使用dtypes屬性查看DataFrame中各列的數(shù)據(jù)類型。數(shù)據(jù)類型轉換使用astype()函數(shù)將數(shù)據(jù)轉換為指定類型,如int、float、str等。日期類型轉換使用to_datetime()函數(shù)將日期字符串轉換為Pandas的datetime類型,方便進行日期相關的操作。數(shù)據(jù)類型轉換數(shù)據(jù)排序與分組使用sort_values()函數(shù)對數(shù)據(jù)進行排序,可以指定排序的列和排序方式(升序或降序)。數(shù)據(jù)排序使用groupby()函數(shù)對數(shù)據(jù)進行分組,可以按照一個或多個列進行分組,并對分組后的數(shù)據(jù)進行聚合操作,如求和、均值、計數(shù)等。數(shù)據(jù)分組05實戰(zhàn)案例:Python在數(shù)據(jù)處理中的應用讀取CSV文件使用Python內(nèi)置的csv模塊,可以輕松讀取CSV文件中的數(shù)據(jù)。通過指定文件路徑和分隔符,可以將CSV文件中的數(shù)據(jù)讀取為Python中的數(shù)據(jù)結構,如列表或字典。數(shù)據(jù)清洗和處理讀取數(shù)據(jù)后,可以使用Python中的數(shù)據(jù)處理技巧,如列表推導式、字典操作和Pandas庫等,對數(shù)據(jù)進行清洗、轉換和計算。例如,可以篩選特定條件的數(shù)據(jù)、轉換數(shù)據(jù)類型、計算數(shù)據(jù)的統(tǒng)計指標等。數(shù)據(jù)可視化處理后的數(shù)據(jù)可以使用Matplotlib、Seaborn等可視化庫進行可視化展示,幫助更好地理解和分析數(shù)據(jù)。案例一:從CSV文件中讀取并處理數(shù)據(jù)案例二使用Pandas提供的to_excel()方法,可以將DataFrame對象保存為Excel文件。可以設置文件的保存路徑、工作表名稱、索引是否保存等參數(shù)。保存為Excel文件使用Python中的數(shù)據(jù)庫連接庫(如pymysql、psycopg2等)連接到相應的數(shù)據(jù)庫,并執(zhí)行查詢語句獲取數(shù)據(jù)。連接數(shù)據(jù)庫將查詢結果轉換為Pandas的DataFrame對象,以便進行后續(xù)的數(shù)據(jù)處理和分析。數(shù)據(jù)轉換案例三:批量修改圖片文件名并按規(guī)則排序修改文件名根據(jù)特定的命名規(guī)則,使用Python的字符串操作和正則表達式等功能,可以批量修改圖片文件的文件名。例如,可以按照日期、編號等規(guī)則對文件名進行排序和重命名。遍歷圖片文件使用Python的os模塊,可以遍歷指定目錄下的所有圖片文件,并獲取它們的文件名和路徑。文件排序修改文件名后,可以使用Python的sorted()函數(shù)對文件進行排序,以便更好地管理和查看圖片文件。定義函數(shù)根據(jù)特定的文本格式要求,可以自定義一個函數(shù)來實現(xiàn)特定格式的文本輸出。例如,可以定義一個函
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 粉撲收納架市場發(fā)展前景分析及供需格局研究預測報告
- 口琴產(chǎn)業(yè)鏈招商引資的調研報告
- 天然氣輸送結構的建造行業(yè)相關項目經(jīng)營管理報告
- 剪貼集產(chǎn)品供應鏈分析
- 大學或學院教育行業(yè)市場調研分析報告
- 寶石分級行業(yè)營銷策略方案
- 廁所除臭劑產(chǎn)品供應鏈分析
- 石油專用泥漿泵項目運營指導方案
- 縫紉用剪刀項目運營指導方案
- 電動軌道照明設備項目運營指導方案
- 防火墻通用技術規(guī)范
- 水污染控制工程第9章2PPT課件.ppt
- 鋼棧橋設計與施工要點
- 商檢知識要點
- 重慶市婦幼保健院進修人員申請表
- 鼻腔、鼻竇內(nèi)翻性乳頭狀瘤的放射治療
- 人教版小學英語主要句型匯總
- 人教2019新教材化學必修一課后習題整理
- 關于進一步規(guī)范機動車和駕駛員牌證工本費等收費項目和
- 英語教師行動研究案例
- 中國鐵塔股份有限公司室內(nèi)分布系統(tǒng)施工及驗收規(guī)范
評論
0/150
提交評論