第4章+字符串與正則表達(dá)式

上傳人：3*** IP屬地：湖北上傳時(shí)間：2023-01-11 格式：PPTX 頁(yè)數(shù)：134 大小：3.39MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩129頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第4章字符串與正則表達(dá)式肖川cxiao@outline字符串正則表達(dá)式正則表達(dá)式re模塊的方法正則表達(dá)式對(duì)象的方法2字符編碼ASCII1個(gè)字節(jié)128個(gè)字符組成，包括大小寫字母、數(shù)字0-9、標(biāo)點(diǎn)符號(hào)、非打印字符（換行符、制表符等4個(gè)）以及控制字符（退格、響鈴等）組成UTF-81～6個(gè)字節(jié)對(duì)世界上所有國(guó)家需要用到的字符進(jìn)行了編碼GB23121個(gè)字節(jié)表示英文，2個(gè)字節(jié)表示中文中國(guó)制定的中文編碼GBK對(duì)GB2312的擴(kuò)充CP936微軟在GBK基礎(chǔ)上完成的編碼34鍵盤上每個(gè)字符在計(jì)算機(jī)內(nèi)部都存儲(chǔ)為一個(gè)整數(shù)，這個(gè)整數(shù)值就是字符的ASCII碼：文件編碼采用不同的編碼意味著把同一字符存入文件時(shí)，寫入的內(nèi)容可能不同在Python3中，程序源文件默認(rèn)為UTF-8編碼，全面支持中文。無(wú)論數(shù)字、字母、漢字，都按一個(gè)字符對(duì)待，也可以使用中文作為變量名。56字符串駐留機(jī)制Python字符串駐留機(jī)制對(duì)于短字符串，將其賦值給多個(gè)不同的對(duì)象時(shí)，內(nèi)存中只有一個(gè)副本，多個(gè)對(duì)象共享該副本。長(zhǎng)字符串不遵守駐留機(jī)制。7字符串8字符串字符串是由字符(字母、數(shù)字、漢字、其他符號(hào))組成的一個(gè)序列。字符串必須被括在如下的一對(duì)符號(hào)里：一對(duì)單引號(hào)一對(duì)雙引號(hào)一對(duì)三單引號(hào)一對(duì)三雙引號(hào)9例10判斷一個(gè)變量是否為字符串判斷一個(gè)變量s是否為字符串使用內(nèi)置函數(shù)isinstance(s,str)11字符串字符串屬于不可變序列類型支持序列通用方法，包括切片操作支持特有的字符串操作方法。12課堂練習(xí)：把一個(gè)字符串

分行輸出，每行1個(gè)字符13課堂練習(xí)：把一個(gè)字符串

分行輸出，每行2個(gè)字符14課堂練習(xí)：把一個(gè)字符串

分行輸出，每行n個(gè)字符15課堂練習(xí)：把一個(gè)字符串

分m行輸出，m由用戶指定16字符串常量>>>importstring>>>string.digits

#數(shù)字字符'0123456789'>>>string.punctuation

#標(biāo)點(diǎn)符號(hào)'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'>>>string.ascii_letters

#英文字母'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'>>>string.printable

#可打印字符'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~\t\n\r\x0b\x0c'>>>string.ascii_lowercase

#小寫字母'abcdefghijklmnopqrstuvwxyz'>>>string.ascii_uppercase

#大寫字母'ABCDEFGHIJKLMNOPQRSTUVWXYZ'17練習(xí)：刪除字符串中的

非字母和非數(shù)字的符號(hào)18字符串轉(zhuǎn)換方法lower()得到小寫格式字符串upper()得到大寫格式字符串capitalize()得到首字母大寫格式title()得到每個(gè)單詞首字母大寫格式swapcase()得到大小寫互換格式19示例輸入一個(gè)字符串，輸出大小寫互換的字符序列。要求不使用字符串對(duì)象的swapcase(.)方法。20代碼21互逆的兩個(gè)函數(shù)ord(.)與chr(.)函數(shù)ord(.)：字符ASCII碼22ASCII值‘\0’‘0’‘9’‘A’‘Z’‘a(chǎn)’‘z’

【del】字符04857659097122127函數(shù)chr(.)：ASCII碼字符自己實(shí)現(xiàn)大小寫字母轉(zhuǎn)換#ifxinstring.ascii_lowercase:‘\0’‘0’‘9’‘A’‘Z’‘a(chǎn)’‘z’

【del】字符#ifxinstring.ascii_uppercase:23字符串聯(lián)接函數(shù)——join(.)字符串聯(lián)接join()例：>>>li=["apple","peach","banana","pear"]>>>sep=",">>>s=sep.join(li)>>>s"apple,peach,banana,pear"不推薦使用+

連接字符串，優(yōu)先使用join()方法效率原因24join(.)舉例25練習(xí)輸入一個(gè)字符串，輸出以空格間隔的字符序列26獲取字符串表達(dá)式值內(nèi)置函數(shù)eval(.)>>>eval("3+4")7>>>a=3>>>b=5>>>eval('a+b')8>>>importmath>>>eval('help(math.sqrt)')Helponbuilt-infunctionsqrtinmodulemath:sqrt(...)sqrt(x)Returnthesquarerootofx.>>>eval('math.sqrt(3)')1.7320508075688772>>>eval('aa')Traceback(mostrecentcalllast):File"<pyshell#3>",line1,in<module>eval('aa')File"<string>",line1,in<module>NameError:name'aa'isnotdefined27獲取字符串表達(dá)式值>>>a=input("Inputavalue:")Pleaseinputa

value:__import__('os').startfile(r'C:\Windows\notepad.exe')>>>eval(a) #運(yùn)行notepad.exe程序，打開一個(gè)記事本窗口>>>eval("__import__('os').system('mdtesttest')")

28將數(shù)字轉(zhuǎn)換成字符串str(.)29練習(xí)：判斷是否為回文串回文串——一個(gè)左右對(duì)稱的字符串a(chǎn)baabbaa空串30代碼1.函數(shù)的其他寫法2.利用該函數(shù)找回文數(shù)31代碼32列出1000以內(nèi)所有的回文數(shù)33一種簡(jiǎn)單的加密和解密加密

對(duì)明文每m位提取其字符

到達(dá)末尾則回至頭部

已經(jīng)提取的不再提取

如：“abcde”，m=3

密文為：“caebd”解密

已知密文和m

如何恢復(fù)明文？34明文密文加密解密35報(bào)數(shù)出圈設(shè)有編號(hào)為1~n的n個(gè)人按順時(shí)針站成一個(gè)圓圈。首先從第1個(gè)人開始，按順時(shí)針從1開始報(bào)數(shù)，報(bào)到第m個(gè)人，令其出列。然后再?gòu)某隽械南乱粋€(gè)人開始，按順時(shí)針從1開始報(bào)數(shù)，報(bào)到第m個(gè)人，再令其出列，……。如此下去，直到圓圈不再有人為止。求這n個(gè)人出列的順序。36解題思路假設(shè)此圈共有rest個(gè)人，對(duì)應(yīng)x[0],x[1],x[2],…,x[rest-1]。假設(shè)這一輪報(bào)1的人對(duì)應(yīng)的元素下標(biāo)為curIndex(0<=curIndex<rest)，則報(bào)m的人對(duì)應(yīng)的數(shù)組元素下標(biāo)為(curIndex+m-1)%rest。把報(bào)m的人對(duì)應(yīng)的元素從列表中刪除(元素刪除導(dǎo)致rest自動(dòng)減1)。把curIndex賦值為剛才被刪除元素的下標(biāo)，之后進(jìn)行下一輪報(bào)數(shù)。x[0]x[1]x[2]x[rest-1]a[rest-2]x[curIndex]37x[0][1]……[rest-1]curIndexcurIndex+m-1x[0][1][2]……[rest-1]curIndexcurIndex+m-1…(curIndex+m–1)%rest…報(bào)數(shù)出圈代碼38加密39解密40字符串對(duì)齊的方法center(.)返回指定寬度的新字符串，原字符串居中，并使用指定字符(默認(rèn)空格)填充ljust(.)返回指定寬度的新字符串，原字符串左對(duì)齊，并使用指定字符(默認(rèn)空格)填充rjust(.)返回指定寬度的新字符串，原字符串右對(duì)齊，并使用指定字符(默認(rèn)空格)填充41打印三角形圖案(1)42打印三角形圖案(2)43打印三角形圖案(3)44打印三角形圖案(4)45打印三角形圖案(5)46打印三角形圖案(6)47打印三角形圖案(7)48習(xí)題1檢查兩個(gè)單詞是否為相似詞。兩個(gè)單詞如果包含相同的字母，則它們是相似詞。例如：silent和listen是相似詞。圖為程序分三次執(zhí)行，每次輸入及輸出，藍(lán)色為程序輸出，黑色為用戶輸入。49習(xí)題2用戶隨意輸入一串字符，程序依次在相鄰位置插入一個(gè)空格，逐行輸出。如右圖，黑色為用戶輸入，藍(lán)色為程序輸出：50字符串格式化51字符串格式化常用格式字符——與待格式化的表達(dá)式類型匹配格式字符說(shuō)明格式字符說(shuō)明%s字符串(采用str()的顯示)%x十六進(jìn)制整數(shù)%r字符串(采用repr()的顯示)%e指數(shù)(基底寫為e)%c單個(gè)字符%E指數(shù)(基底寫為E)%b二進(jìn)制整數(shù)%f、%F浮點(diǎn)數(shù)%d十進(jìn)制整數(shù)%g指數(shù)(e)或浮點(diǎn)數(shù)(根據(jù)顯示長(zhǎng)度)%i十進(jìn)制整數(shù)%G指數(shù)(E)或浮點(diǎn)數(shù)(根據(jù)顯示長(zhǎng)度)%o八進(jìn)制整數(shù)%%字符”%”52字符串格式化>>>x=1235>>>so="%o"%x>>>so"2323">>>sh="%x"%x>>>sh"4d3">>>se="%e"%x>>>se"1.235000e+03">>>"%s"%65"65">>>"%s"%65333"65333">>>"%d"%"555"Traceback(mostrecentcalllast):File"<pyshell#19>",line1,in<module>"%d"%"555"TypeError:%dformat:anumberisrequired,notstr53%常用格式舉例格式說(shuō)明10.2f格式化浮點(diǎn)數(shù)，總寬度為10，四舍五入到小數(shù)點(diǎn)后第2位10.2e以科學(xué)計(jì)數(shù)法表示浮點(diǎn)數(shù)，總寬度為10，系數(shù)保留到小數(shù)點(diǎn)后2位5d將整數(shù)格式化為總寬度為5的十進(jìn)制形式5o將整數(shù)格式化為總寬度為5的八進(jìn)制形式5x將整數(shù)格式化為總寬度為5的十六進(jìn)制形式5b將整數(shù)格式化為總寬度為5的二進(jìn)制形式50s將字符串格式化為總寬度為50的字符串，不足則補(bǔ)上空格50.2s截取字符串的前2位，將其格式化為總寬度為50的字符串，不足補(bǔ)空格-10.2f向左對(duì)齊格式化對(duì)象，若無(wú)符號(hào)(即默認(rèn))則是右對(duì)齊+10.2f格式化浮點(diǎn)數(shù)，如果是正數(shù)，則自動(dòng)加上正號(hào)+54字符串格式化—format(.)print("Thenumber{0:,}inhexis:{0:#x},thenumber{1}inoctis{1:#o}".format(5555,55))print("Thenumber{1:,}inhexis:{1:#x},thenumber{0}inoctis{0:#o}".format(5555,55))print("mynameis{name},myageis{age},andmyQQis{qq}".format(name="DongFuguo",age=37,qq

="306467355"))55字符串格式化—format(.)position=(5,8,13)print("X:{0[0]};Y:{0[1]};Z:{0[2]}".format(position))weather=[("Monday","rain"),("Tuesday","sunny"),("Wednesday","sunny"),("Thursday","rain"),("Friday","Cloudy")]formatter="Weatherof'{0[0]}'is'{0[1]}'".format

#方法對(duì)象foriteminmap(formatter,weather):

print(item)foriteminweather:print(formatter(item))56%與.format(.)方法的差異57查找方法find(.)、rfind(.)find()和rfind方法分別用來(lái)查找一個(gè)字符串在另一個(gè)字符串指定范圍（默認(rèn)是整個(gè)字符串）中首次和最后一次出現(xiàn)的位置，如果不存在則返回-1；index(.)、rindex(.)index()和rindex()方法用來(lái)返回一個(gè)字符串在另一個(gè)字符串指定范圍中首次和最后一次出現(xiàn)的位置，如果不存在則拋出異常；count(.)count()方法用來(lái)返回一個(gè)字符串在另一個(gè)字符串中出現(xiàn)的次數(shù)。58字符串常用方法>>>s="apple,peach,banana,peach,pear">>>s.find("peach")6>>>s.find("peach",7)19>>>s.find("peach",7,20)-1>>>s.rfind('p')25>>>s.index('p')1>>>s.index('pe')6>>>s.index('pear')25>>>s.index('ppp')Traceback(mostrecentcalllast):File"<pyshell#11>",line1,in<module>s.index('ppp')ValueError:substringnotfound>>>s.count('p')5>>>s.count('pp')1>>>s.count('ppp')059字符串分割split(.)、rsplit(.)split()和rsplit()方法分別用來(lái)以指定字符為分隔符，將字符串左端和右端開始將其分割成多個(gè)字符串，并返回包含分割結(jié)果的列表；split()與join()作用相反。partition(.)、rpartition(.)partition()和rpartition()用來(lái)以指定字符串為分隔符將原字符串分割為3部分元組，即分隔符前的字符串、分隔符字符串、分隔符后的字符串，如果指定的分隔符不在原字符串中，則返回原字符串和兩個(gè)空字符串。60字符串分割>>>s="apple,peach,banana,pear">>>li=s.split(",")>>>li["apple","peach","banana","pear"]>>>s.partition(',')('apple',',','peach,banana,pear')>>>s.rpartition(',')('apple,peach,banana',',','pear')>>>s.rpartition('banana')('apple,peach,','banana',',pear')>>>s="2014-10-31">>>t=s.split("-")>>>print(t)['2014','10','31']>>>print(map(int,t))[2014,10,31]61字符串分割對(duì)于split()和rsplit()方法，如果不指定分隔符，則字符串中的任何空白符號(hào)（包括空格、換行符、制表符等等）都將被認(rèn)為是分隔符，返回包含最終分割結(jié)果的列表。>>>s='helloworld\n\nMynameisDong'>>>s.split()['hello','world','My','name','is','Dong']>>>s='\n\nhelloworld\n\n\nMynameisDong'>>>s.split()['hello','world','My','name','is','Dong']>>>s='\n\nhello\t\tworld\n\n\nMyname\tisDong'>>>s.split()['hello','world','My','name','is','Dong']62字符串分割split()和rsplit()方法還允許指定最大分割次數(shù)，例如：>>>s='\n\nhello\t\tworld\n\n\nMynameisDong'>>>s.split(None,1)#None表示不指定分割符['hello','world\n\n\nMynameisDong']>>>s.rsplit(None,1)['\n\nhello\t\tworld\n\n\nMynameis','Dong']>>>s.split(None,2)['hello','world','MynameisDong']>>>s.rsplit(None,2)['\n\nhello\t\tworld\n\n\nMyname','is','Dong']>>>s.split(None,5)['hello','world','My','name','is','Dong']>>>s.split(None,6)['hello','world','My','name','is','Dong']63字符串替換查找替換replace(.)>>>s="中國(guó)，中國(guó)">>>print(s)中國(guó)，中國(guó)>>>s2=s.replace("中國(guó)","中華人民共和國(guó)")>>>print(s2)中華人民共和國(guó)，中華人民共和國(guó)64字符串轉(zhuǎn)換生成映射表函數(shù)maketrans(.)和按映射表關(guān)系轉(zhuǎn)換字符串函數(shù)translate(.)>>>importstring>>>table=string.maketrans("abcdef123","uvwxyz@#$")>>>s="Pythonisagreateprogramminglanguage.Ilikeit!">>>s.translate(table)"Pythonisugryutyprogrumminglunguugy.Ilikyit!">>>s.translate(table,"gtm")

#第二個(gè)參數(shù)表示要?jiǎng)h除的字符"Pyhonisuryuyproruinlunuuy.Ilikyi!"65字符串消減strip()、rstrip()、lstrip()這幾個(gè)方法分別用來(lái)刪除兩端、右端或左端的空格或連續(xù)的指定字符。>>>s="abc">>>s2=s.strip()>>>s2"abc">>>"aaaassddf".strip("a")"ssddf">>>"aaaassddf".strip("af")"ssdd">>>"aaaassddfaaa".rstrip("a")'aaaassddf'>>>"aaaassddfaaa".lstrip("a")'ssddfaaa'66字符串成員判斷成員判斷>>>"a"

"abcde"True>>>"j"

"abcde"Falses.startwith(t)、s.endswith(t)判斷字符串是否以指定字符串開始或結(jié)束>>>importos>>>[filenameforfilenameinos.listdir(r'c:\\')iffilename.endswith(('.bmp','.jpg','.gif'))]67檢驗(yàn)字符串是否為字母、數(shù)字等isalunm() ——檢驗(yàn)字符串是否為數(shù)字或字母isalpha() ——檢驗(yàn)字符串是否為字母isdigit() ——檢驗(yàn)字符串是否為數(shù)字字符isspace()

——檢驗(yàn)字符串是否為空白字符isupper()

——檢驗(yàn)字符串是否為大寫字母islower()

——檢驗(yàn)字符串是否為小寫字母68舉例69分行連續(xù)輸入若干個(gè)數(shù)，

輸出其中最大數(shù)70連續(xù)輸入若干行字符串（以空行結(jié)束），

輸出首次出現(xiàn)的最長(zhǎng)行71連續(xù)輸入若干行字符串（以空行結(jié)束），

輸出最后出現(xiàn)的最長(zhǎng)行72連續(xù)輸入若干行字符串（以空行結(jié)束），

輸出最長(zhǎng)的那些行73統(tǒng)計(jì)文章的單詞個(gè)數(shù)。約定單詞由英文字母組成，其他字符只是用來(lái)分隔單詞。74習(xí)題3用戶輸入一個(gè)十六進(jìn)制字符串，程序顯示該數(shù)2倍的值(十六進(jìn)制)。界面如下，黑色為用戶輸入，藍(lán)色為程序輸出。75習(xí)題4ISBN-13是區(qū)別書籍的新標(biāo)準(zhǔn)。它使用13個(gè)數(shù)：d1d2d3d4d5d6d7d8d9d10d11d12d13。最后一位d13是一個(gè)校驗(yàn)碼，它是使用下面的公式從其他幾位計(jì)算得到的：

10-(d1+3d2+d3+3d4+d5+3d6+d7+3d8+d9+3d10+d11+3d12)%10如果校驗(yàn)碼是10，就用0替換它。用戶輸入前12位，程序輸出完整的ISBN號(hào)碼。界面如右上角，黑色為用戶輸入，藍(lán)色為程序輸出。76正則表達(dá)式77正則表達(dá)式正則表達(dá)式是字符串處理的有力工具和技術(shù)，提供了功能強(qiáng)大，靈活而又高效的方法處理文本：快速分析大量文本以找到特定的符合某些復(fù)雜規(guī)則（亦稱模式）的字符串如：1.從英文小說(shuō)中查找hi，但不能把him，high，history也找到2.要找后面不遠(yuǎn)處跟著一個(gè)Lucy的hi提取、編輯、替換或刪除文本子字符串將提取的字符串添加到集合以生成報(bào)告正則表達(dá)式就是用于描述這些規(guī)則（模式）的語(yǔ)言正則表達(dá)式廣泛地應(yīng)用于各種字符串處理應(yīng)用程序：如網(wǎng)頁(yè)處理，日志文件分析等78正則表達(dá)式組成正則表達(dá)式是普通字符（包括轉(zhuǎn)義字符）、特殊字符（稱為元字符）及其不同組合來(lái)構(gòu)成的正則表達(dá)式是個(gè)字符串1.從英文小說(shuō)中查找hi，但不能把him，high，history也找到

正則表達(dá)式：\bhi\b

2.要找后面不遠(yuǎn)處跟著一個(gè)Lucy的hi

正則表達(dá)式：\bhi\b.*\bLucy\b元字符普通字符79普通字符（包括轉(zhuǎn)義字符）最基本的正則表達(dá)式由單個(gè)或多個(gè)普通字符組成，用以匹配字符串中對(duì)應(yīng)的單個(gè)或多個(gè)普通字符普通字符包括ASCII字符，Unicode字符和轉(zhuǎn)義字符由于（^$*+?{}[]|()）被正則表達(dá)式用作元字符，如作為普通字符使用則需要轉(zhuǎn)義正則表達(dá)式字符串說(shuō)明fo‘Thequickbrownfoxjumpsforfood’匹配其中3個(gè)含有’fo’的字符串1+1=2‘1+1=2’+為元字符，無(wú)法匹配1\+1=2‘1+1=2’[“1+1=2”](note)‘please(note)’()為元字符,匹配”note”$note$‘please(note)’匹配“(note)”80Python中的正則表達(dá)式引擎Python中，re模塊提供了正則表達(dá)式操作所需要的功能：re.findall(pattern,string)：以列表形式列出字符串中模式的所有匹配項(xiàng)Python語(yǔ)句匹配結(jié)果re.findall('fo','Thequickbrownfoxjumpsforfood')['fo','fo','fo']re.findall('1+1=2','1+1=2')[]re.findall('1\+1=2','1+1=2')['1+1=2']re.findall('(note)','please(note)')['note']re.findall('$note$','please(note)')['(note)']>>>importre

#導(dǎo)入模塊re>>>re.findall(‘d’,‘godness’)#re模塊還有其他方法，先介紹findall['d']814.2.1正則表達(dá)式元字符正則表達(dá)式元字符分類：字符類預(yù)定義字符類邊界匹配符重復(fù)限定符分組符()選擇符|如：\b

＋

()

都是元字符824.2.1正則表達(dá)式元字符-字符類字符類：由一對(duì)[]方括號(hào)括起來(lái)的字符集合，定義方式如下：[xyz]:枚舉字符集，匹配括號(hào)中任意字符'[pjc]ython'可以匹配'python'、'jython'、'cython'[^xyz]:否定枚舉字符集，匹配不在括號(hào)中任意字符'[^abc]'可以匹配一個(gè)任意除'a'、'b'、'c'之外的字符[a-z]:指定范圍的字符，匹配指定范圍的任意字符'[a-zA-Z0-9]'可以匹配一個(gè)任意大小寫字母或數(shù)字[^m-z]:指定范圍以外的字符，匹配指定范圍以外的任意字符元字符說(shuō)明[]匹配位于[]中的任意一個(gè)字符-用在[]之內(nèi)用來(lái)表示范圍^用在[]之內(nèi)用來(lái)表示否定834.2.1正則表達(dá)式元字符-預(yù)定義字符類預(yù)定義字符類：正則表達(dá)式將常常用到的一些特定字符類形成了若干預(yù)定義字符類元字符說(shuō)明.匹配除換行符以外的任意單個(gè)字符\d匹配任何數(shù)字，相當(dāng)于[0-9]\D與\d含義相反,非數(shù)字，相當(dāng)于[^0-9]\s匹配任何空白字符，相當(dāng)于[\t\n\r\f\v]\S與\s含義相反，相當(dāng)于[^\t\n\r\f\v]\w匹配任何字母、數(shù)字以及下劃線，相當(dāng)于[a-zA-Z0-9_]\W與\w含義相反,相當(dāng)于[^a-zA-Z0-9_]844.2.1正則表達(dá)式元字符-邊界匹配符邊界匹配符：字符串匹配往往涉及從某個(gè)位置開始匹配，例如行的開頭或結(jié)果、單詞邊界等，邊界匹配符用于匹配字符串的位置元字符說(shuō)明^匹配行首，匹配以^后面的字符開頭的字符串如：“^a”匹配“abc”中的“a”,不匹配“bat”中的“a”$匹配行尾，匹配以$之前的字符結(jié)束的字符串如：“c$”匹配“abc”中的“c”,不匹配“acb”中的“c”\b匹配單詞頭或單詞尾如：“\\bfoo\\b”匹配“foo.”、“(foo)”

、“barfoobaz”中的“foo”,但不匹配“foobar”“foo3”注意:’\b’在正則表達(dá)式表示單詞邊界，而在字符串中’\b’表示退格字符，所以這些與標(biāo)準(zhǔn)轉(zhuǎn)義字符重復(fù)的元字符必須使用兩個(gè)\\字符，在python中也可以使用原始字符串r””或r’’，即“\\bfoo\\b”或

r“\bfoo\b”\B與\b含義相反如：’py\B’匹配”python”“py3”“py2”,但不匹配“happy”“sleepy”“py!”+練習(xí)：請(qǐng)?jiān)赑ython中驗(yàn)證表中的匹配結(jié)果854.2.1正則表達(dá)式元字符-重復(fù)限定符重復(fù)限定符：指定重復(fù)的次數(shù)正則表達(dá)式說(shuō)明X{n,m}X重復(fù)n到m次如：“o{1,3}”匹配“fooooood”中的前3個(gè)“o”和后3個(gè)“o”X{n,}X至少重復(fù)n次如：“o{2,}”匹配“fooooood”中的所有的“o”,不匹配“bob”中的“o”X{n}X重復(fù)n次如：“\\b[0-9]{3}”匹配“000”~“999”,“o{2}”匹配“food”中的兩個(gè)“o”,不匹配“bob”中的“o”X+X重復(fù)1次或多次，等價(jià)于X{1,}如：’zo+’匹配“zo”,“zoo”,但不匹配“z”X*X重復(fù)0次或多次，等價(jià)于X{0,}如：’zo*’匹配“zo”,“zoo”,“z”X?X重復(fù)0次或1次，等價(jià)于X{0,1}如：’colou?r’匹配“color”,“colour”+練習(xí)：請(qǐng)?jiān)赑ython中驗(yàn)證表中的匹配結(jié)果86匹配算法：貪婪性匹配算法Python針對(duì)重復(fù)限定符，默認(rèn)采用貪婪性匹配算法貪婪性匹配算法是指重復(fù)限定符會(huì)導(dǎo)致正則表達(dá)式引擎盡可能多地重復(fù)前導(dǎo)字符，只有當(dāng)這種重復(fù)引起整個(gè)正則表達(dá)式匹配失敗的情況下，引擎會(huì)進(jìn)行回溯>>>importre>>>re.findall('<.+>','<book><title>Python</title><author>Dong</author></book>')['<book><title>Python</title><author>Dong</author></book>']貪婪算法返回了一個(gè)最左邊的最長(zhǎng)匹配！如何如我們期望的那樣匹配XML的開始與結(jié)束標(biāo)簽？87匹配算法：懶惰性匹配算法如果在限定符后面加后綴”?”，正則表達(dá)式引擎則使用懶惰性匹配算法懶惰性匹配算法是指重復(fù)限定符會(huì)導(dǎo)致正則表達(dá)式引擎盡可能少地重復(fù)前導(dǎo)字符，只有當(dāng)這種重復(fù)引起整個(gè)正則表達(dá)式匹配失敗的情況下，引擎會(huì)進(jìn)行回溯符號(hào)說(shuō)明*?重復(fù)任意次，但盡可能少重復(fù)+?重復(fù)1次或更多次，但盡可能少重復(fù)??重復(fù)0次或1次，但盡可能少重復(fù){n,m}?重復(fù)n到m次，但盡可能少重復(fù){n,}?重復(fù)n次以上，但盡可能少重復(fù)>>>importre>>>re.findall('<.+?>','<book><title>Python</title><author>Dong</author></book>')['<book>','<title>','</title>','<author>','</author>','</book>']88>>>telNumber='''SupposemyPhoneNo.iyoursihisi'''>>>pattern=pile(r'(\d{3,4})-(\d{7,8})')>>>pattern.findall(telNumber)[('0535','1234567'),('010','12345678'),('025','87654321')]>>>re.findall(r'(\d{3,4})-(\d{7,8})',telNumber)[('0535','1234567'),('010','12345678'),('025','87654321')]>>>re.findall(r'((\d{3,4})-(\d{7,8}))',telNumber)[(,'0535','1234567'),(,'010','12345678'),(,'025','87654321')]4.2.1正則表達(dá)式元字符-分組符分組符”()”：重復(fù)限定符重復(fù)前導(dǎo)字符，如果需要重復(fù)的符合某種模式的多個(gè)字符，則需要將描述該模式的正則表達(dá)式放在()內(nèi)，()表示一個(gè)分組（子模式），即()內(nèi)的內(nèi)容作為一個(gè)整體出現(xiàn)例如:’(red)+’可以匹配

’redred’、’redredred’等多個(gè)重復(fù)’red’的情況re.findall(pattern,string[,flags]):返回匹配結(jié)果列表，若pattern含有子模式，同時(shí)返回子模式的列表正則表達(dá)式說(shuō)明(pattern)？允許模式重復(fù)0次或1次(pattern)*允許模式重復(fù)0次或多次(pattern)+允許模式重復(fù)1次或多次(pattern){m.n}允許模式重復(fù)m~n次894.2.1正則表達(dá)式元字符-分組符選擇符”|”，用于選擇匹配多個(gè)可能的正則表達(dá)式中的一個(gè)選擇符”|”的優(yōu)先級(jí)最低，如果需要使用()來(lái)限制選擇符的作用范圍Python語(yǔ)句匹配結(jié)果re.findall('red|green|blue','pinkred,greenandblue')['red','green','blue']re.findall('\\b(red|green|blue)\\b','bluesky,pink

red,greenandblue')['red','green','blue']>>>importre>>>re.findall('((0\d{2}|\d{3})-(\d{8}|\d{6}))','復(fù)旦大學(xué)總)[(,‘021’,‘65642222’)]+例子：電話號(hào)碼一般形式為“區(qū)號(hào)-電話號(hào)碼”，區(qū)號(hào)為3位或4位，，電話號(hào)碼為6位或8位數(shù)字。904.2.2

re模塊主要方法re模塊的主要方法匹配和搜索分割字符串匹配和替換既可以直接使用re模塊的方法進(jìn)行字符串處理，也可以將模式編譯為正則表達(dá)式對(duì)象，然后使用正則表達(dá)式的方法來(lái)操作字符串914.2.2

re模塊主要方法re模塊的主要方法列表pattern:匹配模式string：要匹配的字符串flag：匹配選項(xiàng)方法說(shuō)明findall(pattern,string[,flags])列出字符串中模式的所有匹配項(xiàng)返回匹配結(jié)果列表，若pattern含有組(子模式)，同時(shí)返回組的列表search(pattern,string[,flags])在字符串中尋找模式若匹配，返回Match對(duì)象（參見4.2.5），否則返回Nonematch(pattern,string[,flags])從字符串的開始處匹配模式若匹配，返回Match對(duì)象，否則返回Nonesplit(pattern,string[,maxsplit=0])根據(jù)模式匹配項(xiàng)（匹配分割符）分割字符串，返回分割后的字符串列表，maxsplit為分割的最大次數(shù)sub(pat,repl,string[,count=0])將字符串中所有pat的匹配項(xiàng)用repl替換；并返回替換后的字符串，count為替換的最大次數(shù)subn(pat,repl,string[,count=0])將字符串中所有pat的匹配項(xiàng)用repl替換；并返回元組：(替換后的字符串,替換次數(shù)），count為替換的最大次數(shù)escape(string)將字符串中所有特殊正則表達(dá)式字符轉(zhuǎn)義924.2.2

re模塊主要方法flag：匹配選項(xiàng)（可以使用|進(jìn)行組合）匹配選項(xiàng)說(shuō)明re.lre.IGNORECASE忽略大小寫re.L

re.lOCALE\w\W\b\B\s\S與本地字符集有關(guān)re.M

re.MULTILINE多行匹配模式re.S

re.DOTALL使元字符，也匹配換行符re.U

re.UNICODE匹配Unicode字符re.X

re.VERBOSE忽略模式中的空格，并可以使用#注釋，提高可讀性93示例：匹配搜索、分割+練習(xí)：請(qǐng)?jiān)赑ython中驗(yàn)證表中的匹配結(jié)果Python語(yǔ)句匹配結(jié)果re.findall(pat,text)#查找所有單詞['alpha','beta','gamma','delta']re.match('done|quit','done')#匹配成功<_sre.SRE_Matchobject;span=(0,4),match='done'>print(re.match(‘done|quit’,‘doe!’))#不成功Noneprint(re.match('to',"Tobe,\nornottobe"))Nonere.search('to',"Tobe,\nornottobe")<_sre.SRE_Matchobject;span=(14,16),match='to'>re.split('[\.]+',text)['alpha','beta','gamma','delta']re.split('[\.]+',text,maxsplit=2)['alpha','beta','gammadelta']re.split('[\.]+',text,maxsplit=1)#分割1次['alpha','beta....gammadelta']>>>importre>>>text='alpha.beta....gammadelta’>>>pat='[a-zA-Z]+'944.2.3直接使用re模塊方法示例：替換，轉(zhuǎn)義>>>importre>>>pat='{name}'>>>text='Dear{name}...'>>>re.sub(pat,'Mr.Dong',text)

#字符串替換'DearMr.Dong...'>>>s='asd'>>>re.sub('a|s|d','good',s)

#字符串替換'goodgoodgood'>>>re.escape('')

#字符串轉(zhuǎn)義'http\\:\\/\\/www\\.python\\.org'954.2.3直接使用re模塊方法示例：刪除字符串中重復(fù)的空格>>>importre>>>s='aaabbcdefff'>>>re.split('[\s]+',s)['aaa','bb','c','d','e','fff','']>>>re.split('[\s]+',s.strip())['aaa','bb','c','d','e','fff']>>>''.join(re.split('[\s]+',s.strip()))'aaabbcdefff'>>>re.sub('\s+','',s.strip())'aaabbcdefff'>>>s'aaabbcdefff'>>>s.split()

#也可以不使用正則表達(dá)式['aaa','bb','c','d','e','fff']>>>''.join(s.split())'aaabbcdefff'96示例：使用以'\'開頭的元字符>>>importre>>>example='ShanDongInstituteofBusinessandTechnology'>>>re.findall('\\ba.+?\\b',example)#以a開頭的完整單詞['and']>>>re.findall('\\Bo.+?\\b',example)#不以o開頭且含有o字母的單詞剩余部分['ong','ology']>>>re.findall('\\b\w.+?\\b',example)#所有單詞['ShanDong','Institute','of','Business','and','Technology']>>>re.findall(r‘\b\w.+?\b’,example)#使用原始字符串,減少輸入\['ShanDong','Institute','of','Business','and','Technology']>>>re.findall('\d\.\d\.\d','Python2.7.8,Python3.4.2')#查找并返回x.x.x的數(shù)字形式['2.7.8','3.4.2']>>>re.split('\s',example)#使用任何空白字符分割字符串['ShanDong','Institute','of','Business','and','Technology']974.2.4使用正則表達(dá)式對(duì)象使用re模塊的compile()方法將正則表達(dá)式編譯生成正則表達(dá)式對(duì)象，然后再使用正則表達(dá)式對(duì)象提供的方法進(jìn)行字符串處理。regex=pile(pattern[,flags])#編譯生成正則表達(dá)式使用編譯后的正則表達(dá)式對(duì)象可以提高字符串處理速度。方法說(shuō)明regex.match(string[,pos[,endpos]])在字符串開頭或指定位置進(jìn)行搜索，模式必須出現(xiàn)在字符串開頭或指定位置；若匹配，返回Match對(duì)象，否則返回Noneregex.search(string[,pos[,endpos]])在整個(gè)字符串中進(jìn)行搜索；若匹配，返回Match對(duì)象，否則返回Noneregex.findall(string[,pos[,endpos]])在字符串中查找所有符合正則表達(dá)式的字符串列表；返回匹配結(jié)果列表，若pattern含有組，同時(shí)返回組的列表regex.sub(repl,string[,count=0])將字符串中所有pattern的匹配項(xiàng)用repl替換；并返回替換后的字符串，count為替換的最大次數(shù)regex.subn(repl,string[,count=0])將字符串中所有pat的匹配項(xiàng)用repl替換，并返回元組：(替換后的字符串,替換次數(shù)），count為替換的最大次數(shù)regex.split(string[,maxsplit=0])根據(jù)模式匹配項(xiàng)（匹配分割符）分割字符串，返回分割后的字符串列表，maxsplit為分割的最大次數(shù)984.2.4使用正則表達(dá)式對(duì)象>>>importre>>>example='ShanDongInstituteofBusinessandTechnology'>>>pattern=pile(r'\bB\w+\b')#以B開頭的單詞>>>pattern.findall(example)['Business']>>>pattern=pile(r'\w+g\b')#以g結(jié)尾的單詞>>>pattern.findall(example)['ShanDong']>>>pattern=pile(r'\b[a-zA-Z]{3}\b')#查找3個(gè)字母長(zhǎng)的單詞>>>pattern.findall(example)['and']>>>pattern.match(example)#從字符串開頭開始匹配，所以不成功，沒有返回值>>>pattern.search(example)#在整個(gè)字符串中搜索，所以成功<_sre.SRE_Matchobject;span=(31,34),match='and'>>>>pattern=pile(r'\b\w*a\w*\b')#查找所有含有字母a的單詞>>>pattern.findall(example)['ShanDong','and']示例：匹配搜索99>>>example='''Beautifulisbetterthanugly.Explicitisbetterthanimplicit.Simpleisbetterthancomplex.Complexisbetterthancomplicated.Flatisbetterthannested.Sparseisbetterthandense.Readabilitycounts.'''示例：使用正則表達(dá)式對(duì)象替換Python語(yǔ)句運(yùn)行結(jié)果1.將以字母“b”和”B”開頭的單詞替換為“*”>>>pattern=pile(r'\bb\w*\b',re.I)>>>print(pattern.sub('*',example))*is*thanugly.Explicitis*thanimplicit.Simpleis*thancomplex.Complexis*thancomplicated.Flatis*thannested.Sparseis*thandense.Readabilitycounts.2.將第一個(gè)以字母“b”和”B”開頭的單詞替換為“*”（只替換一次）>>>pattern=pile(r'\bb\w*\b',re.I)>>>print(pattern.sub('*',example,1))*isbetterthanugly.Explicitisbetterthanimplicit.Simpleisbetterthancomplex.Complexisbetterthancomplicated.Flatisbetterthannested.Sparseisbetterthandense.Readabilitycounts.3.將第一個(gè)以字母“b”開頭的單詞替換為“*”>>>pattern=pile(r'\bb\w*\b')>>>print(pattern.sub('*',example,1))Beautifulis*thanugly.Explicitisbetterthanimplicit.Simpleisbetterthancomplex.Complexisbetterthancomplicated.Flatisbetterthannested.Sparseisbetterthandense.Readabilitycounts.100示例：使用正則表達(dá)式對(duì)象分割字符串101>>>example=r'one,two,three.four/file\six?seven[eight]nine|ten'>>>pattern=pile(r'[,./\\?[\]\|]')#指定多個(gè)可能分割符>>>pattern.split(example)['one','two','three','four','file','six','seven','eight','nine','ten']>>>example=r'one1two2three3four4file5six6seven7eight8nine9ten'>>>pattern=pile(r'\d+')

#使用數(shù)字作分割符>>>pattern.split(example)['one','two','three','four','file','six','seven','eight','nine','ten']>>>example=r'onetwothreefour,file.six.seven,eight,nine9ten'>>>pattern=pile(r'[\s,.\d]+')#允許分隔符重復(fù)>>>pattern.split(example)['one','two','three','four','file','six','seven','eight','nine','ten']4.2.4一些例子102例1103例21041051061071081091101111121131141151161171181191201211221234.2.5子模式與match對(duì)象使用()表示一個(gè)子模式，即()內(nèi)的內(nèi)容作為一個(gè)整體出現(xiàn)例如

’(red)+’可以匹配

’redred’、‘redredred‘等多個(gè)重復(fù)

’red’的情況re.findall(pattern,string[,flags]):返回匹配結(jié)果列表，若pattern含有組(子模式)，同時(shí)返回組的列表124>>>telNumber='''SupposemyPhoneNo.iyoursihisi'''>>>pattern=pile(r'(\d{3,4})-(\d{7,8})')>>>pattern.findall(telNumber)[('0535','1234567'),('010','12345678'),('025','87654321')]>>>re.findall(r'(\d{3,4})-(\d{7,8})',telNumber)[('0535','1234567'),('010','12345678'),('025','87654321')]>>>re.findall(r'((\d{3,4})-(\d{7,8}))',telNumber)[(,'0535','1234567'),(,'010','12345678'),(,'025','87654321')]4.2.5子模式與match對(duì)象search和match，返回的結(jié)果為匹配對(duì)象（Matchobject），使用Match對(duì)象的方法，可以進(jìn)行匹配結(jié)果的處理，包括對(duì)子模式()匹配的處理Match對(duì)象方法說(shuō)明group([group1,…])返回匹配的1個(gè)或多個(gè)子模式內(nèi)容start([group])返回指定子模式內(nèi)容的起始位置end([group])返回指定子模式內(nèi)容的結(jié)束位置的前一個(gè)位置span([group])返回指定子模式內(nèi)容的結(jié)束位置的前一個(gè)位置groups()返回一個(gè)包含匹配的所子模式內(nèi)容的元組groupdict()返回包含匹配的所有命名子模式內(nèi)容的字典>>>m=re.match(r'www\.(.*)\..{3}','')>>>m.group()''>>>m.group(0)''>>>m.group(1)'python'>>>m.start(1)4>>>m.end(1)10>>>m.span(1)(4,10)1254.2.5子模式

與match對(duì)象importretelNumber=

'''SupposemyPhoneNo.iyoursihisi'''pattern=pile(r'(\d{3,4})-(\d{7,8})')index=

0while

True:matchResult=pattern.search(telNumber,index)

notmatchResult:

break

('-'*30)

('Success:')

foriinrange(3):

('Searchedcontent:',matchResult.group(i),\

'Startfrom:',matchResult.start(i),'Endat:',matchResult.end(i),\

'Itsspanis:',matchResult.span(i))index=matchResult.end(2)+練習(xí)：請(qǐng)?jiān)赑ython中運(yùn)行該

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第4章+字符串與正則表達(dá)式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第4章+字符串與正則表達(dá)式

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔