【復旦大學】2023年搜索引警中的智能問答報告_第1頁
【復旦大學】2023年搜索引警中的智能問答報告_第2頁
【復旦大學】2023年搜索引警中的智能問答報告_第3頁
【復旦大學】2023年搜索引警中的智能問答報告_第4頁
【復旦大學】2023年搜索引警中的智能問答報告_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎中的智能問答張奇復旦大學智能問答--從PC到移動信息載體關鍵字、語音

圖像、

POI輸入設備自然語言(語音)、環(huán)境搜索(用戶閱讀)問答(機器閱讀)任何可聯(lián)網(wǎng)的設備信息、知識、常識關鍵詞10條鏈接問句答案手機、

Pad網(wǎng)頁、

APP(眼鏡、車載、音箱、服務機器人)Q

:學生證買火車票—年能用幾次?A

:4次。Q

:大紅袍是什么茶?A

:烏龍茶。智能問答--無處不在的問答引擎Q

:汽車沒電了打不著火怎么辦?A

:首先需要—根跨接電線,然后將兩車的車頭面對面

…智能問答--無處不在的問答引擎查詢類別問題類型問答24%醫(yī)療非事實類20%小說9%教育7%2%人物知識4.5%購物網(wǎng)很卡是什么原因交首付款注意事項折耳兔怎么養(yǎng)故鄉(xiāng)魯迅發(fā)生的變化的原因

石家莊市銀監(jiān)局投訴電話是多少

疝氣會影響生育嗎①

約1/4用戶查詢是問答需求②

更長尾,更偏向自然語言描述事實類,非事實類,觀點類沒有房產(chǎn)證的酒店拆遷如何補償?shù)蜔梢赃M藏嗎用戶需求強,難度大

問題類型多眼鏡蛇和眼鏡王蛇的區(qū)別蜂蛹泡酒的功效人有多少顆牙齒

什么是幽門螺旋桿菌智能問答--來自搜索的問題分布蘋果燙網(wǎng)

在手機怎么注冊淘寶賬號落地簽證是什么意思嗎搜索請求占比

怎么辦獼猴桃和奇異果有什么區(qū)別腰肌勞損掛什么科大米生

了還能吃影響搜發(fā)索

大因素速突觀然點變類慢的原因家原能減神經(jīng)繃緊怎么回事頂

絡意思傷的水泡會自然充電器可以托運es9p%是什么手機信號不好肥嗎

2%消嗎智能問答--解決方案基于社區(qū)的問題回答Community-basedQuestionAnswering基于知識圖譜的問題回答Knowledge-basedQuestionAnswering閱讀理解Machine

ReadingComprehension智能問答--解決方案基于社區(qū)的問題回答Community-basedQuestionAnswering基于知識圖譜的問題回答Knowledge-basedQuestionAnswering閱讀理解Machine

ReadingComprehension智能問答--

基于社區(qū)的問題回答用戶

:iPhone

死機了怎么辦蘋果8突然卡死,主界面不能動

,在線急等我的腎7突然無法操作,這種情況怎么解決?用戶輸入與標準問法差別很大智能問答-

語義匹配Apple

官方支持

:如果您的、

或開不了機或死機怎么辦智能問答--

語義匹配腦袋測得出的東西叫智商

,小孩子發(fā)燒38腦袋測不出的東西叫智慧;發(fā)燒41度怎么辦

北京大學

眼睛看得到的地方叫視線

,鹽酸氯丙嗪

耳朵聽得到的動靜是聲音

,定金

訂金耳朵聽不到的動靜是聲譽;嘴里說得出來的話叫內容

,嘴里說不出來的話叫內涵;

失之毫厘,謬以千里!…

…眼睛看不到的地方叫視野;基于句子表示的方法基于交互關系的方法智能問答--

語義匹配AggregationDocumentMatching

signalsDocumentQueryRepresentationDocumentRepresentationNeuralNetworkNeuralNetworkMatching

scoreMatching

scoreQueryQuery智能問答--

語義匹配DSSM:

Learning

DeepStructuredSemantic

ModelsforWebSearch

usingClick-through

Data

(Huang

et

al.,

CIKM’13)智能問答--

語義匹配Matchpyramid智能問答--

語義匹配Convolutional

neuraltensornetworkarchitectureforcommunity-basedquestionanswering,

IJCAI2015CNN-DSSMCNTN短文本蘊含信息不足,通過自適應注意力機制從外部知識中抽取信息,增強文本表示智能問答--

語義匹配智能問答--

語義匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019智能問答--

語義匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019智能問答--

語義匹配Adaptive

Multi-Attention

Network

IncorporatingAnswer

InformationforDuplicateQuestion

Detection,SIGIR2019Existingmethodstypicallyhave

framed

thereasoningproblemasa

semantic

matching

task.Thebothsentencesare

encoded

andinteractedsymmetricallyandin

parallel.Theroleofthetwosentences

is

obviously

different.智能問答--

語義匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019智能問答--

語義匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019智能問答--

語義匹配Asynchronous

Deep

Interaction

NetworkforNatural

Language

Inference

,EMNLP2019Query和Doc的多層交互

,三層QRNN提供了由淺到深的語義編碼能力Attention機制建模Query和Doc的語義—致性

,利用Query重構Doc上下文

表示的能力

,語義信息層層遞進D

hidden1

D

hidden2

D

hidden3多層表示學習QRNN-ATT智能問答--

語義匹配QueryEmbeddings:DocEmbeddings:qrnn

1

qrnn2

qrnn

3

att

1

Q

hidden1

att2

Q

hidden2

Qhidden3sigmoidBilinearmax基于QRNN和注意力機制的表示學習序列表示,

3倍加速于LSTM注意力機制加強Query-Doc的交互智能問答--

語義匹配單層QRNN-ATT(Sogou)DocEmbeddings:QueryEmbeddings:BilinearSimMatrixQ

hiddensigmoidD

hiddenBilinearDembdDAttChrome瀏覽器怎么刪除Chrome瀏覽器歷史怎么刪除哪些精致的游戲游戲的細節(jié)能精致到什么程度男生自己理頭發(fā)男生多久理一次頭發(fā)合適中國的美食有哪些美食中國國慶節(jié)手抄報怎么畫國慶手抄報的畫公安和獄警哪個好公安跟獄警哪個好考些港澳通行證如何續(xù)簽卡式往來港澳通行證怎么續(xù)簽簡單的賺錢方法網(wǎng)上最簡單的賺錢方法智能問答--

語義匹配Query-問題匹配

精度損失(實際為不相同

,模型判定為相同)手機為什么沖不進電為何手機充不進去電該怎么解決華為手機怎樣截長屏華為手機怎么長截圖三種方式實現(xiàn)長圖截屏司法考自學如何通過自學參加司法考試洗衣液瓶子廢物利用洗衣液瓶子別扔了這樣改造放在衛(wèi)生間太實

用了看到的人都夸好顯腿長的穿法除了高跟鞋這些顯腿長的穿法你知道幾個螞蟻會員有幾個螞蟻會員一共有幾個等級小程序可以有朋友圈嗎微信小程序怎么分享朋友圈打工和創(chuàng)業(yè)的區(qū)別創(chuàng)業(yè)和打工的差別有多大看完此文就明白為

什么和老板想的不同智能問答--

語義匹配Query-問題匹配

召回損失(實際為相同

,模型判定為不相同)智能問答--

語義匹配答案質量問題智能問答--

語義匹配答案非所問智能問答--

語義匹配答案權威性問題智能問答--

語義匹配答案時效性問題智能問答--

語義匹配語料庫怎么構建智能問答--

語義匹配弱監(jiān)督數(shù)據(jù)如何使用周杰倫蠟像什么時間亮相上海杜莎夫人蠟像館?智能問答-

閱讀理解文章問題答案+智能問答-

閱讀理解2015年之前的模型

:單詞匹配、邏輯回歸、分類等

2015年之后的模型

:神經(jīng)網(wǎng)絡答案結束位置答案開始位置問題文章+Squad1.0/2.0搜索問答文檔類型Wiki的段落網(wǎng)頁文本文檔質量高質量頁面種類多,質量差異大UGC內容低質文檔長度平均長度138個詞,

300詞

以下占比98%平均長度約460字(視頻等非文本頁內容少

除外)600字以上占比約1/3文檔是否有答案1.0一定存在答案

2.0不一定存在答案不一定存在答案單個搜索結果答案可能錯誤搜索中的答案可能客觀錯誤智能問答--閱讀理解的挑戰(zhàn)面臨復雜的互聯(lián)網(wǎng)文檔,文檔質量、文本長度千差萬別,機器閱讀理解難度更大,更具挑戰(zhàn)性。智能問答-

閱讀理解R-NET:

MACHINE

READINGCOMPREHENSIONWITHSELF-MATCHING

NETWORKS,ACL2017模型假設文本中存在正確答案,而真實場景面臨不存在答案的情況;模型容易出現(xiàn)常識性錯誤,對于涉及推理的問題效果不好;思路①

對答案存在性進行判斷,避免錯答;②

充分利用外部知識,不僅有利于處理復雜推理問題,也有助于提高答案抽取的精度

和置信度;加入答案存在性判斷在字、詞表示基礎上加入外部知識

表示(全局/局部詞頻、LexicalAnswerType、

Entity類型、

POS、網(wǎng)頁質量特征等)智能問答-

閱讀理解①②問題--詞級別和句子級別的分層交互,解決文聯(lián)合學習答案存在概率和起止位置概率

增強上下文相關的表示能力sogou.cips.test10.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

00.5

0.6

0.7

0.8

0.9

1precision

baseline

new智能問答-

閱讀理解問題:網(wǎng)頁通常包含長文本,模型往往因為長距離依賴導致丟失重要信息思路:以詞為單位的表示和注意力機制基礎上,融入以句子為單位的長距離信息傳

遞和注意力機制recall智能問答-

閱讀理解問題:采用DistantlySupervised方法標注的數(shù)據(jù)噪聲影響大思路:更新Loss

Function考慮全部文檔的結果以及文檔之間的相關性,并引入基于

Bootstrapping的數(shù)據(jù)增強機制DocumentGated

ReaderForOpen-DomainQuestionAnswering

,SIGIR2019智能問答-

閱讀理解問題:采用DistantlySupervised方法標注的數(shù)據(jù)噪聲影響大思路:更新Loss

Function考慮全部文檔的結果以及文檔之間的相關性,并引入基于

Bootstrapping的數(shù)據(jù)增強機制DocumentGated

ReaderForOpen-DomainQuestionAnswering

,SIGIR2019智能問答-

閱讀理解ReCO:A

LargeScaleChinese

ReadingComprehension

Dataseton

OpinionFactoid

ProblemComprehension

RetrievalReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能問答-

閱讀理解ReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能問答-

閱讀理解ReCO:A

LargeScaleChinese

ReadingComprehension

DatasetonOpinion

,AAAI2020智能問答-

閱讀理解ReCO:A

Larg

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論