《Google 讓機器更懂語言的博大精深,發布最大消除歧義數據庫》要點:
本文介紹了Google 讓機器更懂語言的博大精深,發布最大消除歧義數據庫,希望對您有用。如果有疑問,可以聯系我們。
理解語言的核心自然是了解詞語在文本中的分歧含義.先來說個中文笑話:
上司:“你這是什么意思?”
下屬:“沒什么意思,意思意思.”
上司:“你這就不夠意思了.”
下屬:“小意思,小意思.”
上司:“你這人真有意思.”
下屬:“其實也沒有其余意思.”
上司:“那我就欠好意思了.”
下屬:“是我欠好意思.”
如果讓機器來理解這到底是什么意思,想必它會很頭痛的吧.
那么用相對簡單的英文?也沒有那么簡單.畢竟一個單詞可能包含數十個意思.
舉個例子:“He will receive stock in the reorganized company.”這個句子中,我們結合上下詞就能知道,“stock”是股票的意思,我們可以從牛津字典中找到更專業的解釋.
但同樣在牛津字典中,stock 這個詞還有超過 10 個不同的含義,好比“(商店里的)庫存”或是“(鞭子、釣竿等的)柄”.對于電腦演算法而言,如何從博大精深的含義中找尋某個句子中對應的詞義?這的確是一個詞義消歧難題,也就是 AI-Complete 問題.
19 日 Google 研究院又發出了重量級新聞,他們發布了利用 MASC&SemCor 資料集的大規模有監督詞義消歧語詞.這些語詞會與牛津字典上的例句互相映照,廣泛適用于各個社交.與此同時,本次發布也是最大的全句釋義語詞程序庫之一.
人們透過對句子中詞語的內容進行理解,因為我們能透過常識判斷內文的含義.比如同一個例子,“‘stock’ in a business.”代表的自然是股票的意思,而“‘stock’ in a bodega.”更有可能是庫存的意思,即使這里的 bodega 也可能指酒窖生意.我們希望為機器提供足夠的配景資訊,并應用于理解字句中詞語的含義.
有監督詞義消歧(WSD)嘗試解決這一問題,也就是讓機器學習使用人工暗號的資料,并與字典中的詞語所代表的典型含義符合.我們希望構建這樣的監督模型,能夠不考慮復雜語境,并符合句中單詞在詞典中最可能表達的含義.雖然這一點富有挑戰性,但監督模型在大量訓練資料支持下表現良好.
透過發布資料集,我們希望社交能夠提出更好的算法,讓機器對自然語言產生更深刻的理解,支持以下的應用:
在人工暗號的資料集中,每一個詞義注釋都由 5 個評估者進行審核.為了確保品質,這些評估者會進行訓練(gold annotation),即讓語言學家對一些研究樣本進行標記.以下是我們的標記頁面.
在頁面左邊呈現的是 general 的常用詞義及例句,在右側的文本中,general 一詞會標亮顯示.除了符合詞義,評估者還能對詞語進行判斷,可以指出包括“拼字錯誤”、“上述情況都不符合”、“不確定”等 3 種情況.此外,評估者可以對一些含有隱喻的詞語進行暗號并評論.
這些人工的詞義標注采用 Krippendorff’s alpha(α >= 0.67 則具有必定可信度,α >= 0.80 則表示具有很高的可信度)進行判斷,結果顯示得分為 0.869.這是一個非常不錯的成績了.
與此同時,Google 也發布了兩個從牛津詞典到 Wordnet 的對映.小的資料集中含有 2,200 個單詞,而大的資料集則是演算法構建的.這兩個對映內容能更將 Wordnet 的內容應用于牛津詞典的語料庫中,也能在使用過程中實行系統的構建.
研究成果已經收錄在“Semi-supervised Word Sense Disambiguation with Neural Models”中,主要采用的是 LSTM 語言處理模型及半監督學習演算法.
(本文由 雷鋒網授權轉載,首圖來源:Flickr/Valery KenskiCC BY 2.0)
如需獲取更多資訊,請關注微信公眾賬號:Technews科技新報
《Google 讓機器更懂語言的博大精深,發布最大消除歧義數據庫》是否對您有啟發,歡迎查看更多與《Google 讓機器更懂語言的博大精深,發布最大消除歧義數據庫》相關教程,學精學透。維易PHP學院為您提供精彩教程。