国产chinesehdxxxx老太婆,办公室玩弄爆乳女秘hd,扒开腿狂躁女人爽出白浆 ,丁香婷婷激情俺也去俺来也,ww国产内射精品后入国产

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于句嵌入進(jìn)行無(wú)監(jiān)督文本總結(jié)的經(jīng)驗(yàn)

zhKF_jqr_AI ? 來(lái)源:lq ? 2018-12-03 09:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:Kushal Chauhan分享了他在Jatana.ai的NLP研究實(shí)習(xí)期間基于句嵌入進(jìn)行無(wú)監(jiān)督文本總結(jié)的經(jīng)驗(yàn)。

什么是文本總結(jié)?

文本總結(jié)是從一個(gè)或多個(gè)來(lái)源提取最重要的信息,生成一個(gè)針對(duì)某個(gè)或某群特定讀者或任務(wù)的簡(jiǎn)化版本的過(guò)程。——Advances in Automatic Text Summarization, 1999, 第1頁(yè)

一般來(lái)說(shuō),人類(lèi)相當(dāng)擅長(zhǎng)這一任務(wù),因?yàn)槲覀兙哂欣斫馕臋n含義,使用自己的語(yǔ)言總結(jié)要點(diǎn)的能力。然而,由于當(dāng)今世界信息過(guò)載,缺乏人力和時(shí)間解讀數(shù)據(jù),自動(dòng)文本總結(jié)技術(shù)十分關(guān)鍵。自動(dòng)文本總結(jié)的價(jià)值在于:

減少閱讀時(shí)間。

簡(jiǎn)化研究的篩選過(guò)程。

提高索引的有效性。

問(wèn)答系統(tǒng)中,個(gè)性化總結(jié)提供了個(gè)性化信息。

自動(dòng)總結(jié)系統(tǒng)或半自動(dòng)總結(jié)系統(tǒng)的應(yīng)用讓商業(yè)摘要服務(wù)提高了處理文檔的吞吐量。

文本總結(jié)方法的類(lèi)型

根據(jù)不同的標(biāo)準(zhǔn),文本總結(jié)方法可以分為不同類(lèi)型。

基于輸入類(lèi)型

單文檔許多早期的總結(jié)系統(tǒng)只能處理單文檔。

多文檔支持任意數(shù)量的文檔作為輸入。

基于目的

通用模型對(duì)要總結(jié)的文本內(nèi)容的領(lǐng)域不作任何假定,并將所有輸入作為同構(gòu)文本處理。文本總結(jié)領(lǐng)域的大部分工作都屬于這類(lèi)。

領(lǐng)域特定模型使用領(lǐng)域特定知識(shí)以形成更精確的總結(jié)。例如,總結(jié)特定領(lǐng)域的研究論文,生物醫(yī)學(xué)文檔,等等。

基于查詢總結(jié)僅僅包括回答關(guān)于輸入文本的自然語(yǔ)言提問(wèn)的信息。

基于輸出類(lèi)型

提取從輸入文本中選取最重要的句子,組成總結(jié)。現(xiàn)在大多數(shù)總結(jié)方法本質(zhì)上都是提取式的。

摘要模型用自己的詞組和句子提供一份更連貫的總結(jié),類(lèi)似人類(lèi)所做的總結(jié)。這類(lèi)方法無(wú)疑更有吸引力,但比提取式總結(jié)要困難得多。

我的任務(wù)

我的任務(wù)是在電子郵件上應(yīng)用文本總結(jié),郵件以英語(yǔ)、丹麥語(yǔ)、法語(yǔ)等多種語(yǔ)言撰寫(xiě)。大多數(shù)公開(kāi)的文本總結(jié)數(shù)據(jù)集面向的是長(zhǎng)文檔和文章。由于長(zhǎng)文檔和文章的結(jié)構(gòu)和短郵件有很大的不同,以監(jiān)督方法訓(xùn)練的模型可能在領(lǐng)域自適應(yīng)方面表現(xiàn)很差。因此,我選擇探索無(wú)監(jiān)督方法,期望得到總結(jié)的無(wú)偏預(yù)測(cè)。

現(xiàn)在,讓我們嘗試了解構(gòu)成模型流程的多個(gè)步驟。

文本總結(jié)模型流程

我所用的文本總結(jié)方法借鑒了Aishwarya Padmakumar和Akanksha Saran的論文Unsupervised Text Summarization Using Sentence Embeddings。這一方法可以分解為以下步驟:

第一步:清洗郵件

讓我們先來(lái)看下典型的郵件看起來(lái)是什么樣的:

英文郵件樣本:

HiJane,

Thank you for keeping me updated on this issue. I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again.

Also many thanks for your suggestions. We hope to improve this feature in the future.

In case you experience any further problems with the app, please don't hesitate to contact me again.

Best regards,

JohnDoe

CustomerSupport

1600AmphitheatreParkway

MountainView, CA

UnitedStates

挪威語(yǔ)郵件樣本:

Hei

Grunnet manglende dekning p? deres kort for m?nedlig trekk, blir dere n? overf?rt til ?rlig fakturering.

I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019.

Ta gjerne kontakt om dere har sp?rsm?l.

Med vennlig hilsen

JohnDoe - SomeCompany.no

04756 | johndoe@somecompany.no

Husk ? sjekk v?rt hjelpesenter, kanskje du finner svar der: https://support.somecompany.no/

意大利語(yǔ)郵件樣本:

CiaoJohn,

Grazie mille per averci contattato! Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App.

Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'AppStore!

Cordiali saluti,

JaneDoe

CustomerSupport

OneInfiniteLoop

Cupertino

CA 95014

如你所見(jiàn),郵件開(kāi)頭的稱呼語(yǔ)和末尾的簽名對(duì)總結(jié)生成任務(wù)毫無(wú)貢獻(xiàn)。所以,有必要從郵件中移除這些應(yīng)該不會(huì)影響總結(jié)的行。這簡(jiǎn)化了輸入,使模型表現(xiàn)可以更佳。

由于不同郵件和不同語(yǔ)言的稱呼語(yǔ)和簽名不一樣,移除它們需要使用正則表達(dá)式匹配。如果只處理英文郵件,那么我們可以直接使用Mailgun的talon庫(kù):

from talon.signature.bruteforce import extract_signature

cleaned_email, _ = extract_signature(email)

不過(guò)我需要處理多種語(yǔ)言的郵件,所以我修改了extract_signature函數(shù),以支持英語(yǔ)之外的其他語(yǔ)言。我還順便移除了換行符。

上面三個(gè)郵件樣本經(jīng)過(guò)清洗后,是這樣的:

清洗過(guò)的英語(yǔ)郵件:

Thank you for keeping me updated on this issue. I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again. Also many thanks for your suggestions. We hope to improve this feature in the future. In case you experience any further problems with the app, please don't hesitate to contact me again.

清洗過(guò)的挪威語(yǔ)郵件:

Grunnet manglende dekning p? deres kort for m?nedlig trekk, blir dere n? overf?rt til ?rlig fakturering. I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019.Ta gjerne kontakt om dere har sp?rsm?l.

清洗過(guò)的意大利語(yǔ)郵件:

Grazie mille per averci contattato! Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App. Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'AppStore.

完成這一預(yù)處理步驟之后,我們可以進(jìn)一步探索總結(jié)流程剩下的部分。

第二步:檢測(cè)語(yǔ)言

由于要總結(jié)的郵件可能使用任何語(yǔ)言,我們首先需要做的就是判定郵件的語(yǔ)言。有很多使用機(jī)器學(xué)習(xí)技術(shù)識(shí)別文本語(yǔ)言的Python庫(kù),例如polyglot、langdetect、textblob。我使用了langdetect,它支持55種不同的語(yǔ)言。只需一個(gè)簡(jiǎn)單的函數(shù)調(diào)用就可以檢測(cè)語(yǔ)言:

from langdetect import detect

lang = detect(cleaned_email) # 如果是英語(yǔ)郵件,那么lang = 'en'

第三步:句子分割

識(shí)別了每封郵件的語(yǔ)言后,我們就可以根據(jù)不同語(yǔ)言的規(guī)則(標(biāo)點(diǎn)符號(hào))將郵件分割成句子。我們將使用NLTK:

from nltk.tokenize import sent_tokenize

sentences = sent_tokenize(email, language = lang)

第四步:Skip-Thought編碼器

我們需要找到一種方式,為郵件中的每句話生成固定長(zhǎng)度的向量表示。該表示應(yīng)當(dāng)編碼句子的內(nèi)在語(yǔ)義和含義。知名的Skip-Gram Word2Vec詞嵌入生成方法可以為模型詞匯表收錄的詞提供詞嵌入(FastText這樣更酷炫的方法能夠基于子詞信息為模型詞匯表外的單詞生成嵌入)。

有了詞嵌入,只需對(duì)每句話包含的詞嵌入進(jìn)行加權(quán)求和,即可得到句嵌入。之所以要加權(quán),是因?yàn)椤癮nd”、“to”、“the”等一些頻繁出現(xiàn)的單詞完全沒(méi)有或幾乎沒(méi)有提供任何關(guān)于句子的信息。而只在個(gè)別句子中出現(xiàn)的一些罕見(jiàn)詞,代表性要高很多。因此,權(quán)重的取值和詞頻逆相關(guān)。具體細(xì)節(jié)可以參考Sanjeev Arora等的論文(ICLR17/SyK00v5xx)

然而,這樣的無(wú)監(jiān)督方法沒(méi)有考慮句子中單詞的順序。這可能對(duì)模型的表現(xiàn)造成不利影響。所以我選擇在維基百科數(shù)據(jù)上訓(xùn)練一個(gè)Skip-Thought句編碼器。Skip-Thoughts模型包括兩部分:

編碼器網(wǎng)絡(luò):編碼器通常是一個(gè)GRU循環(huán)神經(jīng)網(wǎng)絡(luò),為輸入中的每個(gè)句子Si生成固定長(zhǎng)度的向量表示hi。將GRU單元的最終隱藏狀態(tài)(即,在它見(jiàn)過(guò)整個(gè)句子之后得到的隱藏狀態(tài))傳給多個(gè)密集層,得到編碼表示hi。

解碼器網(wǎng)絡(luò):解碼器網(wǎng)絡(luò)接受向量表示hi作為輸入,并嘗試生成兩個(gè)句子——Si-1和Si+1,分別為可能出現(xiàn)在輸入句子之前和之后的句子。生成前句和后句的是獨(dú)立的解碼器,均為GRU循環(huán)神經(jīng)網(wǎng)絡(luò)。向量表示hi作為解碼器網(wǎng)絡(luò)GRU的初始隱藏狀態(tài)。

給定包含句子序列的數(shù)據(jù)集,解碼器的目標(biāo)是逐詞生成前句和后句。訓(xùn)練編碼器-解碼器網(wǎng)絡(luò)以最小化句子的重建損失,在此過(guò)程中,編碼器學(xué)習(xí)生成能為解碼器編碼足夠信息的向量表示,以便解碼器生成相鄰句子。這些學(xué)習(xí)到的表示滿足語(yǔ)義上相似的句子在向量空間中的嵌入互相接近,因此適合用于聚類(lèi)。在我們的例子中,郵件中的句子作為編碼器網(wǎng)絡(luò)的輸入,以得到所需向量表示。獲得句嵌入的Skip-Thoughts方法的細(xì)節(jié)請(qǐng)參考原論文(arXiv:1506.06726)。

給定一個(gè)句子(灰點(diǎn)),模型嘗試預(yù)測(cè)前句(紅點(diǎn))和后句(綠點(diǎn))

至于實(shí)現(xiàn),我使用了論文作者開(kāi)源的代碼。該實(shí)現(xiàn)基于Theano,可以通過(guò)GitHub倉(cāng)庫(kù)ryankiros/skip-thoughts獲取。這個(gè)實(shí)現(xiàn)很容易使用,只需幾行代碼就可以獲取一封郵件的句嵌入:

import skipthoughts

# 你首先需要下載預(yù)訓(xùn)練模型

model = skipthoughts.load_model()

encoder = skipthoughts.Encoder(model)

encoded = encoder.encode(sentences)

第五步:聚類(lèi)

為郵件中的每個(gè)句子生成句嵌入后,我們將這些高維向量空間中的嵌入聚類(lèi)為數(shù)量預(yù)定義的一組聚類(lèi)。聚類(lèi)的數(shù)目將等于總結(jié)所需的句數(shù)。我為總結(jié)選擇的句數(shù)等于郵件總句數(shù)的平方根。另一種可能的方案是等于總句數(shù)的某個(gè)百分比,比如30%. 下面是聚類(lèi)的代碼:

import numpy as np

from sklearn.cluster importKMeans

n_clusters = np.ceil(len(encoded)**0.5)

kmeans = KMeans(n_clusters=n_clusters)

kmeans = kmeans.fit(encoded)

第六步:總結(jié)

句嵌入的每個(gè)聚類(lèi)可以看成一組語(yǔ)義上相似的句子,其含義可以通過(guò)其中的一個(gè)候選句子表達(dá)。我們選取向量表示最接近聚類(lèi)中心的句子作為候選句子。每個(gè)聚類(lèi)選出的候選句子經(jīng)過(guò)排序構(gòu)成郵件總結(jié)。總結(jié)中候選句子的順序取決于其所在聚類(lèi)中的句子在原郵件中的位置。例如,如果某個(gè)候選句子所在聚類(lèi)中的大多數(shù)句子出現(xiàn)在郵件開(kāi)始,那么該句就被選為總結(jié)的第一句。下面幾行代碼實(shí)現(xiàn)了這一算法

from sklearn.metrics import pairwise_distances_argmin_min

avg = []

for j in range(n_clusters):

idx = np.where(kmeans.labels_ == j)[0]

avg.append(np.mean(idx))

closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_, encoded)

ordering = sorted(range(n_clusters), key=lambda k: avg[k])

summary = ' '.join([email[closest[idx]] for idx in ordering])

由于這一方法本質(zhì)上是從文本中提取一些候選句子以形成總結(jié),因此屬于提取式總結(jié)。

之前我們列出的郵件樣本,最終提取出的總結(jié)為:

英語(yǔ)郵件:

I'm happy to hear that the issue got resolved after all and you can now use the app in its full functionality again. Also many thanks for your suggestions. In case you experience any further problems with the app, please don't hesitate to contact me again.

挪威語(yǔ)郵件:

Grunnet manglende dekning p? deres kort for m?nedlig trekk, blir dere n? overf?rt til ?rlig fakturering. I morgen vil dere motta faktura for hosting og drift av nettbutikk for perioden 05.03.2018-05.03.2019.Ta gjerne kontakt om dere har sp?rsm?l.

意大利語(yǔ)郵件:

Apprezziamo molto che abbiate trovato il tempo per inviarci i vostri commenti e siamo lieti che vi piaccia l'App. Sentitevi liberi di parlare di con i vostri amici o di sostenerci lasciando una recensione nell'AppStore.

訓(xùn)練

前面提到的Skip-Thought的代碼倉(cāng)庫(kù)已經(jīng)提供了針對(duì)英語(yǔ)的預(yù)訓(xùn)練模型。其他一些語(yǔ)言需要自行訓(xùn)練。我們使用了維基百科作為語(yǔ)料,從維基媒體基金會(huì)網(wǎng)站下載了.bz2壓縮文件,解壓縮得到.xml文件。接著解析.xml文件,去除html標(biāo)記,只剩下純文本。有很多解析維基百科文件的工具,沒(méi)有一個(gè)是完美的。取決于使用的解析方法,解析可能要花大量時(shí)間。我使用的是GitHub上的attardi/wikiextractor,不算最好的,不過(guò)是免費(fèi)的,而且可以在合理的時(shí)間內(nèi)完成解析任務(wù)。我還對(duì)得到的純文本進(jìn)行了一些簡(jiǎn)單的預(yù)處理,比如移除換行符。這樣我就得到了大量的訓(xùn)練數(shù)據(jù),可以讓Skip-Thoughts模型慢慢訓(xùn)練了。

Skip-Thoughts的訓(xùn)練過(guò)程還要用到預(yù)訓(xùn)練的詞向量,我使用了Facebook的FastText預(yù)訓(xùn)練詞嵌入。由于這些詞嵌入也是在維基百科上訓(xùn)練的,所以極少遇到詞匯表外的單詞。

實(shí)現(xiàn)細(xì)節(jié)

我把實(shí)現(xiàn)的模型的一個(gè)簡(jiǎn)化版本放到了GitHub上(jatana-research/email-summarization)。這一簡(jiǎn)化版只支持英語(yǔ)郵件,但是實(shí)現(xiàn)了上面提及的所有步驟,效果也很不錯(cuò)。

結(jié)果

你也許已經(jīng)注意到了,模型在只包含三兩句話的郵件上表現(xiàn)要差不少。例如,只包含3句話的郵件的總結(jié)會(huì)有2句話,而原本的3句話可能各自表達(dá)完全不同的事情,漏掉任何一句都是不可接受的。這正是為什么通常情況下在短輸入上不使用提取式方法進(jìn)行總結(jié)的原因。序列到序列的監(jiān)督模型更適合這一任務(wù)。不過(guò)在我們的例子中,郵件一般沒(méi)有這么短,所以提取式方法的效果驚人得好。

使用Skip-Thoughts向量的一個(gè)劣勢(shì)是模型需要花很多時(shí)間訓(xùn)練。盡管2-3天的訓(xùn)練之后就可以得到可接受的結(jié)果,但為了得到較好的結(jié)果,我還是訓(xùn)練了大約一周。由于損失被句長(zhǎng)歸一化了,在迭代過(guò)程中損失波動(dòng)得很厲害。

我們可以看下數(shù)據(jù)集中最相似的句對(duì),看看Skip-Thoughts模型表現(xiàn)得有多好:

I can assure you that our developers are already aware of the issue and are trying to solve it as soon as possible.

AND

I have already forwarded your problem report to our developers and they will now investigate this issue with the login page in further detail in order to detect the source of this problem.

--------------------------------------------------------------------I am very sorry to hear that.

AND

We sincerely apologize for the inconvenience caused.

--------------------------------------------------------------------Therefore, I would kindly ask you to tell me which operating system you are using the app on.

AND

Can you specify which device you are usingas well as the Androidor iOS version it currently has installed?

從上面的句子來(lái)看,這個(gè)模型的效果驚人地好,可以找出相似的句子,即使這些句子的長(zhǎng)度很不一樣,使用的詞匯也大不相同。

可能的改進(jìn)

本文介紹的方法效果相當(dāng)不錯(cuò),但還不夠完美。通過(guò)增加模型復(fù)雜度,有很多可以改進(jìn)的地方:

Quick-Thought向量,Skip-Thoughts的改進(jìn)版,可能降低訓(xùn)練時(shí)間,提升表現(xiàn)。

Skip-Thoughts編碼表示的維度為4800。由于維度詛咒,這樣的高維向量不是很適合聚類(lèi)。我們也許可以使用自動(dòng)編碼器或LSTM自動(dòng)編碼器在聚類(lèi)前降低這些向量的維度。

我們不一定要使用提取式方法。我們可以訓(xùn)練一個(gè)解碼器網(wǎng)絡(luò),讓它轉(zhuǎn)換聚類(lèi)中心的編碼表示為自然語(yǔ)言句子,從而實(shí)現(xiàn)摘要式總結(jié)。Skip-Thoughts編碼器生成的數(shù)據(jù)可以用來(lái)訓(xùn)練這一解碼器。然而,如果我們希望解碼器生成看上去合理的、語(yǔ)法正確的句子,那么需要非常小心地調(diào)整超參數(shù)和設(shè)計(jì)架構(gòu)。

機(jī)器配置

所有這些試驗(yàn)都是在一個(gè)n1-highmem-8的Google云主機(jī)上進(jìn)行的:十核Intel Xeon CPU,Nvidia Tesla K80 GPU,52GB 內(nèi)存。

特別感謝我的指導(dǎo)者Rahul Kumar全程給出的意見(jiàn)和建議,沒(méi)有他我不可能完成這一切。我也很感激Jatana.ai給我提供機(jī)會(huì)和資源完成這項(xiàng)工作。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3808

    瀏覽量

    138086
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25457

原文標(biāo)題:基于句嵌入的無(wú)監(jiān)督文本總結(jié)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用MATLAB進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種根據(jù)未標(biāo)注數(shù)據(jù)進(jìn)行推斷的機(jī)器學(xué)習(xí)方法。無(wú)監(jiān)督學(xué)習(xí)旨在識(shí)別數(shù)據(jù)中隱藏的模式和關(guān)系,無(wú)需任何
    的頭像 發(fā)表于 05-16 14:48 ?690次閱讀
    使用MATLAB<b class='flag-5'>進(jìn)行</b><b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)

    C嵌入式程序項(xiàng)目經(jīng)驗(yàn)總結(jié)相關(guān)資料分享

    C嵌入式程序項(xiàng)目經(jīng)驗(yàn)總結(jié)這里總結(jié)一些項(xiàng)目經(jīng)驗(yàn),比如程序調(diào)試經(jīng)驗(yàn),代碼設(shè)計(jì)模式經(jīng)驗(yàn),代碼風(fēng)格
    發(fā)表于 12-21 06:04

    PCB板繪制經(jīng)驗(yàn)總結(jié)

    PCB板的繪制經(jīng)驗(yàn)總結(jié):(1):畫(huà)原理圖的時(shí)候管腳的標(biāo)注一定要用網(wǎng)絡(luò) NET不要用文本TEXT否則導(dǎo)PCB設(shè)計(jì)的時(shí)候會(huì)出問(wèn)題(2):畫(huà)完原理圖的時(shí)候一
    發(fā)表于 09-19 23:52 ?3870次閱讀

    線圈天線設(shè)計(jì)經(jīng)驗(yàn)總結(jié)

    線圈天線設(shè)計(jì)經(jīng)驗(yàn)總結(jié)
    發(fā)表于 09-12 17:21 ?224次下載

    指針經(jīng)驗(yàn)總結(jié)

    指針經(jīng)驗(yàn)總結(jié)
    發(fā)表于 10-27 15:44 ?19次下載
    指針<b class='flag-5'>經(jīng)驗(yàn)總結(jié)</b>

    一種創(chuàng)新的無(wú)監(jiān)督文本規(guī)范化系統(tǒng)

    推特文本中包含著大量的非標(biāo)準(zhǔn)詞,這些非標(biāo)準(zhǔn)詞是由人們有意或無(wú)意而創(chuàng)造的。對(duì)很多自然語(yǔ)言處理的任務(wù)而言,預(yù)先對(duì)推特文本進(jìn)行規(guī)范化處理是很有必要的。針對(duì)已有的規(guī)范化系統(tǒng)性能較差的問(wèn)題,提出一種創(chuàng)新的
    發(fā)表于 12-15 14:12 ?0次下載
    一種創(chuàng)新的<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>文本</b>規(guī)范化系統(tǒng)

    采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)總結(jié)視頻

    中科院和英國(guó)倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種新方法,采用無(wú)監(jiān)督學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)(Deep Summarization Network,DSN)總結(jié)視頻。
    的頭像 發(fā)表于 01-15 10:49 ?7463次閱讀
    采用<b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督</b>學(xué)習(xí)的方法,用深度摘要網(wǎng)絡(luò)<b class='flag-5'>總結(jié)</b>視頻

    嵌入式系統(tǒng)開(kāi)發(fā)學(xué)習(xí)心得體會(huì)_經(jīng)驗(yàn)總結(jié)

    本文主要介紹的是嵌入式系統(tǒng)開(kāi)發(fā)學(xué)習(xí)心得體會(huì)及經(jīng)驗(yàn)總結(jié),首先介紹了嵌入式系統(tǒng)開(kāi)發(fā)的三大關(guān)鍵點(diǎn),其次推薦了嵌入式系統(tǒng)開(kāi)發(fā)必讀的書(shū)籍,最后介紹了學(xué)習(xí)嵌入
    的頭像 發(fā)表于 05-18 10:24 ?3.2w次閱讀

    你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

    with experience E(一個(gè)程序從經(jīng)驗(yàn)E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過(guò)P測(cè)量在T的表現(xiàn)而提高經(jīng)驗(yàn)E(另一種定義:機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序
    發(fā)表于 12-03 17:12 ?730次閱讀

    如何用Python進(jìn)行無(wú)監(jiān)督學(xué)習(xí)

    無(wú)監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機(jī)器學(xué)習(xí)技術(shù)。無(wú)監(jiān)督算法給出的數(shù)據(jù)不帶標(biāo)記,只給出輸入變量(X),沒(méi)有相應(yīng)的輸出變量。在無(wú)
    的頭像 發(fā)表于 01-21 17:23 ?4676次閱讀

    無(wú)監(jiān)督機(jī)器學(xué)習(xí)如何保護(hù)金融

    無(wú)監(jiān)督機(jī)器學(xué)習(xí)是近年才發(fā)展起來(lái)的反欺詐手法。目前國(guó)內(nèi)反欺詐金融服務(wù)主要是應(yīng)用黑白名單、有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督機(jī)器學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)。
    發(fā)表于 05-01 22:11 ?1128次閱讀

    機(jī)器學(xué)習(xí)算法中有監(jiān)督無(wú)監(jiān)督學(xué)習(xí)的區(qū)別

    無(wú)監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費(fèi)力的數(shù)據(jù)標(biāo)記過(guò)程。但是,要權(quán)衡的是,評(píng)估其性能的有效性也非常困難。相反,通過(guò)將監(jiān)督學(xué)習(xí)算法的輸出與測(cè)試數(shù)據(jù)的實(shí)際標(biāo)簽
    的頭像 發(fā)表于 07-07 10:18 ?6112次閱讀

    EMI整改經(jīng)驗(yàn)總結(jié)

    EMI整改經(jīng)驗(yàn)總結(jié)
    發(fā)表于 12-20 15:55 ?46次下載

    嵌入式C語(yǔ)言知識(shí)點(diǎn)總結(jié)

    導(dǎo)讀:怎么做好嵌入式?相信這個(gè)問(wèn)題無(wú)論問(wèn)誰(shuí)你都會(huì)得到一學(xué)好C語(yǔ)言!今天推薦一篇大佬寫(xiě)的嵌入式C語(yǔ)言知識(shí)點(diǎn)總結(jié),非常值得一讀。
    的頭像 發(fā)表于 04-13 11:12 ?3008次閱讀

    結(jié)合句子間差異的無(wú)監(jiān)督句子嵌入對(duì)比學(xué)習(xí)方法-DiffCSE

    向量表征技術(shù)目前已經(jīng)通過(guò)對(duì)比學(xué)習(xí)獲取了很好的效果。而對(duì)比學(xué)習(xí)的宗旨就是拉近相似數(shù)據(jù),推開(kāi)不相似數(shù)據(jù),有效地學(xué)習(xí)數(shù)據(jù)表征。SimCSE方法采用dropout技術(shù),對(duì)原始文本進(jìn)行數(shù)據(jù)增強(qiáng),構(gòu)造出正樣本,
    的頭像 發(fā)表于 05-05 11:35 ?1562次閱讀