[Most-ai-contest] 預訓練的bert參數

闍怵羅 s2w81234於gmail.com
Wed 12月 11 15:08:22 CST 2019


各位好,

https://drive.google.com/drive/folders/1Gbpg5Idu40wRWooXKJbVBm4g4BZKFVHs?usp=sharing


以上連結為Finetune後的bert模型,

roberta的版本會訓練完成再釋出於此雲端資料夾,有需要roberta的可能需要先用bert來進行測試。

在開會期間,有調查用pytorch的開發人員都是透過from_pretrained的方式去load預訓練模型,
所以使用方法一樣,把資料夾下載下來後透過path的方式讓你的libarary幫你自動載入。

Ex:
bert_model = BertModel.from_pretrained('download_path/bert_chinese/')

基本上都可以順利加載。

記住tokenize也要用此種方式,不然embedding的index也會對不上。

=======================================

補充一下

bert_chinese是將整體資料切90%為Training set剩下的為Test set的結果。

bert_chinese_total是將整體資料拿去training並且在Test set的結果。

昨天ppt的ppl的計算有錯誤

修正後的數據如下

bert-chinese ppl = 2.5567 [簡體]

bert-chinese_total ppl = 2.4514 [簡體]

original bert-chinese ppl = 3.4818 [簡體]

original bert-chinese ppl = 3.4816 [繁體]

======

※所有訓練流程都是先轉為簡體來執行的
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.iis.sinica.edu.tw/pipermail/most-ai-contest/attachments/20191211/2da5ba94/attachment.html>


More information about the Most-ai-contest mailing list