Hugging Face transformers を使って日本語 BERT モデルをファインチューニングして感情分析 (with google colab) part01

本記事では、日本語 BERT モデルをファインチューニングして感情分析する方法を解説します。

BERT の詳細な解説は、この記事のスコープ外とします。

この記事は、part01 です。

part02 では、まとまったデータセットを使って実際に学習と評価を行っています。


Hugging Face Transformers とは

Hugging Face 社によって開発されている、言語モデルを容易に扱うための OSS ライブラリ です。



BERT とは、Bidirectional Encoder Representations from Transformersの略称で、Googleが開発した自然言語処理のモデルです。



!pip install -q transformers fugashi[unidic-lite]
import pandas as pd
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from torch.optim import AdamW

日本語 BERT の簡単なチュートリアル

最初に、huggingface transformers を使った日本語 BERT pre-trained model の使い方や fine tuning の方法を、見ていきます。



Pre-trained Model を使って推論

BERT モデルは、mask された token ([MASK]) を予測するように学習されています。

したがって、pre-trained model を使って、文章中の穴埋め (文章中の欠損箇所の予測) を 行えます。


pipelinefill-mask タスクを指定することで、簡単に試すことができます。

model_name = "cl-tohoku/bert-large-japanese"

unmasker = pipeline('fill-mask', model=model_name)
[{'score': 0.04221104457974434,
  'token': 32474,
  'token_str': 'サラダ',
  'sequence': '今日 の 昼食 は サラダ でし た 。'},
 {'score': 0.036806173622608185,
  'token': 18526,
  'token_str': 'カレー',
  'sequence': '今日 の 昼食 は カレー でし た 。'},
 {'score': 0.0313434936106205,
  'token': 31893,
  'token_str': 'ご飯',
  'sequence': '今日 の 昼食 は ご飯 でし た 。'},
 {'score': 0.021632177755236626,
  'token': 17540,
  'token_str': '元気',
  'sequence': '今日 の 昼食 は 元気 でし た 。'},
 {'score': 0.020115602761507034,
  'token': 23869,
  'token_str': 'うどん',
  'sequence': '今日 の 昼食 は うどん でし た 。'}]
model_name = "bert-base-multilingual-uncased"

unmasker = pipeline('fill-mask', model=model_name)
[{'score': 0.17987696826457977,
  'token': 7753,
  'token_str': '見',
  'sequence': '今 日 の 昼 食 は 見 てした 。'},
 {'score': 0.06706605106592178,
  'token': 4080,
  'token_str': '捨',
  'sequence': '今 日 の 昼 食 は 捨 てした 。'},
 {'score': 0.06436670571565628,
  'token': 2073,
  'token_str': '全',
  'sequence': '今 日 の 昼 食 は 全 てした 。'},
 {'score': 0.060412339866161346,
  'token': 5216,
  'token_str': '満',
  'sequence': '今 日 の 昼 食 は 満 てした 。'},
 {'score': 0.02542056515812874,
  'token': 4518,
  'token_str': '果',
  'sequence': '今 日 の 昼 食 は 果 てした 。'}]


unmasker に別の文章を渡して推論させてみましょう。

Fine Tuning 前の感情分析

感情分析タスクは “sentiment-analysis”pipeline のタスクに指定することで行えます。

pipeline で利用可能なタスク一覧は、Hugging Face のドキュメント で確認できます。


テキスト分類のための Fine Tuning の手順


以下のように、3 種類のラベル (positive: 2, neutral: 1, negative: 0) のデータを用意します。

# 確認用のデータセット
df = pd.DataFrame(
        {"text": "私はこの映画をみることができて、とても嬉しい。", "label": "POSITIVE"},
        {"text": "今日の晩御飯は何だろう。", "label": "NEUTRAL"},
        {"text": "猫に足を噛まれて痛い。", "label": "NEGATIVE"}
text label
0 私はこの映画をみることができて、とても嬉しい。 POSITIVE
1 今日の晩御飯は何だろう。 NEUTRAL
2 猫に足を噛まれて痛い。 NEGATIVE
train_docs = df["text"].tolist()
train_labels = df["label"].tolist()


同時にダウンロードされるトークナイザーを利用して、データセットの text の encoding を行います。


model_name = "cl-tohoku/bert-large-japanese"

id2label = {0: "NEGATIVE", 1: "NEUTRAL", 2: "POSITIVE"}
label2id = {"NEGATIVE": 0, "NEUTRAL": 1, "POSITIVE": 2}

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3, id2label=id2label, label2id=label2id)
tokenizer = AutoTokenizer.from_pretrained(model_name)
encodings = tokenizer(train_docs, return_tensors='pt', padding=True, truncation=True, max_length=128)
input_ids = encodings['input_ids']
attention_mask = encodings['attention_mask']
# Fine-tuning in native PyTorch

# the AdamW() optimizer which implements gradient bias correction as well as weight decay.
optimizer = AdamW(model.parameters(), lr=1e-5)

labels = [label2id[label] for label in train_labels]
labels = torch.tensor(labels).unsqueeze(0)
outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
loss = outputs.loss

Fine Tune したモデルで推論



sentiment_analyzer = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
[{'label': 'POSITIVE', 'score': 0.41579246520996094}]
# 学習データに対する推論
_ = list(map(lambda x: print(f"{x}: {sentiment_analyzer(x)}"), train_docs))
私はこの映画をみることができて、とても嬉しい。: [{'label': 'POSITIVE', 'score': 0.5623015761375427}]
今日の晩御飯は何だろう。: [{'label': 'NEUTRAL', 'score': 0.4257284700870514}]
猫に足を噛まれて痛い。: [{'label': 'NEGATIVE', 'score': 0.586097776889801}]


sentiment_analyzer に任意の文章を渡して推論してみましょう。


簡単な文章とラベルを用意して fine tuning する方法を記載しました。

次の記事 では、より大きなデータセットを使って、より時間のかかる学習を試してみたいと思います。