自然言語処理 書籍
 
No.2270
実験の自動化・自律化によるR&Dの効率化と運用方法
ケモインフォマティクスにおけるデータ収集の最適化と解析手法

★ マテリアルズ・インフォマティクスによる新材料開発、データベース構築へ向けて!
★ 知財業務への活用! 先行技術・競合他社の調査、類似特許の分析、特許の読解!

自然言語処理の導入と活用事例
ー情報検索、情報抽出、文書分類、テキスト要約ー

発刊日 : 2024年10月31日  体 裁 : A4判 605頁   定 価:88,000円(税込)    ISBN:978-4-86798-049-1


 
■試読を希望される場合は下記からお申し込みください

■ 本書のポイント

最適なプロンプト(命令文)を上手に出すには?
・具体的な数値や文字の入力
・ハルシネーション(幻覚)の抑制
・感情的なプロンプトの有効性
・背景情報を理解させるRaR Promptingの応用
・誤った生成情報の見極め

言語モデルの意味理解性能を向上させるには?
・未知の単語学習へ向けた
      サブワードの抽出、トークン化の活用
・事前学習、事後学習における外部知識の参照
・対象領域、分野における語彙の収集
・複数の概念の共通項の抽出
・ラベリング、スコアリングによる情報の整理

研究開発、業務プロセスのDX化
 ・大量のデータ収集へ向けた論文、特許からの材料データ自動抽出
 ・生成AIを活用したアイディアの着想
 ・複数の生成AIによる異常検知への活用と信頼性向上、誤検知の低減
 ・場所や国境を超えたベテランが持つノウハウの共有
 ・技術動向、侵害回避などの特許調査への活用
 ・特許文書の自動推敲による時間、労力の低減
 ・医療分野における匿名性と固有表現抽出の両立
 ・人による判断のばらつき、重大な問題見逃しの低減
 ・テキスト情報と数値情報の組み合わせによる市場のトレンド分析、新しい価値の創造

 
 

■ 執筆者(敬称略) 

(国研)理化学研究所 河野 誠也 (株)ケミストリーキューブ 葉山 英樹
日本アイ・ビー・エム(株) 岩本 蘭 静岡大学 綱川 隆司
Ridgelinez(株) 野村 昌弘 (国研)情報通信研究機構 秋山 賢二
(国研)産業技術総合研究所 江上 周作 パテント・インテグレーション(株) 大瀬 佳之
富士フイルム(株) 三沢 翔太郎 大分大学 大知 正直
(株)アナリティクスデザインラボ 野守 耕爾 杏林大学 黒田 航
シュレーディンガー(株) 石崎 貴志 静岡大学 狩野 芳伸
(国研)物質・材料研究機構 吉武 道子 北海道大学 荒木 健治
富士フイルムエンジニアリング(株) 石野 昌裕 野村アセットマネジメント(株) 高野 海斗
MathWorks Japan 田口 美紗 日本工営(株) 箱石 健太
(国研)物質・材料研究機構 岡 博之 慶應義塾大学 加藤 健郎
(株)日立製作所 岩ア 富生 (株)日立製作所 藤井 翔太
大阪電気通信大学 古崎 晃司 大阪大学 芳賀 智宏
(同)設備技術研究所 松田 宏康 敬愛大学 高橋 和子
(株)FRONTEO 野村 城司 (株)メドインフォ 嵜山 陽二郎
中外製薬(株) 和田 学 大阪工業大学 平 博順
(株)理論創薬研究所 吉森 篤史 群馬大学 白石 洋一
(国研)産業技術総合研究所 梅村 舞子 (国研)国立精神・神経医療研究センター 三村 喬生
鹿児島大学 李 慧瑛 (株)イーパテント 野崎 篤志
湘南工科大学 石田 開 日本女子大学 倉光 君郎
東京科学大学 中本 高道 神戸松蔭女子学院大学 奥村 紀之
西南学院大学 新原 俊樹 コンピュータハウス ザ・ミクロ東京 豊田 倫子
大阪大学 甲斐 尚人 (株)ブレインパッド 田中 冬馬
福島大学 荻 多加之 Sansan(株) 橋本 航
東京海洋大学 渡部 大輔 龍谷大学 馬 青
(株)電通総研 飯干 茂義 SCSK(株) 中本 裕大
京都大学 加藤 祥太 豊田工業大学 佐々木 裕
(株)LINK.A 太田 桂吾 エジンバラ大学 磯沼 大
(株)みらい翻訳 岩月 憲一 (株)ゆめみ 島森 瑛貴
拓殖大学 寺岡 丈博 滋賀大学 南條 浩輝
   

■ 目  次

第1章 近年の自然言語処理技術における各種手法の概要と特徴

第2章 研究開発における自然言語処理技術の適用と新材料探索、データ解析などへの活用

第3章 製造プロセスにおける自然言語処理の導入と活用

第4章 自然言語処理技術を用いた特許情報の解析とその応用

第5章 多業種、多分野における自然言語処理の活用事例と業務効率化、将来予測、利便性向上

第6章 自然言語処理ツールの選び方、使い方

第7章 自然言語処理を使いこなすポイント


◇第1章 近年の自然言語処理技術における各種手法の概要と特徴◇

1.近年の自然言語処理技術の整理
2.従来の自然言語処理技術
 2.1 形態素解析
 2.2 Bag-of-Words
 2.3 TF-IDF
3.トピックモデル
 3.1 LSA
 3.2 NMF
 3.3 PLSA
 3.4 LDA
4.深層学習モデル
 4.1 深層学習
 4.2 word2vec
 4.3 RNN
 4.4 LSTM
 4.5 seq2seq
 4.6 Attention
 4.7 Transformer
 4.8 BERT
 4.9 GPT
 4.10 T5
5.大規模言語モデルとテキストマイニング
 5.1 大規模言語モデル
 5.2 テキストマイニング
 5.3 大規模言語モデルとテキストマイニングの比較
 5.4 大規模言語モデルとテキストマイニングの組み合わせ

 

◇第2章研究開発における自然言語処理技術の適用と新材料探索、データ解析などへの活用◇

第1節 MIにおけるデータの記録と蓄積、加工およびその活用
1.MIにおけるデータ記録・活用の課題
 1.1 データがない
 1.2 データが活用できる形になっていない
 1.3 データがあっても活用できない
 1.4 活用できる人が少ない
2.データの記録
 2.1 どのようにデータを記録したら活用しやすいか
 2.2 化合物登録システム
 2.3 MIでの付番管理
 2.4 アッセイデータ登録システム
 2.5 MIでの評価結果の管理
 2.6 アイデア・着想の記録
3.データの活用
 3.1 特徴量の抽出
 3.2 化学構造式
 3.3 画像処理
 3.4 スペクトルデータ

第2節 材料系自然言語処理システム構築へ向けたMaterialBERTの作成
1.様々な科学技術分野のBERT
2.材料分野におけるいくつかのBERT
 2.1 学習に使用するデータ
 2.2 用いる語彙辞書
 2.3 初期パラメータ
 2.4 学習条件
 2.5 評価の仕方
3.MaterialBERTの作成
 3.1 学習データ
 3.2 語彙辞書
 3.3 使用したBERTモデル
 3.4 学習曲線
4.MaterialBERTの評価
 4.1 単語ベクトル
  4.1.1 材料の種類の分類
  4.1.2 単体元素とその化合物
  4.1.3 有機化合物とその誘導体
  4.1.4 有機−無機複合化合物
 4.2 CoLA

第3節 論文から材料データを抽出するための技術開発
1.ポリマー論文における指示表現の認識
 1.1 指示表現単語辞書の作成
 1.2 辞書を用いた指示表現の自動認識と必要技術の検討
 1.3 本技術検討のまとめ
2.材料論文の文分類
 2.1 深層学習用データの作成
 2.2 文分類の深層学習
 2.3 文ベクトルの可視化
 2.4 未知文書での文分類
 2.5 本技術検討のまとめ

第4節 公開データに基づいたMaterials Informaticsによるバイオマス由来プラスチック向けの添加剤探索
1.研究手法
 1.1 添加剤の探索方法
 1.2 分子シミュレーションによるメカニズム解析方法
 1.3 実験による添加剤効果の実証方法
2.結果と考察
 2.1 添加剤の探索結果
 2.2 分子シミュレーションによる解析結果
 2.3 実験による添加剤効果の実証結果

第5節 高分子材料オントロジー構築に向けた知識グラフからの概念階層抽出
1.高分子材料オントロジー構築に向けた知識グラフからの概念階層抽出
 1.1 オントロジー
 1.2 知識グラフとLOD(Linked Open Data)
 1.3 RDFを用いた知識グラフの表現
2.知識グラフからの概念階層抽出
 2.1 Wikidata(ウィキデータ)
 2.2 知識グラフにおける概念階層の表現
 2.3 知識グラフからの概念階層の抽出
  2.3.1 SPARQLクエリを用いた概念階層の抽出
  2.3.2 ダウンロードしたRDFファイルからの概念階層の抽出
3.高分子材料オントロジー構築に向けた概念階抽出
 3.1 対象領域に応じた概念階層抽出
 3.2 高分子材料に関する概念階層の抽出例

第6節 言語情報処理による金属材料の腐食機構の予測
1.言語情報処理による金属材料の腐食機構のAI予測
 1.1 入出力データ(変数)
 1.2 AI手法
  1.2.1 ルールベースドシステム(RBS:Rule Based System)
  1.2.2 機械学習
2.解析結果
3.課題と方策
 3.1 装置材料の界面と化学環境
 3.2 置材料に必要な化学環境の形式知化
  3.2.1 Smiles表記
  3.2.2 腐食に関係する化学組成

第7節 自然言語処理AIによる創薬研究の高効率化
1.創薬研究における課題とAI活用
2.創薬研究における自然言語処理AI
3.様々な創薬シーンにおける効率化の事例
 3.1 論文検索:発見型概念検索「KIBIT Amanogawa」
 3.2 新規創薬標的探索:独自のネットワーク作成「KIBIT Cascade Eye」
 3.3 Drug Repositioning:「二次元マッピング解析」と「多面的解析」
  3.3.1 注目遺伝子と疾患の関係性を可視化「二次元マッピング解析」
  3.3.2 注目遺伝子の適応症候補を客観的・網羅的に評価「多面的解析」

第8節 自然言語AIを活用した創薬標的探索研究と着想支援
1.利用ニーズに合わせた自然言語処理技術(NLP)の活用
2.自然言語AIを活用した創薬標的探索
 2.1 機械学習による標的予測ツールの開発
 2.2 創薬標的探索研究におけるAI開発の障害
3.知識グラフによる標的探索と予測
4.創薬標的探索:アイデア着想の起点、および創薬仮説生成
 4.1 着想を支援するAIの開発
 4.2 標的予測、着想、創薬仮説生成のギャップ

第9節 創薬研究における生成AIの活用事例
1.SMILESによる化学構造の文字列表現
2.Motif2Molによる化学構造の生成
 2.1 拡張ATP結合モチーフ
 2.2 Motif2Molのアーキテクチャ
 2.3 Motif2Molによるキナーゼ阻害剤の生成

第10節 自然言語処理技術を用いた人工遺伝子クラスターの設計に向けて
1.生物のゲノム情報には、進化の過程が軌跡として残されている
 1.1 オペロン形成過程仮説の実験的検証
 1.2 ゲノムに見られるオペロン形成進化過程
 1.3 遺伝子クラスター進化過程のゲノムへの投影と学習
2.ゲノム情報への自然言語処理アルゴリズムの適用
 2.1 遺伝子内機能ドメイン領域のトークン化
 2.2 自然言語における単語とタンパク質ドメインの比較
 2.3 データ準備プロセス
 2.4 使用したモデルアーキテクチャ
 2.5 訓練済みモデルの検証方法
  2.5.1 BGC内のトークン予測タスク
  2.5.2 BGCの化合物クラス予測タスク
3.自然言語モデルはゲノム上の機能ドメイン間の関係性を学習することができる
 3.1 Lossの収束
 3.2 生合成遺伝子クラスター内のドメイン予測性能評価
 3.3 生合成遺伝子クラスターの生合成クラス予測タスク
 3.4 訓練済みモデルによる新規生合成遺伝子クラスターの提案

第11節 テキストマイニングを用いた医学系文献データベース情報の解析と研究動向の分析
1.テキストマイニングによる医学系文献データベース情報の解析方法
 1.1 分析対象とする文献データベースと対象文献の選定
 1.2 分析データの取得と成形
 1.3 医学系文献データベース情報の解析に用いるテキストマイニング分析方法
  1.3.1 形態素解析
  1.3.2 頻度解析
  1.3.3 頻出語の推移データ
  1.3.4 共起ネットワーク/ことばネットワーク
  1.3.5 階層的クラスター分析
  1.3.6 特徴語分析
  1.3.7 対応分析
 1.4 文献データベース情報を研究に用いる際の倫理的配慮
2.テキストマイニングを活用した文献データベース解析の実践事例
 2.1 国内外の研究動向を探る
  2.1.1  Global trend of decision support over medical care (医療をめぐる意思決定支援の世界的潮流)
 2.2 研究動向を比較する
  2.2.1 Literature Research on Dysphagia in Japan: Overview of Studies from 1982 to 2017 by Article Title (日本の嚥下障害に関する文献研究 -論文表題にみる過去36年間の研究テーマの概観)
  2.2.2 Transition and trend of study on domestic and overseas anorexia and dysphagia(摂食・嚥下障害に関する国内外の研究の変遷と傾向)
  2.2.3 Literature research using text mining analysis: priority of Japanese oncology nursing in the article title (日本のがん看護研究表題に見る研究主題の優先性)
 2.3 属性別の研究動向を探る
  2.3.1 Literature Research on Dysphagia in Japan: Overview of Studies from 1982 to 2017 by Article Title (日本の嚥下障害に関する文献研究 -論文表題にみる過去36年間の研究テーマの概観)
  2.3.2 「看護実践能力」に関連した研究動向と看護政策−医中誌を用いた過去44年間の量的・質的分析−
 2.4 研究動向と社会的背景
  2.4.1 健康増進に関する調査研究の歴史的変遷: ヘルスプロモーションの可視化
  2.4.2 日本のメンタルヘルスの研究動向 ―各年代における労働政策との関連―
3.医学系文献データベース情報を用いた調査研究の利点と課題,今後の展望
 3.1 利点
 3.2 課題と限界
 3.3 今後の展望

第12節 テキストマイニングを活用した医療機器分野の研究動向の分析
1.医療機器分野を巡る動向
2.方法
 2.1 分析対象
 2.2 データの処理
 2.3 分析方法
3.結果
 3.1 全期間における分析結果
 3.2 年代別の分析結果
 3.3 所属機関別の分析結果

第13節 自然言語処理と深層学習を用いた匂い印象予測
1.匂い印象予測の原理
2.匂い印象予測の計算機実験
3.自然言語処理を用いた匂い印象予測

第14節 ChatGPTを用いた研究データの作成とその再現性
1.類似学会の研究分野・スコープの差異の可視化
 1.1 ChatGPTに入力したプロンプトと得られた回答
 1.2 回答の再現性を高める工夫
 1.3 作成したデータの解析
  1.3.1 主成分分析による次元削減と各主成分の解釈
  1.3.2 論文の研究内容の差異の可視化
  1.3.3 各学会の研究分野とスコープの差異の可視化
2.e-learning教材と学習項目の適合性評価
 2.1 ChatGPTに入力したプロンプトと得られた回答
 2.2 教材の記述とChatGPTによる回答の比較
3.ChatGPTが学習したデータに基づく研究データの作成
 3.1 ChatGPTに入力したプロンプトと得られた回答
 3.2 2022年の出来事に基づく各国の位置関係の可視化

第15節 自然言語処理を用いた学術テキストの分類と活用
1.導入
 1.1 学術分野を分類する意義
 1.2 自然言語処理を用いた試み
 1.3 自然言語処理の可能性
2.BERTを用いた学術分野の分類
 2.1 実施内容
 2.2 モデル構築環境の整備
 2.3 機械学習プログラム
  2.3.1 コーディング技術の習得
  2.3.2 ベースとなるコードおよび自然言語処理モデルの取得
  2.3.3 コードの改変
  2.3.4 ファインチューニング用のコードを実行する
 2.4 推定精度の検証
  2.4.1 単一テキストの判定
  2.4.2 複数課題での判定
 2.5 ウェブアプリケーションの構築
  2.5.1 ウェブサーバの準備
  2.5.2 サーバに配置するファイルの準備
  2.5.3 Webアプリケーションの運用
3.結果
 3.1 推定精度の指標
 3.2 推定結果
4.考察
 4.1 自然言語処理の活用
 4.2 生成AIの活用
 4.3 研究支援の未来

第16節 自然言語処理による研究者の感情分析
1.分析の概要
2.時点間・属性別の比較分析
 2.1 共起ネットワーク
 2.2 属性別の比較分析(DB2020)
3.感情分析
 3.1 指数を用いた傾向分析
 3.2 感性に関する分析
 3.3 資源配分に関する分析

 

◇第3章 製造プロセスにおける自然言語処理の導入と活用◇

第1節 製造業における自然言語処理を含めたAIの活用状況と展望
1.製造業におけるバリューチェーンと課題について
2.インダストリー4.0から製造業DX・AIへの展開
 2.1 インダストリー4.0から製造業DXへ
 2.2 エンジニアリングチェーンのAI
 2.3 サプライチェーン(SCM)のAI
 2.4 製造現場の課題とAI
 2.5 デマンドチェーンやサービスチェーンのAI
3.自然言語処理を含むAIの活用状況
4.製造業における自然言語処理を含むAIの将来展望
 4.1 マルチモーダルの導入
 4.2 製造業固有の専門ドメイン知識の活用
 4.3 ヒューマンセントリックなモノづくり

第2節 製造業におけるAIの適用
1.企業を取り巻く環境
2.Digital Transformation
 2.1 業務マップ
  2.1.1 各領域の概要
3.急速に進化するAI技術
 3.1 生成AI(Generative AI)
 3.2 マルチモーダルによる言語処理を中核とする利用可能性拡大
4.AI活用領域 〜ユースケース〜
 4.1 フィールドエンジニアリング
  4.1.1 事例:情報集約による傾向の可視化
  4.1.2 トラブル対応AI
 4.2 事例:問い合わせ対応
 4.3 技術文書・研究活動・マーケティング 
  4.3.1 事例:顧客を理解する
  4.3.2 事例:市場ニーズの把握
  4.3.3 事例:市場ニーズと自社シーズのマッチング
5.導入にあたって
 5.1 生成AI登場以降、オフィス系タスクのAI適用が活発化
 5.2 高度な利用は目的志向型で開発する
  5.2.1 プロジェクトの進め方(ステップ)
  5.2.2 業務変革と共に導入する
 5.3 情報基盤の整備が重要
  5.3.1 ナレッジ処理に必要な情報リッチ化プロセス
  5.3.2 データアーキテクチャ


第3節 製造設備管理における自然言語処理分析の活用
1.富士フイルムの保全改革
 1.1 設備保全の問題点
 1.2 保全改革の推進
 1.3 設備管理情報マネジメントシステム(KARTEMIX)の概要
2.設備管理におけるDX
 2.1 ものづくりにおけるDXの取り組むべき姿
 2.2 設備管理におけるDXの取り組むべき姿
 2.3 設備管理におけるDX
 2.4 富士フイルム版FMEAの作成
3.保全レポートにおける自然言語処理
 3.1 故障発生時の同様事例の抽出
  3.1.1 過去履歴検索に対する問題意識
  3.1.2 解決のステップ
  3.1.3 同義語・関連語の抽出
  3.1.4 文章構造化技術
 3.2 保全活動の分析評価

第4節 化学プロセスにおけるデジタルツイン実現へ向けた変数の抽出および解析
1.物理モデル構築関連情報の抽出
 1.1 変数記号と数式の抽出
 1.2 変数定義の抽出
 1.3 BERTモデルを用いた変数定義抽出手法
 1.4 変数定義抽出のためのテンプレート文を用いたデータ拡張手法
2.複数の文献から抽出した情報の表記統一
 2.1 化学工学分野に特化した言語モデル
  2.1.1 コーパス
  2.1.2 モデル学習用データの構築
  2.1.3 モデル事前学習
 2.2 変数定義の同義性判定
  2.2.1 データセット
  2.2.2 ファインチューニング
  2.2.3 変数定義の同義性判定結果

第5節 異常検知へ向けた生成AIの活用
1.データオーギュメンテーション
 1.1 データオーギュメンテーションの基本
 1.2 自然言語におけるデータオーギュメンテーション
 1.3 自然言語における要素(単語)間の距離
 1.4 単語間の距離をデータオーギュメンテーションへ活用する
 1.5 生成AIを使用しないデータオーギュメンテーション
2.生成AIによる自然言語データの生成
 2.1 プロンプトエンジニアリング
 2.2 RAG
 2.3 生成AIのデータオーギュメンテーションへの活用
3.異常検知への適用
 3.1 複数の生成AIの活用
 3.2 運用後の工夫


第6節 自然言語処理の業務プロセスへの応用
1.構造化データの作成
2.非構造化データの変換
3.自然言語処理技術の選定
 3.1 文字列処理
 3.2 言語情報を組み合わせる
 3.3 文章から特定の語句を抽出する
 3.4 文章にラベルを付与する
4.実装

 

◇第4章 自然言語処理技術を用いた特許情報の解析とその応用◇

第1節 大規模言語モデルを活用した特許文書の自動推敲に向けて
1.大規模言語モデルの仕組み
2.大規模言語モデルを活用した特許文書の自動推敲
 2.1 テキスト生成問題としての定式化
 2.2 研究動向
  2.2.1 特許文書の自動要約
  2.2.2 特許文書の簡略化
  2.2.3 特許請求項の自動生成
3.大規模言語モデルの活用における課題

第2節 生成AIおよび特許情報を用いた新用途探索
1.新用途探索における生成AIと特許情報の効果的活用
 1.1 新用途探索の課題と生成AI・特許情報の活用
 1.2 新用途探索における生成AI活用の基本
 1.3 新用途探索における特許情報活用の基本
2.新用途探索のプロセス
 2.1 新用途探索の基本的考え方
 2.2 新用途探索プロセス
  2.2.1 ゴールの設定(Step.1)
  2.2.2 技術定義(Step.2)
  2.2.3 生成AIによる用途候補抽出(Step.3)
  2.2.4 特許情報による用途候補の検証(Step.4)
  2.2.5 用途発明(Step.5)
3.新用途探索事例
 3.1 シームレスカプセルの新用途探索事例
 3.2 ゴール設定(Step.1)
 3.3 技術定義(Step.2)
 3.4 生成AIによる用途候補抽出(Step.3)
 3.5 用途候補の検証(Step.4)
 3.6 新製品創出・用途発明(Step.5)

第3節 BERTScoreを用いた類似特許検索と今後の展望
1.文章間類似度指標
 1.1 BERTScore
2.特許明細書間の類似度計算
 2.1 比較対象部分の抽出と頻出語句の除去
 2.2 長い請求項の分割
 2.3 BERTScoreによる類似度算出
3.BERTの派生モデルの利用
4.言語モデルのファインチューニング
5.性能評価実証実験
 5.1 テストセットの構成
 5.2 評価指標
 5.3 モデルごとの性能比較

第4節 小型特許専用BERTの試作と特許調査業務への応用
1.特許調査業務と機械学習
 1.1 技術動向調査
 1.2 侵害回避調査
 1.3 出願前調査(公知例調査)
 1.4 無効化調査
 1.5 定期監視(SDI:Selected Dissemination Information)
2.日本語BERTと特許専用BERT
3.日本語特許専用BERTの試作と評価
 3.1 日本語版特許専用モデルの作成
 3.2 汎用モデルと専用モデルの性能比較
 3.3 クエリ検索しないデータに対する応用

第5節 AIサービスの知財実務への実践的な利活用
1.生成AI:革新的な人工知能技術
 1.1 Text-to-Image Modelsとは
 1.2 Text-to-Text Modelsとは
 1.3 生成AIと深層学習との相違点
 1.4 生成AIの仕組み
 1.5 生成AI活用の上での問題点
2.生成AI利活用のポイント
 2.1 なぜ生成AIは「使えない」といわれてしまうのか?
 2.2 生成AIの業務利活用におけるポイント
 2.3 まとめ
3.AIサービスを活用した知財情報解析の展望
 3.1 生成AIが可能にしたこと
 3.2 知財情報解析における課題
 3.3 まとめ
4.特許読解アシスタントサマリア
 4.1 サマリアとは
 4.2 サマリアを利用した知財情報解析

 

◇第5章 多業種、多分野における自然言語処理の活用事例と業務効率化、将来予測、利便性向上◇

第1節 トップ被引用論文の予測に向けたTransformerによる学術文献の言語情報と引用情報の統合
1.提案手法
 1.1  重要なのは言語情報か引用情報か?
 1.2 言語情報と引用情報の融合Transformerモデル
2.実験
 2.1 学術文献データセット
 2.2 分類問題の設定と条件
3.結果
4.議論
 4.1 学習の安定性
 4.2 比較分析
5.結論

第2節 自然言語処理による専門用語の構成解析〜医療用語を例に〜
1.はじめに
 1.1 医学用語の特殊性
 1.2 被覆率が低くなるのは,なぜか?
2.語構成要素認識の並列分散化
 2.1 PDMAの実例
 2.2 FCAとの関わり
3.厳密な並列分散解析の近似解
 3.1 構成関係の多重並列アノテーション
 3.2 実例
 3.3 MLMAの限界
4.PDMAとMLMAとPSAの比較
 4.1 比較1
 4.2 比較2
5.議論
 5.1 関連研究
 5.2 過剰認識の問題と機械学習との関連

第3節 自然言語処理の医療・法・政治分野応用:言語を基盤とする人間の知的機序のAI化とその社会実装
1.基盤的な自然言語処理:より人間に近い自然言語処理モデルと説明可能性
2.電子カルテの処理
3.精神疾患の自動診断支援
4.人狼知能と対話システム
5.法律分野への応用と司法試験の自動解答
6.政治分野への応用と世論形成過程の推測

第4節 対話システムにおけるユーモア生成機能の免疫力向上への応用
1.はじめに
2.駄洒落生成システム
 2.1 処理過程
 2.2 種表現の検索
 2.3 変形表現の検索
 2.4 種表現の読みの一致による検索
 2.5 変形表現の読みの一致による検索
 2.6 種表現の変形音による検索
 2.7 Google ngramの検索
 2.8 単語分割による検索
3.性能評価実験
 3.1 実験方法
 3.2 実験結果および考察
  3.2.1 お題の駄洒落として成立しているかについて
  3.2.2 同じお題で生成できる駄洒落の種類について
  3.2.3 生成された駄洒落の成功例と失敗例について

第5節 大規模言語モデルの金融テキストへの適用
1.業務効率化の適用例
 1.1 テキスト分類タスクへの適用
 1.2 テキスト生成タスクへの適用
2.市場分析の適用例

第6節 土木分野における事前学習モデルBERTによる精度検証と大規模言語モデルの活用に向けた取り組みの必要性
1.背景
2.研究手順
3.土木BERT
 3.1 東北大BERT
 3.2 土木BERT
  3.2.1 土木学会発行の論文
  3.2.2 道路・河川に関わる指針・要領
  3.2.3 各都道府県の土木工事共通仕様書
  3.2.4 建設白書,国土交通白書
  3.2.5 学習方法
4.精度検証用のデータセット
 4.1 NETIS(区分)
 4.2 NETIS(工種)
  4.2.1 データ数
  4.2.2 信頼性
  4.2.3 再利用性
 4.3 穴埋め問題
5.計算条件と評価指標
 5.1 NETIS(区分・工種)
  5.1.1 計算条件
  5.1.2 交差検証および評価指標
 5.2 穴埋め問題
  5.2.1 計算条件
  5.2.2 交差検証および評価指標
6.精度検証結果と考察
 6.1 NETIS
  6.1.1 区分
  6.1.2 工種
  6.1.3 穴埋め問題
7.今後の課題
 7.1 データセットの整備
 7.2 精度検証用のデータセットの拡充
 7.3 形態素解析の辞書の整備
8.大規模言語モデルの活用に向けた提言

第7節 デザインにおける発想支援のための自然言語処理の活用
1.デザイン分野における自然言語処理技術の活用
2.デザインの思考モデル
3.デザインの思考モデルと自然言語処理を用いたキーワード生成システム
4.キーワード生成システムの事例適用

第8節 CTIの収集、分析へ向けた自然言語処理の活用
1.CTI構造化
2.CTI分析
 2.1 脅威分析
 2.2 脆弱性分析
3.CTI対策活用
4.ソーシャルメディア分析
5.言語モデル構築

第9節 環境分野における自然言語処理を含めたAI要素技術の活用可能性
1.自然の価値を測り、可視化する技術の開発
2.自然の多様な価値の理解のためのAI要素技術の開発の必要性

第10節 トピックモデルを応用したテキストデータの理解とインサイトの獲得
1.テキストマイニング
 1.1 テキストデータの分析と活用の意義
 1.2 テキストマイニングという分析手法
 1.3 テキストマイニングの複雑性の問題
2.テキストマイニング×トピックモデル
 2.1 トピックモデルの適用
 2.2 トピックモデルの各手法
  2.2.1 LSA
  2.2.2 NMF
  2.2.3 PLSA
  2.2.4 LDA
 2.3 テキストマイニングに適用するトピックモデルの考察
 2.4 PLSAの適用によるトピック抽出
3.テキストマイニング×ベイジアンネットワーク
 3.1 テキストマイニングの現状把握分析の限界
 3.2 ベイジアンネットワークの概要
 3.3 テキストマイニングにベイジアンネットワークを適用するメリット
 3.4 テキストマイニング×ベイジアンネットワークの課題
4.テキストマイニング×PLSA×ベイジアンネットワークの分析手法:Nomolytics
 4.1 Nomolyticsという分析手法
 4.2 Nomolyticsにおける各手法の連携の工夫
  4.2.1 PLSAの共起行列の構成の工夫
  4.2.2 トピックの確率変数化の工夫
 4.3 Nomolyticsの適用例
  4.3.1 自由記述付アンケートデータへの適用
  4.3.2 ユーザレビューデータへの適用
  4.3.3 コールセンターの問い合わせ履歴データへの適用
  4.3.4 特許文書データへの適用
5.Nomolyticsを特許文書データに適用した分析事例(その1)
 5.1 分析で用いるデータ
 5.2 分析の全体像
 5.3 PLSAの適用による用途と技術のトピック抽出
 5.4 トピックのスコアリング
 5.5 トピックのトレンド分析
 5.6 トピックを用いた競合他社の分析
 5.7 ベイジアンネットワークの適用による用途と技術の関係分析
  5.7.1 用途⇒技術の関係分析
  5.7.2 技術⇒用途の関係分析
 5.8 Nomolyticsを適用した特許文書データ分析のまとめ
6.Nomolyticsを特許文書データに適用した分析事例(その2)
 6.1 分析で用いるデータ
 6.2 分析の全体像
 6.3 テキストマイニング×PLSAによる要約トピックの抽出
 6.4 トピックのスコアリング
 6.5 トピックのトレンド分析
 6.6 トピックを用いた競合他社の分析
7.インサイト獲得のためのPLSAの展開技術
8.課題のターゲットに特化したトピックの抽出手法:PCSA
 8.1 課題となるターゲットの要因の探索
 8.2 PCSAという手法
 8.3 PCSAを適用した分析事例
  8.3.1 ターゲットの設定と共起行列の作成
  8.3.2 トピックの抽出と解釈
  8.3.3 トピックのスコアリング
  8.3.4 PLSAとPCSAの結果の比較
  8.3.5 トレンドが上昇傾向にあるトピックの確認
  8.3.6 PCSAのまとめ
9.個性的なトピックの抽出手法:differential PLSA
 9.1 典型的でない個性的なトピックの抽出
 9.2 differential PLSAという手法
 9.3 differential PLSAを適用した分析事例
  9.3.1 共起行列の作成
  9.3.2 トピックの抽出と解釈
  9.3.3 トピックのスコアリング
  9.3.4 PLSAとdifferential PLSAの結果の比較
  9.3.5  differential PLSAのまとめ
10.Nomolytics、PCSA、differential PLSAの比較
 10.1 各手法の違い
 10.2 各手法で共通する分析のコンセプト

 

◇第6章 自然言語処理ツールの選び方、使い方◇


第1節 機械学習、自然言語処理の入門と応用
1.機械学習とは
2.学習の枠組みによる分類
 2.1 教師あり学習(supervised learning)
 2.2 教師なし学習(unsupervised learning)
 2.3 強化学習(reinforcement learning)
 2.4 その他の枠組からみた機械学習
3.モデルの評価方法と評価指標
4.機械学習用のフリーソフトとライブラリの利用
5.機械学習における問題点
6.自然言語処理とは
 6.1 基本解析技術
 6.2 応用技術
 6.3 最近の自然言語処理

第2節 ChatGPTの特徴と統計解析・将来展望
1.ChatGPTの特徴
 1.1 ChatGPT:対話型生成AIモデル
 1.2 ChatGPTの拡張機能:Data Analyst
2.ChatGPTによる統計解析
 2.1 従来の統計解析における問題
 2.2 ChatGPTによる統計解析
3.ChatGPTによる統計解析の光と影
 3.1 ChatGPTによる統計解析の光
 3.2 ChatGPTによる統計解析の影

第3節 BERTおよびBERT-CRFの特徴と性能評価
1.BERT-CRFモデル
 1.1 Transformerアーキテクチャ
 1.2 BERT
 1.3 CRF
 1.4 BERT-CRF
2.BERT-CRFの適用例
 2.1 日本語機能表現
 2.2 BERT-CRFを用いた日本語機能表現解析

第4節 Word2VecとN-gramの組み合わせによる自然言語解析
1.コーパス
2.単語の分散表現と加法構成性
3.Word2Vec
 3.1 Skip-gram
 3.2 CBOW
4.N-gram
5.Word2VecとN-gramの応用

第5節 MATLABによる自然言語処理 機能と活用事例
1.MATLABによるテキストマイニング
 1.1 言語データの読み込み、クリーニング、可視化
 1.2 言語データの数値化、機械学習
 1.3 類似度計算、情報検索
 1.4 大規模言語モデルの利用
 1.5 大規模言語モデルを活用した情報検索
2.MATLABによる自然言語処理の活用例
 2.1 石油化学プラントおけるエンジニアへのタスク自動割り振り例
 2.2 大学教員によるレポート解析例
 2.3 人文学系研究員によるSNS解析例

第6節 Rによる形態素解析
1.Rの環境設定
 1.1 Rのインストール
 1.2 RStudioのインストール
 1.3 パッケージの利用
 1.4 Rによる文字列操作の基本
 1.5 パイプ演算子
2.形態素解析の環境構築
 2.1 MeCabのインストール
 2.2 {RMeCab}パッケージのインストール
 2.3 {rjumanpp}パッケージ
 2.4 実行時間の比較
3.青空文庫データの取得
4.形態素解析
 4.1 テキストデータの読み込み
 4.2 形態素解析の実行
5.言語モデル

第7節 MS Word・MS Excelおよび無料ツールを用いたテキスト分析の進め方
1.テキストデータの準備
 1.1 MS Word・MS Excelを用いる場合のテキストデータ
 1.2 ユーザーローカルのAIテキストマイニングを用いる場合のテキストデータ
2.MS Word・MS Excelを用いたテキスト分析
 2.1 単純なテキスト分析
 2.2 他の分析軸と組み合わせたテキスト分析
 2.3 MS Word・MS Excelを用いたテキスト分析を行う際の留意点
3.ユーザーローカルのAIテキストマイニングを用いたテキスト分析
 3.1 1つの文書を解析
 3.2 2つの文書を比較

第8節 最小規模の日本語コードLLMを求めて
1.なぜ最小規模のコードLLMを探すのか?
2.日本語コードLLM
 2.1 コードと言語モデル
 2.2 コードLLMの規模
 2.3 評価尺度: どのようにコードLLMの能力を測るか?
3.最小規模のコードLLMを求めて
 3.1 事前学習データセットの準備
 3.2 スケーリング戦略と事前学習

 

◇第7章 自然言語処理を使いこなすポイント◇
第1節 大規模言語モデルの各モデルにおけるトークン分割と効果的なプロンプト入力手法
1.生成AIに対する期待と課題
2.トークン分割とプロンプトの設計
 2.1 トークン分割
  2.1.1 Ngram言語モデル
  2.1.2 SentencePiece
  2.1.3 形態素解析器
 2.2 トークン分割と大規模言語モデル
3.大規模言語モデルを扱う上でのプロンプトの工夫
 3.1 訓練なしの新しいタスク
 3.2 推論と論理
 3.3 ハルシネーションの抑制
 3.4 感情とトーンの管理
 3.5 ユーザの意図の理解

第2節 文章作成のための生成AIとプロンプトの出し方
1.文章作成のための生成AIについて知る
 1.1 生成AIの仕組み
 1.2 生成AIのLLM
2.文章作成の生成AI
 2.1 ChatGPT・Google Gemini ・Microsoft CoPilotを知る
 2.2 回答の種類
3.プロンプト
 3.1 プロンプトエンジニアリング
 3.2 プロンプト設計と5W1H
 3.3 明確に記述する
4.プロンプトを改善する
5.プロンプトの文字数を減らす
6.生成した結果が正しいか判断できるスキル
7.あいまいさを排除して明確に指示をする
8.要約
 8.1 要約の手順
 8.2 要約するときの注意点
9.生成AIの課題
 9.1 生成AIの課題
 9.2 生成AIが回答できない質問

第3節 大規模言語モデルにおける”幻覚”問題とその抑制
1.ハルシネーションとは
 1.1 ハルシネーションの分類
 1.2 ハルシネーションはなぜ起こるのか
2.ハルシネーションの抑制方法
 2.1 Retrieval-Augmented Generation
 2.2 外部ツールの呼び出し
 2.3 データベースとLLMの接続
 2.4 知識グラフの活用
  2.4.1 知識グラフとは
  2.4.2 知識グラフとLLMの接続
  2.4.3 LLMを使って知識グラフを構築する
3.今後の展開
 3.1 LLM4KG
 3.2 KG4LLM


第4節 言語モデルにおける破滅的忘却の対策
1.破滅的忘却とは
 1.1 破滅的忘却の原因
2.破滅的忘却への対策
 2.1 破滅的忘却への対策の概要
 2.2 Elastic Weight Consolidation (EWC)
 2.3 破滅的忘却を防ぐ最適化関数を用いた構文情報の事前学習
3.大規模言語モデル(LLM)における破滅的忘却

第5節 大規模言語モデルとIn-context Learning
1.大規模言語モデルとは
2.In-context Learningとは
 2.1 In-context Learningの定義
 2.2 In-context Learningの重要性
 2.3 In-context Learningの能力の向上
 2.4 In-context Learningの能力の検証
3.In-context Learningの解析
 3.1 In-context Learningと勾配降下法
  3.1.1 勾配降下法
  3.1.2 In-context Learningと勾配降下法の関係
 3.2 In-context LearningとMeta Learning
  3.2.1 Meta-Learning
  3.2.2 LLMにおけるMeta Learning
4.In-context Learningの応用
 4.1 プロンプトエンジニアリングへの応用
  4.1.1 Few-shot prompting
  4.1.2 Chain-of-thoughts
 4.2 RAGへの応用
  4.2.1 RAGとは
  4.2.2 RAGとIn-context Learning
 4.3 Knowledge Editingへの応用
  4.3.1 Knowledge Editingとは
  4.3.2 In-context Knowledge Editing
5.In-context Learningの発展
 5.1 Many-Shot In-context Learning
 5.2 Reinforced In-context Learning
 5.3 Unsupervised In-context Learning
 5.4 In-context Unlearning
 5.5 Inductive-bias Learning
  5.5.1 Inductive-bias Learningとは
  5.5.2 Inductive-bias Learningの可能性
  5.5.3 Inductive-bias Learningの課題
6.In-context Learningの課題
 6.1 計算コスト
 6.2 入力長による制限
 6.3 In-context Learningの解釈

第6節 BERT-MRCによる固有表現抽出
1.BERT-MRC
 1.1 前提
 1.2 BERT-MRCにおけるスパン予測
 1.3 BERT-MRCの学習
2.実験設定
 2.1 データセット
 2.2 モデル
 2.3 BERT-MRCにおける負例サンプリング
 2.4 評価方法
3.日本語固有表現抽出の結果
4.エラー分析
5.関連研究
 5.1 固有表現抽出
 5.2 Nested-NER

第7節 深層学習を用いた日本語文法の誤り検出
1.文法誤り検出タスク
2.深層学習モデルによる誤り検出
 2.1 BERTによる誤り検出
 2.2 Flairによる誤り検出
 2.3 Flair (+BERT Embedding)による誤り検出
 2.4 対照学習を用いた追加事前学習
3.データセットの構築
 3.1 Lang-8
 3.2 データへの単語正誤ラベル付与
4.実験
 4.1 実験の条件
 4.2 評価方法
 4.3 実験の結果
 4.4 Ablation Study

第8節 大規模言語モデルにおける知識グラフ活用
1.大規模言語モデルの意味理解性能向上
 1.1 大規模言語モデル
 1.2 知識グラフ
 1.3 知識グラフ適用による言語モデルの性能改善
2.生成AI
 2.1 生成AIとは
 2.2 RAG
 2.3 知識グラフRAG

第9節 自然言語文からの関係抽出とその評価
1.関係抽出の定義
2.固有表現抽出
3.共参照解析とエンティティ・リンキング
4.関係抽出
 4.1 文レベル関係抽出
 4.2 文書レベル関係抽出
 4.3 コーパスレベル関係抽出
5.関係抽出に類似する技術

第10節 入出力文の関係を考慮した複数文要約でのデータ拡張
1.文書要約タスクと代表的なモデル
 1.1 抽出型要約
 1.2 抽象型要約
 1.3 複数文書や長文に対応するモデル
 1.4 評価指標
2.自然言語処理におけるデータ拡張
 2.1 ルールベース
 2.2 中間表現ベース
 2.3 モデルベース
3.複数文抽象型要約における,入出力文章の関係を考慮したデータ拡張
 3.1 複数文抽象型要約におけるデータ拡張の留意点
 3.2 データ拡張手法
  3.2.1 入出力文の対応関係の取得
  3.2.2 同一トピック文ペアに着目したサンプル生成
  3.2.3 拡張データを利用した学習
4.実験
 4.1 データ
 4.2 比較手法
 4.3 条件
 4.4 結果と考察
 4.5 分析


第11節 大規模言語モデルの学習データ最適化
1.二段階最適化による学習用プロンプトの最適化
 1.1 instruction tuningとは
 1.2 提案手法:instruction optimization
 1.3 評価実験
2.逆学習による学習データの影響推定
 2.1 問題設定
 2.2 提案手法
  2.2.1 UnTrac
  2.2.2 UnTrac-Inv
 2.3 既存手法との関連
  2.3.1 TracIn, GradDot & GradCos
  2.3.2 Hessian-based influence Functions
  2.3.3 逆学習に基づく解釈
 2.3 評価実験
  2.3.1 ファインチューニングの影響推定
  2.3.2 事前学習における影響推定

第12節 自然言語処理を用いた日本語文中の並列構造の検出及び抽出
1.日本語の並列構造について
 1.1 並列構造とは
 1.2 並列構造の分類
 1.3 並列構造の抽出を困難にする要因
2.並列構造を抽出する意義
3.先行研究とタスク設定
 3.1 古典的手法
  3.1.1 ルールベースの手法
  3.1.2 外部知識源による意味解析を用いる手法
  3.1.3 機械学習ベースの手法
 3.2 深層学習ベースの手法
 3.3 LLMベースの手法
4.LLMを利用した抽出
 4.1 手法
 4.2 実験設定
 4.3 結果
 4.4 考察

第13節 自然言語理解に向けた換喩の分類と解析: 空間的な関係性に基づいた換喩表現の検出
1.換喩とは
2.換喩に関する自然言語処理研究
3.連想に基づいた換喩解析
 3.1 手法の概要
 3.2 連想概念辞書
 3.3 喩詞の検出
4.評価実験
 4.1 学習データ
 4.2 ベースライン
5.考察

第14節 否定表現を伴う文の自然言語理解に向けて〜否定表現を含むデータの自動生成とそれを用いたモデル学習の効果〜
1.含意関係認識・意味的類似度判定のデータセットと否定表現
2.否定表現を含むデータセットの自動生成方法
3.否定表現を伴う文の含意関係認識
 3.1 否定表現を理解できているかの確認
 3.2 否定表現を学習するとどうなるか
4.否定表現を伴う文の意味的類似度の予測(STSの性能評価)

 

自然言語処理 生成AI プロンプト