0

旧タイトル:人名と法人名を識別したい

 

 

人名と法人名を機械的に識別したいです。
熟考しましたが、識別の術を見出せず、行き詰ってます。
断片の考えかた/ヒントやズバリのアイデアがあれば教えてください。

 
状況

  • 姓と名の欄からフルネームを取得
  • みなし法人*の情報が入ることがある
    *ここでは「個人と同等に扱う、屋号ありの個人事業主」といった意味合い

 

目的

  • 一連の処理を自動化する中で、純個人かみなし法人か識別して後続処理で扱いを分けたい

  
姓と名の欄に入る可能性のある主な文字列

  • 日本人の氏名
    例:宇院 タロー、増田 ジロー
  • 外国人の氏名のカナ表記、もしくはアルファベット表記
    例:ジョン ウィック、JOHN WICK
  • 法人の屋号と担当者名
    例:RPAラボ 宇院タロー、スタジオDX 増田ジロー

 
環境

  • WinActor Ver.7.2.1.1
  • Office 2021
  • ネット接続一部制限あり(追記)

  
クリアしたい背景

  • 人はいともカンタンに確実に純個人とみなし法人を識別できる
  • 処理の全自動化を目指すなかで、純個人かみなし法人かの識別が唯一最後まで残りそう
  • ルール/規則性を掴み、全自動で識別する術を見出したい

 
試したこと

  • ChatGPTせんせーにお伺い
  • Googleせんせーにお伺い

 

ChatGPTせんせーへの直球質問の回答抜粋

  1. 文字の種類やパターンを調査する
  2. 辞書やデータベースの活用
  3. キーワードの検索
  4. 判断基準の設定

 

ChatGPTせんせーにExcel数式の案もお伺い

=IF(LEN(A1)<=12, "純個人", "法人")

=IF(SUMPRODUCT(LEN(A1)-LEN(SUBSTITUTE(A1, {"漢","字","カ","タ","カ","ナ"},"")))/LEN(A1)>=0.5, "純個人", "法人")

  • 客観的には「それなら今のまま目視で充分」と言いたくなるレベル感

 

Googleせんせーにお伺い

https://www.google.com/search?q=文字列+人名らしさ

  • 知りたかった方向の情報がヒット(抽出、確率、解析、自然言語処理、モデル)
  • 研究とか学術的な内容が多く、敷居が高そう
  • AI、機械学習方面で解決を目指す対象なのかも
  • シナリオ内でChatGPTせんせーにお伺いすれば良いのかもしれない
  • 仮に組み込むとしても、レスポンスややりとりのコストが気になる
  • 個人情報だからそもそも外に出す訳にはいかない
anothersolution 回答した質問
回答とコメントは、会員登録(無料)で閲覧できるようになります。