指定文字列とリストの類似度を計算したい
旧タイトル:人名と法人名を識別したい
人名と法人名を機械的に識別したいです。
熟考しましたが、識別の術を見出せず、行き詰ってます。
断片の考えかた/ヒントやズバリのアイデアがあれば教えてください。
状況
- 姓と名の欄からフルネームを取得
- みなし法人*の情報が入ることがある
*ここでは「個人と同等に扱う、屋号ありの個人事業主」といった意味合い
目的
- 一連の処理を自動化する中で、純個人かみなし法人か識別して後続処理で扱いを分けたい
姓と名の欄に入る可能性のある主な文字列
- 日本人の氏名
例:宇院 タロー、増田 ジロー - 外国人の氏名のカナ表記、もしくはアルファベット表記
例:ジョン ウィック、JOHN WICK - 法人の屋号と担当者名
例:RPAラボ 宇院タロー、スタジオDX 増田ジロー
環境
- WinActor Ver.7.2.1.1
- Office 2021
- ネット接続一部制限あり(追記)
クリアしたい背景
- 人はいともカンタンに確実に純個人とみなし法人を識別できる
- 処理の全自動化を目指すなかで、純個人かみなし法人かの識別が唯一最後まで残りそう
- ルール/規則性を掴み、全自動で識別する術を見出したい
試したこと
- ChatGPTせんせーにお伺い
- Googleせんせーにお伺い
ChatGPTせんせーへの直球質問の回答抜粋
- 文字の種類やパターンを調査する
- 辞書やデータベースの活用
- キーワードの検索
- 判断基準の設定
- 試行錯誤しながら適切な方法を見つけることが重要とのこと
- 1.3.4.が期待した方向性ではあるものの、せんせーとの対話はキリがない気がする
- 2.は既存なら流用したい、作る必要があるならやりたくない
- 楽勝かと思いきや、日本の住所のヤバさよりもヤバイのかも
https://www.google.com/search?q=日本の住所のヤバさ
https://www.google.com/search?q=住所+クレンジング|正規化 - レーベンシュタイン距離みたいな、純個人度を計算する関数なんてないものか
https://winactor.com/questions/question/エクセルの検索一致について/
ChatGPTせんせーにExcel数式の案もお伺い
=IF(LEN(A1)<=12, "純個人", "法人")
=IF(SUMPRODUCT(LEN(A1)-LEN(SUBSTITUTE(A1, {"漢","字","カ","タ","カ","ナ"},"")))/LEN(A1)>=0.5, "純個人", "法人")
- 客観的には「それなら今のまま目視で充分」と言いたくなるレベル感
Googleせんせーにお伺い
- 知りたかった方向の情報がヒット(抽出、確率、解析、自然言語処理、モデル)
- 研究とか学術的な内容が多く、敷居が高そう
- AI、機械学習方面で解決を目指す対象なのかも
- シナリオ内でChatGPTせんせーにお伺いすれば良いのかもしれない
- 仮に組み込むとしても、レスポンスややりとりのコストが気になる
- 個人情報だからそもそも外に出す訳にはいかない
anothersolution 回答した質問
回答とコメントは、会員登録(無料)で閲覧できるようになります。
新規登録