Word、ExcelをMarkdownに変換するPythonライブラリ「MarkItDown」を使ってみた

MarkItDownというPythonのライブラリがあります。
WordやExcelなどをMarkdown形式に変換します。

導入

Macの場合、ターミナルで次の通り入力します。

pip install markitdown

詳細は次のとおりです。

GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
Python tool for converting files and office documents to Markdown. - microsoft/markitdown

サンプルコード

基本的にこれだけでMarkdown形式のテキストが出力されます。
smple.xxxのところを適宜書き換えます。

from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("sample.xxx")
print(result.text_content)

Word

将軍について説明したWordファイルを作成しました。
タイトルを「将軍」、見出し1を「将軍とは」「各時代」としています。
これを変換するとタイトルは見出しとは認識されず一般のテキストになっています。

将軍

# 将軍とは

将軍とは、日本の封建時代において、天皇から軍事と政治の最高権力を委任された武家の指導者のことです。実質的な国の支配者として、約700年にわたり日本の政治を統治しました。

# 各時代

## 鎌倉幕府

鎌倉幕府の将軍 源頼朝により開かれた鎌倉幕府の初代将軍。武家社会の基礎を築き、武士階級の政治支配の礎を確立した歴史的な人物です。

## 室町幕府

室町幕府の将軍 足利尊氏が開いた幕府で、天皇と武家の権力バランスが特徴的でした。文化や芸術の発展にも大きな影響を与えた時代の指導者です。

## 江戸幕府

江戸幕府の将軍 徳川家康が創設した幕府で、260年以上続く平和な統治を実現。鎖国政策を敷き、安定した封建社会を長期間維持しました。

Excel

一つのシートに足利15代、別のシートに徳川15代の一覧を載せたExcelファイルを変換してみました。
各シートが見出し2となり、表はテーブルに変換されます。

## 徳川
| 代 | 漢字 | かな |
| --- | --- | --- |
| 1 | 家康 | いえやす |
| 2 | 秀忠 | ひでただ |
| 3 | 家光 | いえみつ |
| 4 | 家綱 | いえつな |
| 5 | 綱吉 | つなよし |
| 6 | 家宣 | いえのぶ |
| 7 | 家継 | いえつぐ |
| 8 | 吉宗 | よしむね |
| 9 | 家重 | いえしげ |
| 10 | 家治 | いえはる |
| 11 | 家斉 | いえなり |
| 12 | 家慶 | いえよし |
| 13 | 家定 | いえさだ |
| 14 | 家茂 | いえもち |
| 15 | 慶喜 | よしのぶ |

## 足利
| 代 | 漢字 | かな |
| --- | --- | --- |
| 1 | 尊氏 | たかうじ |
| 2 | 義詮 | よしあきら |
| 3 | 義満 | よしみつ |
| 4 | 義持 | よしもち |
| 5 | 義量 | よしかず |
| 6 | 義教 | よしのり |
| 7 | 義勝 | よしかつ |
| 8 | 義政 | よしまさ |
| 9 | 義尚 | よしひさ |
| 10 | 義材 | よしき |
| 11 | 義澄 | よしずみ |
| 12 | 義晴 | よしはる |
| 13 | 義輝 | よしてる |
| 14 | 義栄 | よしひで |
| 15 | 義昭 | よしあき |

コメント

タイトルとURLをコピーしました