Markdown یک زبان مارکاپ سبک و محبوب است که با استفاده از دستور زبان متنی ساده طراحی شده تا خواندن، نوشتن و درک آن راحت باشد. این زبان به الگوریتمهای هوش مصنوعی کمک میکند تا ساختار متن را به راحتی تجزیه و تحلیل کنند، زیرا دستور زبان آن ثابت و قابل پیش بینی است. همچنین این زبان توسط ابزارهای محبوبی مانند GitHub، دفترچههای Jupyter و غیره بطور گستردهای پشتیبانی میشود.
مایکروسافت اخیراً ابزاری متن باز به نام MarkItDown را در GitHub منتشر کرده است. MarkItDown یک کتابخانه Python برای تبدیل فایلها و اسناد آفیس به Markdown است. فایلهای تبدیل شده سپس میتوانند برای فهرست بندی، تجزیه و تحلیل متن و موارد دیگر استفاده شوند. کتابخانه MarkItDown مایکروسافت در حال حاضر از فرمتهای فایل زیر پشتیبانی میکند:
- PDF (.pdf)
- PowerPoint (.pptx)
- Word (.docx)
- Excel (.xlsx)
- تصاویر (متا داده EXIF و OCR)
- صوتی (متا داده EXIF و تبدیل گفتار به متن)
- HTML (پردازش خاص برای ویکی پدیا و غیره)
- انواع دیگر فرمتهای متنی (csv، json، xml و غیره)
توسعه دهندگان همچنین میتوانند کتابخانه MarkItDown را طوری تنظیم کنند که از مدلهای زبان بزرگ (LLM) برای توصیف تصاویر استفاده کند.
از آنجایی که کتابخانه MarkItDown تحت مجوز متن باز MIT منتشر شده است، توسعه دهندگان میتوانند به راحتی از آن استفاده کنند، آن را اصلاح کنند و توزیع کنند. تنها شرط این است که مجوز و یادداشت حق تکثیر اصلی را در توزیع خود درج کنند.
توسعه دهندگان میتوانند کتابخانه MarkItDown را از اینجا دانلود کنند. همچنین میتوانند آن را با استفاده از دستور “pip install markitdown” نصب کنند، یا از منبع با استفاده از دستور “pip install -e” نصب نمایند.
جدید: مایکروسافت به تازگی کتابخانهای برای تبدیل فایلهای آفیس به Markdown منتشر کرده است.
این ابزار بسیار سریع و راحت برای استفاده است.
source