Markdown یک زبان مارکاپ سبک و محبوب است که با استفاده از دستور زبان متنی ساده طراحی شده تا خواندن، نوشتن و درک آن راحت باشد. این زبان به الگوریتم‌های هوش مصنوعی کمک می‌کند تا ساختار متن را به راحتی تجزیه و تحلیل کنند، زیرا دستور زبان آن ثابت و قابل پیش‌ بینی است. همچنین این زبان توسط ابزارهای محبوبی مانند GitHub، دفترچه‌های Jupyter و غیره بطور گسترده‌ای پشتیبانی می‌شود.

 

مایکروسافت ابزار متن‌ باز برای تبدیل فایل‌های آفیس به Markdown منتشر کرد

 

مایکروسافت اخیراً ابزاری متن‌ باز به نام MarkItDown را در GitHub منتشر کرده است. MarkItDown یک کتابخانه Python برای تبدیل فایل‌ها و اسناد آفیس به Markdown است. فایل‌های تبدیل شده سپس می‌توانند برای فهرست‌ بندی، تجزیه و تحلیل متن و موارد دیگر استفاده شوند. کتابخانه MarkItDown مایکروسافت در حال حاضر از فرمت‌های فایل زیر پشتیبانی می‌کند:

  1. PDF (.pdf)
  2. PowerPoint (.pptx)
  3. Word (.docx)
  4. Excel (.xlsx)
  5. تصاویر (متا داده EXIF و OCR)
  6. صوتی (متا داده EXIF و تبدیل گفتار به متن)
  7. HTML (پردازش خاص برای ویکی‌ پدیا و غیره)
  8. انواع دیگر فرمت‌های متنی (csv، json، xml و غیره)

 

توسعه‌ دهندگان همچنین می‌توانند کتابخانه MarkItDown را طوری تنظیم کنند که از مدل‌های زبان بزرگ (LLM) برای توصیف تصاویر استفاده کند.




 

از آنجایی که کتابخانه MarkItDown تحت مجوز متن‌ باز MIT منتشر شده است، توسعه‌ دهندگان می‌توانند به راحتی از آن استفاده کنند، آن را اصلاح کنند و توزیع کنند. تنها شرط این است که مجوز و یادداشت حق تکثیر اصلی را در توزیع خود درج کنند.

توسعه‌ دهندگان می‌توانند کتابخانه MarkItDown را از اینجا دانلود کنند. همچنین می‌توانند آن را با استفاده از دستور “pip install markitdown” نصب کنند، یا از منبع با استفاده از دستور “pip install -e” نصب نمایند.

 

جدید: مایکروسافت به تازگی کتابخانه‌ای برای تبدیل فایل‌های آفیس به Markdown منتشر کرده است.

این ابزار بسیار سریع و راحت برای استفاده است.

source

توسط nastoor.ir