В продолжение идеи, кому интересно вот так качать документы
# Для проекта 160494
PROJECT_ID="160494" && \
FILE_ID=$(curl -s "https://regulation.gov.ru/api/public/PublicProjects/GetProjectStages/$PROJECT_ID" | grep -o '"fileId":"[^"]*"' | head -1 | cut -d'"' -f4) && \
echo "fileId: $FILE_ID" && \
curl "https://regulation.gov.ru/api/public/Files/GetFile?fileId=$FILE_ID" -o "project_${PROJECT_ID}.docx" && \
echo "Файл сохранен: project_${PROJECT_ID}.docx"
вот тут у них лента с айдишниками документов
https://regulation.gov.ru/api/public/Rss
ищем айдишник, читаем docx, кормим нейронку, публикуем выжимку
Да, что бы не искали парсеры docx, это просто zip, там внутри можно текст легко найти думаю.