LibreOffice документы .doc картинки

vasek
и имеет сигнатуру упаковшика (zip)....
Это у "новых", ___x - docx, pptx, ...

У старых несколько не так.

https://habrahabr.ru/post/110019/

Фактически, это что-то типа файловой системы FAT16, засунутой внутрь отдельного файла.

https://habrahabr.ru/post/72745/
vasek
просто обязаны открывать все старые версии Word
Ага, как же. Про картинки не скажу, а вот с рамочками ЕСКД я такого насмотрелся... Открываем старый документ в его родном Word97 - рамочки есть. Открываем в Word2003 - рамки покорёжило. Открываем в Word2010 - рамок нет вообще, только отдельные штрихи да точки. Что при этом творится с вертикальными надписями в этих самых рамках - это отдельная песня. Рамки рисовались встроенными в Word средствами рисования.
akorop
Ага, как же. Про картинки не скажу, а вот с рамочками ЕСКД я такого насмотрелся...
Дак а я о чем писал - изображение и др. - будут проблемы (или будет, но испорчено) ..... что касается текста, то он будет всегда, за исключением запароленного, на этот счет имеется целое исследование.......... у себя нашел только одну статью ..... просто раньше приходилось заниматься ручным восстановлением испорченных/удаленных файлов .... и документы Office мелкомягких самые поганые.... посмотри на их сигнатуру
- docx - 50 4B 03 04 14 00 06 00
- odt - 50 4B 03 04 14 00 00 08 00
PS..... сигнатура ZIP в общем случае - 50 4B 03 04
а вот старые версии имеют другую сигнатуру
- doc - D0 CF 11 E0 A1 B1 1A E1 00
А вот если их распаковать как zip файл — то вообще у всех структура разная... для примера два документа doc c одинаковой сигнатурой
- Vadim doc …. ls ~/tmp/doc
1Table ObjectPool '[1]CompObj' '[5]DocumentSummaryInformation' '[5]SummaryInformation' Data WordDocument '[5]DocumentSummaryInformation'
- более новый doc ….. ls ~/tmp/doc
1Table WordDocument '[1]CompObj' '[5]DocumentSummaryInformation' '[5]SummaryInformation'
PS....
akorop
Рамки рисовались встроенными в Word средствами рисования.
а вот это вообще самое поганое.......
Ошибки не исчезают с опытом - они просто умнеют
Вы бы багрепорт сделали что ль!
такие дела.
cucullus, кто же будет заниматься проблемами совместимости разных версий Word в Linux ….. вот если была бы проблема открытия разных версий документов Libre (odt), то другое дело …....
А в Libre тоже предусмотрено как открытие так и сохранение разных версий документов odt (сервис/параметры/загрузка_сохранение/Общие/Версия формата ODF... там же типы документов...) и проблем вроде бы нет.....
А решать это все довольно сложно...... несколько спецификаций (по несколько сотен страниц каждая) ......... кому интересно, привожу ссылку на структуру документов MS OFFICE (там же есть и ссылки на стандарты).......
Ошибки не исчезают с опытом - они просто умнеют
Vadim, спасибо за файл.......на твоем файле провел обучение внука по вытаскиванию вручную изображений jpg (на основе его формата), имеющих 2 уровня (2 приложения).....Вот что получилось
1. Все нечитаемые картинки можно извлечь HEX редактором в ручную — всего 65 картинок (это те, что темные.....)
- начало картинок - FF D8 FF E1
- конец картинок - FF D9
2. И 2 картинки (те что желтые.....в конце документа), которые читаются и в документе
- начало картинок - FF D8 FF E0 (точнее, FF D8 FF E0 00 10 4A 46 49 46 )
- конец картинок - FF D9
Ошибки не исчезают с опытом - они просто умнеют
А разве .doc это открытый стандарт, а разве wps office это открытый софт? И сравнивать читалку с редактором, не стоит...
 
Зарегистрироваться или войдите чтобы оставить сообщение.