sirocco |
|
Темы:
29
Сообщения:
2506
Участник с: 25 июля 2007
|
vasekЭто у "новых", ___x - docx, pptx, ... У старых несколько не так. https://habrahabr.ru/post/110019/ Фактически, это что-то типа файловой системы FAT16, засунутой внутрь отдельного файла. https://habrahabr.ru/post/72745/ |
akorop |
|
Темы:
111
Сообщения:
1756
Участник с: 29 февраля 2012
|
vasekАга, как же. Про картинки не скажу, а вот с рамочками ЕСКД я такого насмотрелся... Открываем старый документ в его родном Word97 - рамочки есть. Открываем в Word2003 - рамки покорёжило. Открываем в Word2010 - рамок нет вообще, только отдельные штрихи да точки. Что при этом творится с вертикальными надписями в этих самых рамках - это отдельная песня. Рамки рисовались встроенными в Word средствами рисования. |
vasek |
|
Темы:
47
Сообщения:
11853
Участник с: 17 февраля 2013
|
akoropДак а я о чем писал - изображение и др. - будут проблемы (или будет, но испорчено) ..... что касается текста, то он будет всегда, за исключением запароленного, на этот счет имеется целое исследование.......... у себя нашел только одну статью ..... просто раньше приходилось заниматься ручным восстановлением испорченных/удаленных файлов .... и документы Office мелкомягких самые поганые.... посмотри на их сигнатуру - docx - 50 4B 03 04 14 00 06 00 - odt - 50 4B 03 04 14 00 00 08 00 PS..... сигнатура ZIP в общем случае - 50 4B 03 04 а вот старые версии имеют другую сигнатуру - doc - D0 CF 11 E0 A1 B1 1A E1 00 А вот если их распаковать как zip файл — то вообще у всех структура разная... для примера два документа doc c одинаковой сигнатурой - Vadim doc …. ls ~/tmp/doc 1Table ObjectPool '[1]CompObj' '[5]DocumentSummaryInformation' '[5]SummaryInformation' Data WordDocument '[5]DocumentSummaryInformation' - более новый doc ….. ls ~/tmp/doc 1Table WordDocument '[1]CompObj' '[5]DocumentSummaryInformation' '[5]SummaryInformation' PS.... akoropа вот это вообще самое поганое.......
Ошибки не исчезают с опытом - они просто умнеют
|
cucullus |
|
Темы:
268
Сообщения:
3554
Участник с: 06 июня 2007
|
Вы бы багрепорт сделали что ль!
такие дела.
|
vasek |
|
Темы:
47
Сообщения:
11853
Участник с: 17 февраля 2013
|
cucullus, кто же будет заниматься проблемами совместимости разных версий Word в Linux ….. вот если была бы проблема открытия разных версий документов Libre (odt), то другое дело ….... А в Libre тоже предусмотрено как открытие так и сохранение разных версий документов odt (сервис/параметры/загрузка_сохранение/Общие/Версия формата ODF... там же типы документов...) и проблем вроде бы нет..... А решать это все довольно сложно...... несколько спецификаций (по несколько сотен страниц каждая) ......... кому интересно, привожу ссылку на структуру документов MS OFFICE (там же есть и ссылки на стандарты).......
Ошибки не исчезают с опытом - они просто умнеют
|
vasek |
|
Темы:
47
Сообщения:
11853
Участник с: 17 февраля 2013
|
Vadim, спасибо за файл.......на твоем файле провел обучение внука по вытаскиванию вручную изображений jpg (на основе его формата), имеющих 2 уровня (2 приложения).....Вот что получилось 1. Все нечитаемые картинки можно извлечь HEX редактором в ручную — всего 65 картинок (это те, что темные.....) - начало картинок - FF D8 FF E1 - конец картинок - FF D9 2. И 2 картинки (те что желтые.....в конце документа), которые читаются и в документе - начало картинок - FF D8 FF E0 (точнее, FF D8 FF E0 00 10 4A 46 49 46 ) - конец картинок - FF D9
Ошибки не исчезают с опытом - они просто умнеют
|
svicer |
|
Темы:
11
Сообщения:
856
Участник с: 27 июля 2014
|
А разве .doc это открытый стандарт, а разве wps office это открытый софт? И сравнивать читалку с редактором, не стоит... |