<div dir="ltr">Thank you Frank for posting. Actually I like your solution a good deal more! One suggestion: use <html><body><pre> ... </pre></body></html> instead of just the html tag and it will preserve the newlines.<div>
<br></div><div>Best wishes,</div><div><br></div><div>Andrew McCullough</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, Nov 20, 2013 at 10:46 AM, Frank Hoffmann <span dir="ltr"><<a href="mailto:hoffmann@koreanstudies.com" target="_blank">hoffmann@koreanstudies.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Many thanks to Andrew McCullough, who send me a solution in a private<br>
mail!!<br>
<br>
Since he did not post it here, let me at least put it down here, just<br>
in case someone else might later look for such a solution and finds the<br>
messages in the list archives.<br>
<br>
The issue that causes the problem of not being able to read Korean<br>
(both, Han'gŭl and Hanja) formatted text in MS Word versions of the<br>
1990s (on pre-Intel Macs, classic Mac OS 7/8/9), Andrew pointed out, is<br>
that "EUC-KR" (known as 완성 in Korea) encoding is being used. That is<br>
still being popular in Korea now, and I still see Websites that use it.<br>
All the standard Web browsers have the option to use "EUC-KR"--but MS<br>
Word does not anymore.<br>
<br>
Andrew's solution--on a PC, under Windows:<br>
Download the free program Notepad++ (<a href="http://notepad-plus-plus.org/" target="_blank">http://notepad-plus-plus.org/</a>), go<br>
<div class="im">to the "Encoding" menu and select "Character Sets"->"Korean"->"EUC-KR".<br>
</div>I tried that, and it works! I can now copy/paste that text into e.g. a<br>
MS Word .docx file. That was PLAIN TEXT, that means no BOLD or ITALICS,<br>
etc. Also, since "EUC-KR" does not have accented characters, ü, é,<br>
etc. will have disappeared. Still, I can now have a regular formatted<br>
text (old MS Word to new MS Word) where only Korean is missing, and<br>
this newly created file, where all the Han'gŭl and Hanja is there (but<br>
some accented characters and Italics etc. are missing)--far from<br>
perfect, but still workable.<br>
<br>
On the Mac the same can be done with programs like "BBEdit"<br>
(commercial) and jEdit (free -- Nick Spencer mention that before).<br>
However, the Windows Notepad++ program does it more seamlessly (I save<br>
myself the details here).<br>
<br>
Alternatively, if one is ONLY looking for some Hanja in old texts, then<br>
this can be done in a few seconds:<br>
Make a COPY of the old MS Word text, rename the .doc type to .html.<br>
Then open that file with a PLAIN TEXT editor and add on top:<br>
 <html><br>
 <body><br>
And add at the very end:<br>
 </body><br>
 </html><br>
You can then look at it using any Web browser -- "File" --> "Open File"<br>
and then choose "EUC-KR" as the text encding. HOWEVER, that does not<br>
get you any line breaks, shows the text as an endless line.<br>
<br>
FURTHER EXPLANATION:<br>
The main reason that the problem occurs seems that with Unicode a<br>
document can now be encoded in one single encoding--while before, in a<br>
mixed text, you would encode Han'gŭl/Hanja in EUC-KR and then anything<br>
else in other encodings. Now you just use Unicode (UTF-8) for all<br>
fonts. Because of that Microsoft has now left out the "EUC-KR" code<br>
page from MS Word (not sure since which version). You can actually see<br>
this if you open the TEST document I uploaded (from 1995) and then go<br>
to the "Save as.." dialog in MS Word and then choose "PLAIN TEXT .txt"<br>
as the format. When you click the "OK" or "Save" button, you see the<br>
below code saving options, and EUC-KR is missing! That also means it<br>
won't anymore auto-convert such old texts to Unicode.<br>
<br><br>
<br>
Best,<br>
Frank<br>
<br>
<br>
<br>
<br>
--------------------------------------<br>
Frank Hoffmann<br>
<a href="http://koreanstudies.com" target="_blank">http://koreanstudies.com</a><br></blockquote></div><br></div>